PeachPy

嵌入在 Python 的 x86-64 汇编器
授权协议 BSD
开发语言 Python
所属分类 程序开发、 代码生成工具
软件类型 开源软件
地区 不详
投 递 者 姜松
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

PeachPy 是一个用于编写高性能汇编内核的 Python 框架,可在汇编中编写模块。 它自动化了一些细节,并允许使用 Python 生成重复的汇编代码序列。

PeachPy 旨在简化编写优化的汇编内核,同时保留传统的汇编所有优化机会。一些特性:

  • 用于 Windows,Unix 和 Golang 程序集的通用汇编语法.

    • PeachPy 可以直接生成 ELF,MS COFF 和 Mach-O 对象文件以及 Golang 工具链的汇编列表

  • 自动适应不同的调用约定和 ABIs

    • 用于不同平台的功能可以从汇编相同的源生成

    • 支持 Microsoft x64 ABI, System V x86-64 ABI (Linux 和 OS X), Linux x32 ABI, Native Client x86-64 SFI ABI, Golang AMD64 ABI, Golang AMD64p32 ABI

  • 自动分配寄存器

    • PeachPy 是灵活的,而且允许在同一代码中混合自动分配寄存器和硬编码寄存器

  • 汇编编程中常规任务的自动化:

    • 函数 prolog 和 epilog 由 PeachPy 生成

    • 数据常量的重复数据删除 (e.g. Constant.float32x4(1.0))

    • 分析在函数中使用的 ISA 扩展

  • 支持 x86-64 指令,最高可达 AVX-512 和 SHA

    • 包含 3dnow!+, XOP, FMA3, FMA4, TBM 和 BMI2.

    • 不包括 x87 FPU 和大多数系统指令

    • 使用自动生成的测试 auto-generated tests 进行严格测试,以生成与 binutils 相同的操作码

  • 自动生成元数据文件

    • 具有模块依赖性的Makefile (-MMD 和-MF 选项)

    • C 头文件生成的函数

    • JSON 格式的函数元数据

  • 基于 Python 的元编程和代码生成

  • 多个指令流的复用(有助于软件流水线)

  • 兼容 Python 2 和 Python 3,CPython 和 PyPy

在线 DEMO: PeachPy.IO

 相关资料
  • 本文向大家介绍C# 通过 inline-asm 解决嵌入x86汇编,包括了C# 通过 inline-asm 解决嵌入x86汇编的使用技巧和注意事项,需要的朋友参考一下 "嵌入"是指什么?资源?注入进程?如果是嵌入资源,那跟嵌入任何其他内容是一样的,vs中只要拖拽就能完成嵌入资源。如果是注入进程,则必须得先将汇编码转为机器码。虽然托管的C#也是能办到,但这似乎是所有人都不推荐的方式。 C#可不可以嵌

  • 本文向大家介绍Intel x86 Assembly& Microarchitecture x86汇编语言,包括了Intel x86 Assembly& Microarchitecture x86汇编语言的使用技巧和注意事项,需要的朋友参考一下 示例 x86汇编语言家族代表了最初的Intel 8086架构数十年来的进步。除了基于所使用的汇编器的几种方言外,多年来添加了附加的处理器指令,寄存器和其他功

  • 我目前正在编写一些C99标准库字符串函数的高度优化版本,如< code>strlen()、< code>memset()等,使用带有SSE-2指令的x86-64汇编。 到目前为止,我已经设法在性能方面取得了出色的成绩,但是当我试图进一步优化时,我有时会遇到奇怪的行为。 例如,添加甚至删除一些简单的指令,或者简单地重组一些与跳转一起使用的本地标签会完全降低整体性能。而且在代码方面绝对没有理由。 所以

  • 问题内容: 我有用32位汇编语言编写的程序…现在,我无法在64位OS上对其进行编译。在我们学校,它们是特定的,程序必须以32位版本编写。这是我的程序: 任何的想法?我尝试了很多方法来编译它。编译后输出错误: 输出: 问题答案: 首先将更改为并将符号更改为,然后使用链接目标文件,该文件将自动链接至该文件, 您需要这样做,因为AFAIK如果没有,就无法链接至libc。另外,在汇编时也应使用elf32而

  • 我希望以尽可能短的汇编代码量反转字符串。 由于缺乏Unicorn支持,我只能使用SSSE3扩展或更少。我尝试访问ymm 即使SSSE3指令更简洁,用于128位XMM寄存器字节反转的16字节pshufb控制向量仍然占用16字节,使其更长。我对任何想法都持开放态度,但以下是我最好的尝试。 我需要32个字节或更少,越小越好。到目前为止,我得到的最好值是42,但我假设rdx(如果使用x86,则为ecx)内

  • 背景: 在使用嵌入式汇编语言优化某些Pascal代码时,我注意到一条不必要的MOV指令,并将其删除。 令我惊讶的是,删除不必要的指令导致我的程序速度减慢。 我发现添加任意、无用的指令会进一步提高性能。 效果是不稳定的,并且基于执行顺序的更改:由单行向上或向下转置的相同垃圾指令会产生减速。 我知道CPU会进行各种优化和精简,但这更像是黑魔法。 数据: 我的代码的一个版本在一个循环的中间有条件地编译了