当前位置: 首页 > 工具软件 > tinypy > 使用案例 >

tinypy源码笔记(三)——虚拟机启动过程以及字节码分析

韦安顺
2023-12-01

启动过程

直接开门见山好了,程序入口为vmmain.cmain函数,启动过程总结起来是以下四步

  • 实例化虚拟机,分配内存,初始化根节点对象,初始化GC
  • 编译,将python源文件编译成tpc字节码(python的字节码是pyc)
  • 执行字节码
  • 释放资源

具体代码分析如下

int main(int argc, char *argv[]) {
    tp_vm *tp = tp_init(argc,argv); // 根据命令行参数生成tp_vm实例
    tp_import(tp,argv[1],"__main__",0,0); // 执行目标python文件
    tp_deinit(tp); // 释放tp_vm实例占用的资源
    return(0);
}

然后再看看tp_init函数做了什么

tp_vm *tp_init(int argc, char *argv[]) {
    tp_vm *tp = _tp_init(); // 分配内存,初始化GC以及根节点对象
    tp_builtins(tp); // 注册built-in函数
    tp_args(tp,argc,argv); // 初始化命令行,赋值到全局变量ARGV
    tp_compiler(tp); // 编译源文件
    return tp;
}

代码执行过程

代码执行过程主要在tp_import函数中,让我们来看看具体是怎么样子的。

核心代码如下


// _tp_import
if (!((fname.type != TP_NONE && _tp_str_index(fname,tp_string(".tpc"))!=-1) || code.type != TP_NONE)) {
    return tp_ez_call(tp,"py2bc","import_fname",tp_params_v(tp,2,fname,name));
}

g = tp_dict(tp);
tp_set(tp,g,tp_string("__name__"),name); // 模块名
tp_set(tp,g,tp_string("__code__"),code); // 模块字节码
tp_set(tp,g,tp_string("__dict__"),g);    // 模块的全局对象,也就是globals()
tp_frame(tp,g,code,0);                   // 非常重要,初始化方法栈,可以理解为初始化临时变量表locals(),创建新的函数调用栈
tp_set(tp,tp->modules,name,g);           // 注册模块到根节点,tp->moduels等价于python中的sys.modules

if (!tp->jmp) { tp_run(tp,tp->cur); }    // 看到run终于舒了一口气,要开始执行了

大丈夫不拘小节,抛开细节,我们看到tp_run最终是下面这样

tp->jmp += 1; if (setjmp(tp->buf)) { tp_handle(tp); } // 处理异常,不管
while (tp->cur >= cur && tp_step(tp) != -1); // 就是你了
tp->jmp -= 1; // 恢复现场

山重水复疑无路,柳暗花明又一村。tp_step其实才是我们要找的函数,看看函数大小就知道了,哈哈哈。tp_step实际上就已经是字节码的执行过程了,字节码听起来非常高大上,一说大家就想到了jvm啊之类的。其实字节码是非常简单,这也是实现跨平台的常用技术,其实就是字节化的中间代码。tinypy中一共有50个字节码,其中有49个有具体的含义,最后一个TP_ITOTAL无特殊意义,作为记录字节码长度作用(枚举值从0开始,TP_ITOTAL刚好等于前面的字节码个数)

下面开始介绍字节码,首先tinypy是基于寄存器的虚拟机字节码,主流语言使用寄存器的语言我知道的主要是lua和dalvik(安卓上的jvm),于此相对的是基于栈的虚拟机,目前大部分高级语言的虚拟机(java,C#,python)等都是基于栈的,关于这方面知识R大大在虚拟机随谈(一):解释器,树遍历解释器,基于栈与基于寄存器,大杂烩中讲的非常清楚,大家有兴趣的可以去看看

这里简单介绍一下基于寄存器的虚拟机,现实中的CPU绝大部分是基于寄存器的,比如X86,ARM等。基于寄存器的虚拟机指令一般是

操作符 结果寄存器(RA) 参数1(RB) 参数2(RC)

举个例子

c = a + b;

编译成字节码就是

ADD [c] [a] [b] // [n] 指变量n对应的寄存器地址,虚拟机地址一般是寄存器数组的下标

再举个复杂一点的例子

if (a > 10):
    print('a > 10')

编译成字节码是

1: TP_INUMBER B 10          // B = 10
2: TP_ILT C B A             // tinypy只定义了<符号,>操作需要交换两个值; C = B < A
3: TP_IIF C                 // if C: 跳过一条指令
4: TP_IJUMP 4               // 跳过4条指令
5: TP_ISTRING D 'print'     // D = 'print
6: TP_IGGET E D             // E = globals()[D]
7: TP_ISTRING F 'a > 10'    // F = 'a > 10'
8: TP_ICALL E F 1           // tp_call(E, 1, F);

tinypy中的有三个宏RA,RB,RC分别对应这三个寄存器

int tp_step(TP) {
    tp_frame_ *f = &tp->frames[tp->cur];
    tp_obj *regs = f->regs;
    tp_code *cur = f->cur;
    while(1) {
    #ifdef TP_SANDBOX
    tp_bounds(tp,cur,1);
    #endif
    tp_code e = *cur;
    /*
     fprintf(stderr,"%2d.%4d: %-6s %3d %3d %3d\n",tp->cur,cur - (tp_code*)f->code.string.val,tp_strings[e.i],VA,VB,VC);
       int i; for(i=0;i<16;i++) { fprintf(stderr,"%d: %s\n",i,TP_xSTR(regs[i])); }
    */
    switch (e.i) {
        case TP_IEOF: tp_return(tp,tp_None); SR(0); break; // 处理返回值
        case TP_IADD: RA = tp_add(tp,RB,RC); break; // 加法运算
        case TP_ISUB: RA = tp_sub(tp,RB,RC); break; // 减法运算
        case TP_IMUL: RA = tp_mul(tp,RB,RC); break; // 乘法运算
        case TP_IDIV: RA = tp_div(tp,RB,RC); break; // 除法运算
        case TP_IPOW: RA = tp_pow(tp,RB,RC); break; // 乘方运算
        case TP_IBITAND: RA = tp_bitwise_and(tp,RB,RC); break;  // 与
        case TP_IBITOR:  RA = tp_bitwise_or(tp,RB,RC); break;   // 或
        case TP_IBITXOR:  RA = tp_bitwise_xor(tp,RB,RC); break; // 异或
        case TP_IMOD:  RA = tp_mod(tp,RB,RC); break; // 取模运算
        case TP_ILSH:  RA = tp_lsh(tp,RB,RC); break; // 左移运算
        case TP_IRSH:  RA = tp_rsh(tp,RB,RC); break; // 右移运算
        case TP_ICMP: RA = tp_number(tp_cmp(tp,RB,RC)); break;   // 比较运算
        case TP_INE: RA = tp_number(tp_cmp(tp,RB,RC)!=0); break; // 不等于判断
        case TP_IEQ: RA = tp_number(tp_cmp(tp,RB,RC)==0); break; // 等于判断
        case TP_ILE: RA = tp_number(tp_cmp(tp,RB,RC)<=0); break; // 小于等于判断
        case TP_ILT: RA = tp_number(tp_cmp(tp,RB,RC)<0); break;  // 小于判断
        case TP_IBITNOT:  RA = tp_bitwise_not(tp,RB); break;     // 按位取反,也就是~
        case TP_INOT: RA = tp_number(!tp_bool(tp,RB)); break;    // not操作
        case TP_IPASS: break; // pass操作
        case TP_IIF: if (tp_bool(tp,RA)) { cur += 1; } break;   // RA为真则继续,下一个指令时跳转指令
        case TP_IIFN: if (!tp_bool(tp,RA)) { cur += 1; } break; // RA不为真继续
        case TP_IGET: RA = tp_get(tp,RB,RC); GA; break;         // RA = RB[RC]
        case TP_IITER:                                          // 迭代器,RB是计数器
            if (RC.number.val < tp_len(tp,RB).number.val) {
                RA = tp_iter(tp,RB,RC); GA;
                RC.number.val += 1;
                #ifdef TP_SANDBOX
                tp_bounds(tp,cur,1);
                #endif
                cur += 1;
            }
            break;
        case TP_IHAS: RA = tp_has(tp,RB,RC); break;  // 包含运算
        case TP_IIGET: tp_iget(tp,&RA,RB,RC); break; // RA = RB[RC], 如果RB没有RC属性,不会抛出异常
        case TP_ISET: tp_set(tp,RA,RB,RC); break;    // RA[RB] = RC
        case TP_IDEL: tp_del(tp,RA,RB); break;       // delete RA[RB]
        case TP_IMOVE: RA = RB; break;               // RA = RB
        case TP_INUMBER:                             // RA = 数字,相当于反序列化或者解码
            #ifdef TP_SANDBOX
            tp_bounds(tp,cur,sizeof(tp_num)/4);
            #endif
            RA = tp_number(*(tp_num*)(*++cur).string.val);
            cur += sizeof(tp_num)/4;
            continue;
        case TP_ISTRING: {                           // RA = 字符串,同数字
            #ifdef TP_SANDBOX
            tp_bounds(tp,cur,(UVBC/4)+1);
            #endif
            /* RA = tp_string_n((*(cur+1)).string.val,UVBC); */
            int a = (*(cur+1)).string.val-f->code.string.val;
            RA = tp_string_sub(tp,f->code,a,a+UVBC),
            cur += (UVBC/4)+1;
            }
            break;
        case TP_IDICT: RA = tp_dict_n(tp,VC/2,&RB); break;   // RA = [RB开始的K-V列表组成的字典,长度为RC/2]
        case TP_ILIST: RA = tp_list_n(tp,VC,&RB); break;     // RA = [RB开始列表,长度为RC]
        case TP_IPARAMS: RA = tp_params_n(tp,VC,&RB); break; // RA = [RB开始的参数列表,长度为RC]
        case TP_ILEN: RA = tp_len(tp,RB); break;     // RA = len(RB)
        case TP_IJUMP: cur += SVBC; continue; break; // 跳转, SVBC是RB<<4 + RC
        case TP_ISETJMP: f->jmp = SVBC?cur+SVBC:0; break;
        case TP_ICALL:                                // 调用函数,tp_call
            #ifdef TP_SANDBOX
            tp_bounds(tp,cur,1);
            #endif
            f->cur = cur + 1;  RA = tp_call(tp,RB,RC); GA;
            return 0; break;
        case TP_IGGET:                                     // RA = globals()[RB]
            if (!tp_iget(tp,&RA,f->globals,RB)) {
                RA = tp_get(tp,tp->builtins,RB); GA;
            }
            break;
        case TP_IGSET: tp_set(tp,f->globals,RA,RB); break;    // globals()[RA] = RB
        case TP_IDEF: {                                       // 定义函数, tp_def把函数字节码关联到函数结构体上
/*            RA = tp_def(tp,(*(cur+1)).string.val,f->globals);*/
            #ifdef TP_SANDBOX
            tp_bounds(tp,cur,SVBC);
            #endif
            int a = (*(cur+1)).string.val-f->code.string.val;
            RA = tp_def(tp,
                /*tp_string_n((*(cur+1)).string.val,(SVBC-1)*4),*/
                tp_string_sub(tp,f->code,a,a+(SVBC-1)*4),
                f->globals);
            cur += SVBC; continue;
            }
            break;

        case TP_IRETURN: tp_return(tp,RA); SR(0); break; // 返回结果
        case TP_IRAISE: _tp_raise(tp,RA); SR(0); break;  // 抛出异常
        case TP_IDEBUG:                                  // DEBUG
            tp_params_v(tp,3,tp_string("DEBUG:"),tp_number(VA),RA); tp_print(tp);
            break;
        case TP_INONE: RA = tp_None; break;              // RA = None
        case TP_ILINE:                                   // 当前行代码,用于异常的展示
            #ifdef TP_SANDBOX
            tp_bounds(tp,cur,VA);
            #endif
            ;
            int a = (*(cur+1)).string.val-f->code.string.val;
/*            f->line = tp_string_n((*(cur+1)).string.val,VA*4-1);*/
            f->line = tp_string_sub(tp,f->code,a,a+VA*4-1);
/*             fprintf(stderr,"%7d: %s\n",UVBC,f->line.string.val);*/
            cur += VA; f->lineno = UVBC;
            break;
        case TP_IFILE: f->fname = RA; break;            // 设置文件名,打印异常栈使用
        case TP_INAME: f->name = RA; break;             // 设置模块名,初始化模块
        case TP_IREGS: f->cregs = VA; break;            // 初始化寄存器数组
        default:
            tp_raise(0,tp_string("(tp_step) RuntimeError: invalid instruction"));
            break;
    }
    #ifdef TP_SANDBOX
    tp_time_update(tp);
    tp_mem_update(tp);
    tp_bounds(tp,cur,1);
    #endif
    cur += 1;
    }
    SR(0);
}

我实现的虚拟机 http://github.com/xupingmao/minipy

 类似资料: