直接开门见山好了,程序入口为vmmain.c
的main
函数,启动过程总结起来是以下四步
具体代码分析如下
int main(int argc, char *argv[]) {
tp_vm *tp = tp_init(argc,argv); // 根据命令行参数生成tp_vm实例
tp_import(tp,argv[1],"__main__",0,0); // 执行目标python文件
tp_deinit(tp); // 释放tp_vm实例占用的资源
return(0);
}
然后再看看tp_init
函数做了什么
tp_vm *tp_init(int argc, char *argv[]) {
tp_vm *tp = _tp_init(); // 分配内存,初始化GC以及根节点对象
tp_builtins(tp); // 注册built-in函数
tp_args(tp,argc,argv); // 初始化命令行,赋值到全局变量ARGV
tp_compiler(tp); // 编译源文件
return tp;
}
代码执行过程主要在tp_import
函数中,让我们来看看具体是怎么样子的。
核心代码如下
// _tp_import
if (!((fname.type != TP_NONE && _tp_str_index(fname,tp_string(".tpc"))!=-1) || code.type != TP_NONE)) {
return tp_ez_call(tp,"py2bc","import_fname",tp_params_v(tp,2,fname,name));
}
g = tp_dict(tp);
tp_set(tp,g,tp_string("__name__"),name); // 模块名
tp_set(tp,g,tp_string("__code__"),code); // 模块字节码
tp_set(tp,g,tp_string("__dict__"),g); // 模块的全局对象,也就是globals()
tp_frame(tp,g,code,0); // 非常重要,初始化方法栈,可以理解为初始化临时变量表locals(),创建新的函数调用栈
tp_set(tp,tp->modules,name,g); // 注册模块到根节点,tp->moduels等价于python中的sys.modules
if (!tp->jmp) { tp_run(tp,tp->cur); } // 看到run终于舒了一口气,要开始执行了
大丈夫不拘小节,抛开细节,我们看到tp_run
最终是下面这样
tp->jmp += 1; if (setjmp(tp->buf)) { tp_handle(tp); } // 处理异常,不管
while (tp->cur >= cur && tp_step(tp) != -1); // 就是你了
tp->jmp -= 1; // 恢复现场
山重水复疑无路,柳暗花明又一村。tp_step
其实才是我们要找的函数,看看函数大小就知道了,哈哈哈。tp_step
实际上就已经是字节码的执行过程了,字节码听起来非常高大上,一说大家就想到了jvm
啊之类的。其实字节码是非常简单,这也是实现跨平台的常用技术,其实就是字节化的中间代码。tinypy
中一共有50个字节码,其中有49个有具体的含义,最后一个TP_ITOTAL
无特殊意义,作为记录字节码长度作用(枚举值从0开始,TP_ITOTAL刚好等于前面的字节码个数)
下面开始介绍字节码,首先tinypy
是基于寄存器的虚拟机字节码,主流语言使用寄存器的语言我知道的主要是lua和dalvik(安卓上的jvm),于此相对的是基于栈的虚拟机,目前大部分高级语言的虚拟机(java,C#,python)等都是基于栈的,关于这方面知识R大大在虚拟机随谈(一):解释器,树遍历解释器,基于栈与基于寄存器,大杂烩中讲的非常清楚,大家有兴趣的可以去看看
这里简单介绍一下基于寄存器的虚拟机,现实中的CPU绝大部分是基于寄存器的,比如X86,ARM等。基于寄存器的虚拟机指令一般是
操作符 结果寄存器(RA) 参数1(RB) 参数2(RC)
举个例子
c = a + b;
编译成字节码就是
ADD [c] [a] [b] // [n] 指变量n对应的寄存器地址,虚拟机地址一般是寄存器数组的下标
再举个复杂一点的例子
if (a > 10):
print('a > 10')
编译成字节码是
1: TP_INUMBER B 10 // B = 10
2: TP_ILT C B A // tinypy只定义了<符号,>操作需要交换两个值; C = B < A
3: TP_IIF C // if C: 跳过一条指令
4: TP_IJUMP 4 // 跳过4条指令
5: TP_ISTRING D 'print' // D = 'print
6: TP_IGGET E D // E = globals()[D]
7: TP_ISTRING F 'a > 10' // F = 'a > 10'
8: TP_ICALL E F 1 // tp_call(E, 1, F);
tinypy
中的有三个宏RA
,RB
,RC
分别对应这三个寄存器
int tp_step(TP) {
tp_frame_ *f = &tp->frames[tp->cur];
tp_obj *regs = f->regs;
tp_code *cur = f->cur;
while(1) {
#ifdef TP_SANDBOX
tp_bounds(tp,cur,1);
#endif
tp_code e = *cur;
/*
fprintf(stderr,"%2d.%4d: %-6s %3d %3d %3d\n",tp->cur,cur - (tp_code*)f->code.string.val,tp_strings[e.i],VA,VB,VC);
int i; for(i=0;i<16;i++) { fprintf(stderr,"%d: %s\n",i,TP_xSTR(regs[i])); }
*/
switch (e.i) {
case TP_IEOF: tp_return(tp,tp_None); SR(0); break; // 处理返回值
case TP_IADD: RA = tp_add(tp,RB,RC); break; // 加法运算
case TP_ISUB: RA = tp_sub(tp,RB,RC); break; // 减法运算
case TP_IMUL: RA = tp_mul(tp,RB,RC); break; // 乘法运算
case TP_IDIV: RA = tp_div(tp,RB,RC); break; // 除法运算
case TP_IPOW: RA = tp_pow(tp,RB,RC); break; // 乘方运算
case TP_IBITAND: RA = tp_bitwise_and(tp,RB,RC); break; // 与
case TP_IBITOR: RA = tp_bitwise_or(tp,RB,RC); break; // 或
case TP_IBITXOR: RA = tp_bitwise_xor(tp,RB,RC); break; // 异或
case TP_IMOD: RA = tp_mod(tp,RB,RC); break; // 取模运算
case TP_ILSH: RA = tp_lsh(tp,RB,RC); break; // 左移运算
case TP_IRSH: RA = tp_rsh(tp,RB,RC); break; // 右移运算
case TP_ICMP: RA = tp_number(tp_cmp(tp,RB,RC)); break; // 比较运算
case TP_INE: RA = tp_number(tp_cmp(tp,RB,RC)!=0); break; // 不等于判断
case TP_IEQ: RA = tp_number(tp_cmp(tp,RB,RC)==0); break; // 等于判断
case TP_ILE: RA = tp_number(tp_cmp(tp,RB,RC)<=0); break; // 小于等于判断
case TP_ILT: RA = tp_number(tp_cmp(tp,RB,RC)<0); break; // 小于判断
case TP_IBITNOT: RA = tp_bitwise_not(tp,RB); break; // 按位取反,也就是~
case TP_INOT: RA = tp_number(!tp_bool(tp,RB)); break; // not操作
case TP_IPASS: break; // pass操作
case TP_IIF: if (tp_bool(tp,RA)) { cur += 1; } break; // RA为真则继续,下一个指令时跳转指令
case TP_IIFN: if (!tp_bool(tp,RA)) { cur += 1; } break; // RA不为真继续
case TP_IGET: RA = tp_get(tp,RB,RC); GA; break; // RA = RB[RC]
case TP_IITER: // 迭代器,RB是计数器
if (RC.number.val < tp_len(tp,RB).number.val) {
RA = tp_iter(tp,RB,RC); GA;
RC.number.val += 1;
#ifdef TP_SANDBOX
tp_bounds(tp,cur,1);
#endif
cur += 1;
}
break;
case TP_IHAS: RA = tp_has(tp,RB,RC); break; // 包含运算
case TP_IIGET: tp_iget(tp,&RA,RB,RC); break; // RA = RB[RC], 如果RB没有RC属性,不会抛出异常
case TP_ISET: tp_set(tp,RA,RB,RC); break; // RA[RB] = RC
case TP_IDEL: tp_del(tp,RA,RB); break; // delete RA[RB]
case TP_IMOVE: RA = RB; break; // RA = RB
case TP_INUMBER: // RA = 数字,相当于反序列化或者解码
#ifdef TP_SANDBOX
tp_bounds(tp,cur,sizeof(tp_num)/4);
#endif
RA = tp_number(*(tp_num*)(*++cur).string.val);
cur += sizeof(tp_num)/4;
continue;
case TP_ISTRING: { // RA = 字符串,同数字
#ifdef TP_SANDBOX
tp_bounds(tp,cur,(UVBC/4)+1);
#endif
/* RA = tp_string_n((*(cur+1)).string.val,UVBC); */
int a = (*(cur+1)).string.val-f->code.string.val;
RA = tp_string_sub(tp,f->code,a,a+UVBC),
cur += (UVBC/4)+1;
}
break;
case TP_IDICT: RA = tp_dict_n(tp,VC/2,&RB); break; // RA = [RB开始的K-V列表组成的字典,长度为RC/2]
case TP_ILIST: RA = tp_list_n(tp,VC,&RB); break; // RA = [RB开始列表,长度为RC]
case TP_IPARAMS: RA = tp_params_n(tp,VC,&RB); break; // RA = [RB开始的参数列表,长度为RC]
case TP_ILEN: RA = tp_len(tp,RB); break; // RA = len(RB)
case TP_IJUMP: cur += SVBC; continue; break; // 跳转, SVBC是RB<<4 + RC
case TP_ISETJMP: f->jmp = SVBC?cur+SVBC:0; break;
case TP_ICALL: // 调用函数,tp_call
#ifdef TP_SANDBOX
tp_bounds(tp,cur,1);
#endif
f->cur = cur + 1; RA = tp_call(tp,RB,RC); GA;
return 0; break;
case TP_IGGET: // RA = globals()[RB]
if (!tp_iget(tp,&RA,f->globals,RB)) {
RA = tp_get(tp,tp->builtins,RB); GA;
}
break;
case TP_IGSET: tp_set(tp,f->globals,RA,RB); break; // globals()[RA] = RB
case TP_IDEF: { // 定义函数, tp_def把函数字节码关联到函数结构体上
/* RA = tp_def(tp,(*(cur+1)).string.val,f->globals);*/
#ifdef TP_SANDBOX
tp_bounds(tp,cur,SVBC);
#endif
int a = (*(cur+1)).string.val-f->code.string.val;
RA = tp_def(tp,
/*tp_string_n((*(cur+1)).string.val,(SVBC-1)*4),*/
tp_string_sub(tp,f->code,a,a+(SVBC-1)*4),
f->globals);
cur += SVBC; continue;
}
break;
case TP_IRETURN: tp_return(tp,RA); SR(0); break; // 返回结果
case TP_IRAISE: _tp_raise(tp,RA); SR(0); break; // 抛出异常
case TP_IDEBUG: // DEBUG
tp_params_v(tp,3,tp_string("DEBUG:"),tp_number(VA),RA); tp_print(tp);
break;
case TP_INONE: RA = tp_None; break; // RA = None
case TP_ILINE: // 当前行代码,用于异常的展示
#ifdef TP_SANDBOX
tp_bounds(tp,cur,VA);
#endif
;
int a = (*(cur+1)).string.val-f->code.string.val;
/* f->line = tp_string_n((*(cur+1)).string.val,VA*4-1);*/
f->line = tp_string_sub(tp,f->code,a,a+VA*4-1);
/* fprintf(stderr,"%7d: %s\n",UVBC,f->line.string.val);*/
cur += VA; f->lineno = UVBC;
break;
case TP_IFILE: f->fname = RA; break; // 设置文件名,打印异常栈使用
case TP_INAME: f->name = RA; break; // 设置模块名,初始化模块
case TP_IREGS: f->cregs = VA; break; // 初始化寄存器数组
default:
tp_raise(0,tp_string("(tp_step) RuntimeError: invalid instruction"));
break;
}
#ifdef TP_SANDBOX
tp_time_update(tp);
tp_mem_update(tp);
tp_bounds(tp,cur,1);
#endif
cur += 1;
}
SR(0);
}