安装很简单,直接在根目录make就可以。
建一个tool目录,将GIZA++-v2内的plain2snt.out,snt2cooc.out,GIZA++复制到tool中,再将mkcls-v2下的mkcls也复制进去,同时把chinese_segment.txt和english_segment.txt也放进去。
接下来,执行下面的指令来完成将普通文本转化为 GIZA++ 格式
./plain2snt.out chinese_segment.txt english_segment.txt
接下来是获得共现文件
./snt2cooc.out chinese_segment.vcb english_segment.vcb chinese_segment_english_segment.snt > chn_eng.cooc
./snt2cooc.out english_segment.vcb chinese_segment.vcb english_segment_chinese_segment.snt > eng_chn.cooc
接下来构建GIZA++所需的mkcls文件
./mkcls -pchinese_segment.txt -Vchinese.vcb.classes opt(注意-p和-V和后面的文件名是连起来的)
./mkcls -penglish_segment.txt -Venglish.vcb.classes opt(同上)
接下来运行GIZA++来实现对齐操作
./GIZA++ -S chinese_segment.vcb –T english_segment.vcb –C chinese_segment_english_segment.snt -CoocurrenceFile chn_eng.cooc -O c2e
./GIZA++ -S english_segment.vcb –T chinese_segment.vcb –C english_segment_chinese_segment.snt -CoocurrenceFile eng_chn.cooc -O e2c