GIZA++

机器翻译解决方案
授权协议 未知
开发语言 C/C++
所属分类 程序开发、 其他开发相关
软件类型 开源软件
地区 不详
投 递 者 薛欣德
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

GIZA++ is an extension of the program GIZA (part of the SMT toolkit EGYPT) which was developed by the Statistical Machine Translation team during the summer workshop in 1999 at the Center for Language and Speech Processing at Johns-Hopkins University (CLSP/JHU). GIZA++ includes a lot of additional features. The extensions of GIZA++ were designed and written by Franz Josef Och.

  •   首先下载1500句平行句对,作为GIZA++的实验语料 利用java程序将1500句对进行分离,注意里面有一句中文多加了一个回车符,找到并删掉,然后执行该java程序。得到汉英分离的两个文件chinese和english两个文件。接下来利用中科院的分词工具和EGYPT分别实现对中文和英文进行分词,生成两个文件chinese_segment.txt和english.segment.txt。 这里

  • 安装很简单,直接在根目录make就可以。 建一个tool目录,将GIZA++-v2内的plain2snt.out,snt2cooc.out,GIZA++复制到tool中,再将mkcls-v2下的mkcls也复制进去,同时把chinese_segment.txt和english_segment.txt也放进去。 接下来,执行下面的指令来完成将普通文本转化为 GIZA++ 格式 ./plain2snt

  • How To Compile, Install and Run GIZA++ Partially copy from original article: http://kwang.blogdns.com/research/how-to-compile-install-run-giza.html Download GIZA++: GIZA++ is available here: http://co

  • 使用GIZA++进行平行语料的词对齐   在使用moses搭建机器翻译系统时,词对齐的过程是和模型训练结合在一起的,GIZA++运行的很多细节都被跳过。本文是将GIZA++单独拿出来,关注其从编译、运行到最终获取对齐文件各阶段的细节问题,以求更加深刻地理解GIZA++的工作原理。   1、 编译安装GIZA++ 最新版本的GIZA++可以从下列链接中找到http://code.google.com

  • 点击打开链接http://www.leexiang.com/gizapp-report

  • 关于 GIZA++ 官网:http://www.fjoch.com/GIZA++.html github: https://github.com/moses-smt/giza-pp 安装 # 下载 $ git cl

  • 由于搭建Moses环境需要多个模块之间相互调用,模块之间存在版本搭配的问题,笔者也尝试过,不同的模块版本相互搭配的话造成编译失败的可能性非常大,经过不到一周的坚持,总算搭建成功,下面是我成功搭建的各个模块的具体版本,笔者建议大家使用相同的版本。PS:本人是在新安装的系统下搭建的,测试是汉语->英语的翻译^_^ 系统:ubuntu:15.04 32位操作系统 Moses版本:2015.2.28日发布

  • GIZA++运行报告zz 一。工作目标 1.构建汉英对齐语料库。 2.下载并编译GIZA++,CMU-Cambridge Statistical Language Modeling toolkit,(以下简称CMU toolkit)获得实验所需的可执行文件。 3.利用目标1所构建的语料库,通过GIZA++进行IBM Model 1-5的训练。 4.利用目标1所构建的语料库,通过mkcls构建wor

  • [github] https://github.com/moses-smt/giza-pp 安装翻译模型训练工具Giza++,mkcls https://www.52nlp.cn/ubuntu-moses-platform-build-process-record https://blog.csdn.net/orangefly0214/article/details/103534257

 相关资料
  • 机器翻译是指将一段文本从一种语言自动翻译到另一种语言。因为一段文本序列在不同语言中的长度不一定相同,所以我们使用机器翻译为例来介绍编码器—解码器和注意力机制的应用。 读取和预处理数据 我们先定义一些特殊符号。其中“<pad>”(padding)符号用来添加在较短序列后,直到每个序列等长,而“<bos>”和“<eos>”符号分别表示序列的开始和结束。 import collections impo

  • 所有编程语言都被翻译成机器代码,然后由硬件解释器执行。但是什么翻译译码器的代码,例如编译器代码和解释器代码?编译器翻译源代码,但编译器也用某种语言编写,那么什么翻译编译器代码/代码呢? 谢谢

  • 本文向大家介绍tomcat服务器宕机解决方案,包括了tomcat服务器宕机解决方案的使用技巧和注意事项,需要的朋友参考一下 报错信息: 每次出现这个报错都会导致tomcat应用服务器停机,加了下面的java代码后就再也没有停过了。 解决办法: 编写Java代码 @WebListener,这个注解相当于在web.xml配置如下内容 解决方案可以参考如下网址 当然还有就是我再参考这个解决方案的时候,发

  • 本文向大家介绍理解Java当中的回调机制(翻译),包括了理解Java当中的回调机制(翻译)的使用技巧和注意事项,需要的朋友参考一下 你好,今天我要和大家分享一些东西,举例来说这个在JavaScript中用的很多。我要讲讲回调(callbacks)。你知道什么时候用,怎么用这个吗?你真的理解了它在java环境中的用法了吗?当我也问我自己这些问题,这也是我开始研究这些的原因。这个背后的思想是控制反转(

  • etcd 是一个分布式键值对存储,设计用来可靠而快速的保存关键数据并提供访问。通过分布式锁,leader选举和写屏障(write barriers)来开启可靠的分布式协同。etcd集群是为高可用,持久性数据存储和检索而准备。 开始 现在etcd的用户和开发者可以从 下载并构建 etcd开始。在获取etcd之后,跟随 quick demo 来看构建和操作etcd集群的基本内容。 使用etcd开发 开

  • 您可使用 Google Translate™ 应用程式翻译词组: 按下侧边电源按钮打开应用程式菜单,找到并轻触Translate(翻译)。 您将看到翻译源语言与目标语言这两种语言。您可通过轻触某一语言的名称来更改语言。 轻触“麦克风”图标并说出您想翻译的词组。 译文将显示在屏幕上。