当前位置: 首页 > 知识库问答 >
问题:

使用stanford词性标记器的阿拉伯语标记

鄂昌胤
2023-03-14

我是完全新的NLP的世界,我需要你的帮助开始标记阿拉伯语句子使用漂亮的斯坦福pos标签

我已经安装了一个完整的版本,其中包含两个阿拉伯语培训的标签。

请指导我使用java和eclipse在阿拉伯语中应用此标记器,

    我应该导入什么?
  1. 我该给模特们加些什么
  2. 处理阿拉伯语的函数和库
  3. 即使它不在训练集中,这个标记器也能给出正确的标记吗?

事实上,我已经浏览了斯坦福大学的官方网站,但它没有那么大的帮助

先谢谢你

共有1个答案

阎经武
2023-03-14

这里是您可以下载Stanford解析器的链接:nlp.stanford.edu/software/lex-parser.shtml

我希望你已经Java环境工作。因此,请进入放置解析器文件的目录。

java -mx200m edu.stanford.nlp.parser.lexparser.LexicalizedParser -retainTMPSubcategories -outputFormat "wordsAndTags,penn,typedDependencies" englishPCFG.ser.gz mumbai.txt

孟买。txt是输入文件。

但是我发现伯克利的解析更好。您可以从https://code.google.com/p/berkeleyparser/downloads/list下载

为阿拉伯文文本下载解析器jar文件和语法。

然后执行简单命令:

java -jar BerkeleyParser-1.7gr eng_sm6.gr 

现在输入您要分析的任何句子。

对于POS,您可以从http://nlp.stanford.edu/software/tagger.shtml

 类似资料:
  • 问题内容: 我正在使用适用于Android的Google Maps API v2,并且已经使用类将标记添加到地图片段中,如下所示: 但在地图上显示为空标题。 有任何想法吗? 问题答案: 我认为这是一个错误,到目前为止还没有真正的解决方案,但是您可以在标题中添加从左到右的unicode标记,如下所示:

  • 问题内容: 我有一个要排序的阿拉伯语单词列表。我曾尝试使用不同的语言环境(例如英语或法语,但希望不高)使用标准的Collat​​or,甚至创建了自己的RuleBasedCollat​​or,但无济于事。显然,默认排序依赖于unicode值顺序,该顺序在许多情况下都有效,但显然不适用于此顺序。 按照javadocs的说明,RuleBasedCollat​​or需要一个字符串,该字符串以您希望它们排序

  • 我在从网络编码阿拉伯语响应时遇到问题,我正在使用volley调用网络服务 我试图解决这个问题。 我创建了自定义请求,然后在我登录时使用utf-8编码解析网络响应,以检查结果。这给了我奇怪的文字,这里是我的日志{“data”:null,“msg”:“ÙÙÙÙÙˆØØØØØØØØØØØØØØØØØØØØØØØØØ21所有尝试均失败。 谢谢你的帮助谢谢

  • 问题内容: 我正在评估NLTK处理阿拉伯文本的能力,这项研究旨在分析和提取情感。 问题如下: NTLK是否可以处理并允许分析阿拉伯文本? python是否能够操纵\标记阿拉伯文本? 我可以使用Python解析和存储阿拉伯文本吗? 如果python和NTLK不是完成这项工作的工具,那么您会推荐哪些工具(如果存在)? 谢谢。 编辑 根据研究: NTLK仅能阻止阿拉伯文本:链接 Python支持UTF-

  • 在 Dreamweaver 中将双向流量应用到阿拉伯语和希伯来语文本;使用标签编辑器、“表格”属性和 Div 属性。 在中东和北非版本的此软件中,可通过阿拉伯语和希伯来语使用新的功能和改进功能。 双向文字流 中东语言的文字大多从右向左 (RTL) 书写。但是,一般而言,最常用的形式为双向 (bidi) 文字 - 混用从左向右和从右向左书写的文字。bidi 文字的一个示例是含有阿拉伯语和英语文字的段

  • 我正在用c#进行一个项目,我必须集成斯坦福pos tagger API,虽然我已经完成了,但是当我编译代码时,我得到了一个错误 stanford-postagger-3.6.0.dll中发生了类型edu.stanford.nlp.io.RuntimeIOExcure的异常,但用户代码中没有处理 其他信息:加载标记器模型时出错(可能缺少模型文件) 在我的代码中,此错误所指向的行是: 注意:我是如何安