我试图将邮寄地址与简历(简历)隔离开来。简历来自许多不同的国家,因此没有标准的布局、格式、押韵或地址原因。
我有我的原始数据,这些数据已经被分割成句子和标记,并准备好标记。
问题:
如果我最感兴趣的是城市/城镇,我是否应该标记整个地址以获得最佳效果?
eg blah blah blah <START:location>1 Stack Avenue, London, SE1 KTB<END> blah blah
eg blah blah blah <START:location>Hoch Strasse 21, Berlin 17009, Germany<END> blah blah
鉴于我寻找的地址主要出现在简历的前四分之一,我应该将训练数据削减到25%并对实时数据做同样的事情,还是通过将文档保持为一个整体并只标记我需要的部分来获得更好的结果?
最后,关于从非结构化文档中查找地址的成功程度,我有什么想法吗?
非常感谢您的建议、帮助和替代方法。
我的建议是把它标记为
1斯塔克大道,
但是您需要考虑适当的特征。例如,在您的两个示例中,前一个单词都以逗号结尾。您显然想要前一个单词,但可能需要像“过去4个单词中的数字”这样的功能。不要忘记以前的状态。您可能希望保留一本字典,其中包含“大道、街道”或其他语言中的等价物(Strasse?)。祝你好运
根据文档中的指南,我试图在一些数据上测试training OpenNLP的Name Finder。然而,我遇到了错误:,这似乎没有任何意义。 我运行的命令是: 我从https://opennlp.apache.org/download.html.环境变量似乎设置正确,基本文件夹中的文件夹包含一个文件夹。 编辑:这似乎与CoNLL2003格式有关。如果我尝试直接运行训练器而不指定它就可以工作。但是我
我正在使用OpenNLP的NameFinder API示例文档。初始化名称查找器后,文档使用以下代码作为输入文本: 然而,当我将其引入eclipse时,“documents”(而不是“document”)变量给了我一个错误,表示变量documents无法解析。“documents”数组变量所指的文档是什么?我是否需要初始化一个名为“documents”的数组,该数组包含txt文件,以消除此错误?
我正在尝试使用OpenNLP对发票进行分类。根据它的描述,我将它分为两类。我已经建立了一个包含20K描述的培训文件,并将每个描述标记到正确的类中。 培训数据如下所示(第一列是代码,我将其用作类,第二列是发票描述): 使用OpenNLP的Document分类器,我实现了98.5%的正确率。但是,为了提高效率,我取了错误的分类文档并用它来扩展训练数据。 例如,当我第一次运行它时,“MOTONETA I
问题内容: 如何仅使用标准库在Python平台中独立查找本地IP地址(即192.168.xx或10.0.xx)? 问题答案: 这将永远无法正常工作(返回127.0.0.1主机为as的机器127.0.0.1),将是gimel显示的一种称呼,而是使用。当然,您的计算机需要一个可解析的主机名。
我想训练自己的自定义模型。我可以从哪里开始? 我使用这个样本数据来训练一个模型: 基本上,我想从给定的输入中找出一些无意义的文本。 我尝试了opennlp开发文档中给出的以下示例代码,但出现了错误:Model与name finder不兼容!
问题内容: 我们编写了一个程序,通过该程序我们试图找到常量的地址。有可能这样做吗? 它给出了一个错误,谁能告诉我们如何找到一个常量的地址? 问题答案: 简而言之: 您不能 。 错误消息显示: 不能取k的地址 地址运算符的操作数有限制。规格:地址运算符: 对于类型的操作数,地址操作生成类型为的指针。操作数必须是 可寻址的 ,即变量,指针间接 寻址 或切片索引操作;或可寻址结构操作数的字段选择器;或可