我是文本挖掘和NLP的新手。我正在尝试使用命名实体识别(NER)(斯坦福命名实体标记)从给定文本中提取日期。我正在使用斯坦福NLPhttp://nlp.stanford.edu:8080/ner/process和GATE ANNIE中提供的在线演示http://services.gate.ac.uk/annie/
此演示无法将完整的“上周日”、“下周一”、“本月底”、“直到本周日晚上”等文本识别为日期。仅周日或周一无法确定日期。是否有任何选项可以提取给定示例文本中提到的实际文本?
示例文本:
用彪马款待你自己,因为它提供50%的折扣。赶快报盘有效期到本周日。购物愉快。
提取日期:2013年8月25日(考虑到今天是2013年8月19日。日期格式可以是任何格式)
任何库都提供这种日期识别功能,或者是否可以构建自定义模型来识别示例文本中给出的日期?
GATE中的Tagger_DateNormalizer
插件可以做到这一点,默认情况下,它会根据今天的日期规范化相对日期表达式。您可以使用source ceOfDocumentDate
参数覆盖它,以从文档功能或管道中前一步创建的注释中获取参考日期,而不是使用当前日期(例如,如果您正在处理新闻文章,您可能希望根据发布日期而不是管道运行的日期进行规范化)。
虽然插件被称为日期“normalizer”,但它实际上是一个“tagger and normalizer”——它在文本中找到日期表达式,并用一个规范化的值对其进行注释,而不是获取一个预先存在的date
注释列表并对其进行规范化。
斯坦福大学CoreNLP的SUTime可以进行时间识别。该页面包含示例代码,并提供了一个在线演示。
相关问题:在大数据中使用斯坦福时间标记器好吗?
问题内容: 我正在寻找Java的简单但“足够好”的命名实体识别库(和字典),我正在处理电子邮件和文档并提取一些“基本信息”,例如:名称,地点,地址和日期 我一直在环顾四周,大多数似乎都是沉重的一面和完整的NLP项目。 有什么建议吗? 问题答案: 顺便说一句,我最近遇到了OpenCalais,它似乎具有我要照顾的功能。
问题内容: 我使用NLTK从文本中提取命名实体: 但是我不知道如何将这些实体保存到列表中?例如– 谢谢。 问题答案: 返回嵌套对象,因此您必须遍历该对象才能到达网元。 看看带有正则表达式的命名实体识别:NLTK
我想使用NLP工具从意大利文本中提取名称和数字。 遗憾的是,斯坦福德NLP和Apache OpenNLP都没有为意大利人提供模型。 我能找到一个,或者找到训练数据来制造一个吗?(至少15000句)
我正在尝试使用这个简短的实体识别教程来学习NER。但我无法成功运行代码。我在现场提供了一个入口。这里提到的txt文件。 我收到错误。 请帮帮我。先谢谢你。
借助ML Kit的文本识别API,您可以识别任何拉丁语文本(以及更多的基于云端的文本识别)。 文本识别可以自动完成信用卡,收据和名片等繁琐数据输入,或帮助组织照片。借助基于云的API,您可以从文档中提取文本,您可以使用它来增加辅助功能或翻译文档。应用程序甚至可以实时追踪真实世界的对象,例如通过读取列车上的数字。 iOS Android 您可以在设备API或者云端API中选择 设备上 云端 价格 免
我正在进行我目前的毕业项目,名为“土耳其实体识别”。当我使用人名和地点(有时地点可以是不同的语言,例如塔克西姆/伊斯坦布尔的希尔顿酒店)时,识别器应该捕捉到土耳其语单词。我需要在我的数据集中添加“Hotel”,该数据集充满了特定的位置标签,如Hotel、Restaurant或Mall。但说到组织名称标签。我需要找到一个关于乐队、产品、公司名称的好数据集,但我不知道如何找到或收集这个数据集 在斯坦福