当前位置: 首页 > 知识库问答 >
问题:

使用NLP识别文本

劳鹏云
2023-03-14

我正在尝试使用NLP技术在下面的文本行中查找课程。

from nltk import word_tokenize, pos_tag, ne_chunk
sentence = "SDGI is offering courses like Electronics,Mechatronics, Physics,Mechanical Engineering"    
print ne_chunk(pos_tag(word_tokenize(sentence)))

这是我的错

(S
  (ORGANIZATION SDGI/NNP)
  is/VBZ
  offering/VBG
  courses/NNS
  like/IN
  Electronics/NNS
  ,/,
  Mechatronics/NNS
  ,/,
  (PERSON Physics/NNPS)
  ,/,
  (PERSON Mechanical/NNP Engineering/NNP))

我可以从这一行中提取课程吗?

在我真正的项目中,我将得到很多文件,我需要从这些文件中获得课程名称。

感谢您的帮助!

共有2个答案

高迪
2023-03-14

这可能太简单了,但是,如果现有课程名称的数量有限,创建一个大的搜寻列表,标记您的输入并尝试查找每个单词可能会更容易。会有一些边缘情况,但我不确定您是否需要对这个问题采取ML/NLP方法

通迪
2023-03-14
  1. 从给定的文本中提取所有名词
  2. 创建一个单词包功能集,并针对带有标记数据的课程对该功能集进行训练
  3. 似乎这些课程大多在逗号(,)之前或之后。二元图或三元图方法可以给出准确的结果
 类似资料:
  • 我从几个网络搜索中拼凑出以下内容。我可以让简单的Java regex与之匹配,但在使用NER时,我没有尝试过任何匹配(所有这些都是从web搜索中复制来的示例,并稍微调整了一下)。 为了清晰起见,请编辑:(下面代码中的中的成功/失败为true/false。) 我不知道我是否需要明确地提到某个模型或注释或其他东西,或者我是否遗漏了其他东西,或者我是否只是以完全错误的方式处理它。

  • 借助ML Kit的文本识别API,您可以识别任何拉丁语文本(以及更多的基于云端的文本识别)。 文本识别可以自动完成信用卡,收据和名片等繁琐数据输入,或帮助组织照片。借助基于云的API,您可以从文档中提取文本,您可以使用它来增加辅助功能或翻译文档。应用程序甚至可以实时追踪真实世界的对象,例如通过读取列车上的数字。 iOS Android 您可以在设备API或者云端API中选择 设备上 云端 价格 免

  • 我即将从社交媒体、新闻网站、博客上发布的与政治、战争、DRUGS等特定领域相关的RAW测试中提取一些信息。所以我已经开始使用一些开源库,例如stanford-nlp、apache OpenNLP以及称为lexalytics的商业许可工具。 根据我的项目,我们正在分析公开发布的文本并生成一些结果,并根据一些参数进行挖掘,以确定这些帖子与什么类别相关。 但我需要使用斯坦福nlp库从给定的文本中提取主题

  • 我使用这个API来进行测试https://cloud.google.com/vision/docs/ocr测试引擎。 请求机构: 结果就是 我错过什么了吗?非常感谢。

  • 我正在处理一个使用JSF/Facelets的项目。我想在我的视图XHTML上做一些CSS更改,但是当我在Tomcat服务器上部署我的web应用程序时什么也没有发生。我试过很多把戏,结果都一样。 总之,这是我的“styles.css”: 这是主模板“template.html”,包括“header.html”和“footer.html”,我使用标记将“styles.css”放在其中: 最后,这里是我

  • 您可以使用ML Kit来识别图像中的文本,使用设备上的模型或云上的模型。请参阅概述以了解每种方法的优点。 有关此API使用的示例,请参阅GitHub上的ML Kit快速入门示例,或者尝试使用codelab。 在您开始之前 如果您还没有将Firebase添加到您的程序当中,那您可以从开始指南来开始您的工作。 将ML kit库放进您的Podfile中: pod 'Firebase/Core' pod