当前位置: 首页 > 知识库问答 >
问题:

如何识别/检测文本中的词汇(Node JS)

姬魁
2023-03-14

我目前正在开发一个应用程序,在这个应用程序上我有很多文本,我想知道它们是否与烹饪/食谱词汇有关。我已经看过并尝试过一些东西,但我开始怀疑我是否会在这方面做得过火(我不想再创造轮子)。

我现在工作的道路意味着获取与这个词汇表相关的所有单词(成分、动作、对象……在许多语言中),并将我的数据库与我文本组中的每个单词进行比较,然后为每个组定义一个分数,用于决定(取决于我的阈值)是否应该保留它。

这种方法的主要问题是,我需要自己创建一个非常大的数据库(这是一个漫长的过程),我的数据库越大,比较过程可能越长/越不有效。有什么办法吗?谢谢!

共有1个答案

齐昊苍
2023-03-14

考虑使用文本分类器并使用相关示例对其进行训练。一个简单的起点是使用朴素的贝叶斯文本分类器——它速度快并生成合理大小的模型。

 类似资料:
  • 我有一些不同语言的文本,可能有一些拼写错误或其他错误,我想检索他们自己的词汇。一般来说,我对自然语言处理没有经验,所以可能我使用了一些不正确的单词。 关于词汇,我指的是一种语言的单词集合,其中每个单词都是唯一的,不考虑性别、数字或时态的屈折变化(例如,think、thinks和thought are都是考虑-思考)。 这是一个主要问题,所以让我们把它简化为一种语言的词汇检索,例如英语,并且没有错误

  • 如何在java脚本中识别/检测循环对象类型? 圆形对象的示例: 如果我们尝试使用JSON字符串化循环对象。stringify(obj),它将抛出一个错误,如下所示 在JSON. stringify()将循环结构转换为JSON

  • 我正试图从彩色背景图像中提取文本。我正在尝试的一种方法是边缘检测。用它我把原始图像转换成我可以处理的图像。这将消除图像中的所有颜色,只留下边缘。 我使用此代码获取边缘图像 我的问题是,在我得到这些图像后,我如何才能追踪这些图像中的字母?任何帮助都会很好。谢谢你们 这些是原始图像和边缘检测图像。 原始图像 边缘检测图像

  • 问题内容: 我正在构建一个JS脚本,该脚本有时可以在给定页面上允许用户单击任何单词并将该单词存储在变量中。 我有一个非常丑陋的解决方案,涉及到使用jQuery进行类解析:首先解析整个html,拆分每个空间中的所有内容,然后重新附加包装在中的所有内容,然后添加带有jQ的事件以检测点击这样的类,并使用$(this).innerHTML获得点击的单词。 这在许多方面都是缓慢而丑陋的,我希望有人知道实现这

  • 借助ML Kit的文本识别API,您可以识别任何拉丁语文本(以及更多的基于云端的文本识别)。 文本识别可以自动完成信用卡,收据和名片等繁琐数据输入,或帮助组织照片。借助基于云的API,您可以从文档中提取文本,您可以使用它来增加辅助功能或翻译文档。应用程序甚至可以实时追踪真实世界的对象,例如通过读取列车上的数字。 iOS Android 您可以在设备API或者云端API中选择 设备上 云端 价格 免

  • 我正在做一个练习,我需要计算一个单词在文本中出现的次数,我还需要打印单词出现在哪一行。 文本示例: 法律规定,法律规定,法律规定,法律规定,法律规定的,法律规定的,法律规定的,法律规定的,法律规定的,法律规定的,法律规定的,法律规定的,法律规定的,法律规定的,法律规定的,法律规定的,法律规定的,法律规定的,法律规定的,法律规定的,法律规定的,法律规定的,法律规定的,法律规定的,法律规定的,法律规定