当前位置: 首页 > 面试题库 >

Java中数据标准化的拼写校正

壤驷英叡
2023-03-14
问题内容

我正在寻找一个Java库来对html" target="_blank">用户生成的文本内容进行一些初始拼写检查/数据标准化,想象一下在Facebook个人资料中输入的兴趣。

该文本将在某些时候被标记化(在拼写校正之前或之后,无论哪种方法效果更好),其中一些文本用作搜索(完全匹配)的键。减少拼写错误和类似内容以产生更多匹配结果将是不错的选择。如果校正在令牌上的效果好于仅一个单词,那将更好,例如,“喝咖啡”将变为“喝咖啡”而不是“思考咖啡”。

我找到了以下Java库来进行拼写校正:

  1. JAZZY 似乎没有得到积极发展。而且,由于在社交网络配置文件和多词令牌中使用了非标准语言,因此基于字典距离的方法似乎是不够的。
  2. APACHE LUCENE 似乎有一个统计性拼写检查器,应该更适合。问题在这里将如何创建一个好的字典?(否则,我们不使用Lucene,因此不存在索引。)

欢迎任何建议!


问题答案:

您要实现的不是拼写校正器,而是模糊搜索。彼得·诺维格(Peter Norvig)的文章是从针对字典进行检查的候选对象进行模糊搜索的良好起点。

或者,看看BK树。

n-gram索引(由Lucene使用)对于较长的单词产生更好的结果。产生到给定编辑距离的候选者的方法可能对普通文本中的单词足够好,但对名称,地址和科学文本却不足够。但是,它将增加您的索引大小。

如果您将文本编入索引,那么您将拥有文本语料库(您的词典)。无论如何,只能找到您数据中的内容。您无需使用外部字典。

信息检索词典和容忍检索是一个很好的资源。这里有上下文相关的拼写校正的简短描述。



 类似资料:
  • 问题内容: 假设我有一个熊猫数据框: 我想计算数据框的列均值。 这很简单: 然后按列范围max(col)-min(col)。这又很容易: 现在,对于每个元素,我要减去其列的均值并除以其列的范围。我不确定该怎么做 任何帮助/指针将不胜感激。 问题答案:

  • 本文向大家介绍什么是数据标准化,为什么要进行数据标准化?相关面试题,主要包含被问及什么是数据标准化,为什么要进行数据标准化?时的应答技巧和注意事项,需要的朋友参考一下 数据标准化是预处理步骤,将数据标准化到一个特定的范围能够在反向传播中保证更好的收敛。一般来说,是将该值将去平均值后再除以标准差。如果不进行数据标准化,有些特征(值很大)将会对损失函数影响更大(就算这个特别大的特征只是改变了1%,但是

  • 本文向大家介绍如何标准化R数据框中的列?,包括了如何标准化R数据框中的列?的使用技巧和注意事项,需要的朋友参考一下 这可以通过使用缩放功能来完成。 示例

  • 这适用于必须使用SVM方法来提高模型精度的分配。 共有3部分,编写了下面的代码 但在此之后,问题如下 执行数字标准化。数据,并将转换后的数据存储在可变数字中。 提示:从sklearn.preprocessing.使用所需的实用程序再次,将digits_standardized分成两个集合名称X_train和X_test。此外,将digits.target分成两组Y_train和Y_test。 提示

  • 问题内容: 注意:这个问题确实是Split pandas dataframe字符串条目复制到单独行的重复,但是此处提供的答案更通用,更有意义,因此,在所有方面,我选择不删除线程 我有一个具有以下格式的“数据集”: 我想通过复制每个id的所有值来规范化它: 我正在做的是应用split-apply-combine的使用原理,为每个组创建一个 我创建了一个列进行分组,该列仅对行中的id进行计数: 我复制

  • 问题内容: 我正在尝试使用官方OpenCV Java绑定以YAML格式加载/保存OpenCV校准数据。我知道OpenCV(至少为c ++版本)可以序列化为XML和JSON,但是我想支持较早的YAML校准文件。 校准文件如下所示: 我正在寻找一个优雅的解决方案,因为我不太了解如何将Java类最好地映射到YAML并返回。我尝试了一些库,例如jyaml,yamlbeans(来自SourceForge的1