我已经阅读了这里给出的详细描述-http://nlp.stanford.edu/software/crf-faq.shtml#a基于标签输入文件的模型训练。道具文件。但是文章说-
You should make sure each line consists of solely content fields and tab characters. Spaces don't work. Extra tabs will cause problems.
我的文本语料库中有一些空格分隔的单词,这些单词组合在一起形成一个标记,而不是单个单词。例如,“莱特州立大学”是一个单一的象征,尽管莱特、州立大学和大学是单独的实体。我想用上面的标记生成一个模型。文章说,生成模型的输入文件应该以制表符分隔的单词形式给出,第一列是标记,第二列是标签。我怎样才能做到这一点?
通常,NER训练数据是自然语言句子的形式,其中每个标记都有一个NER标记。你可能有10000句或更多的句子。
例如:“他上的是莱特州立大学。”
应表示为:
He O
attended O
Wright SCHOOL
State SCHOOL
University SCHOOL
. O
如果你没有句子,你只是有一个字符串列表,这些字符串应该以某种方式标记,那么使用RegexNER就更有意义了。
您可以在此处找到有关如何使用RegexNER的详细说明:
http://nlp.stanford.edu/software/regexner.html
在某些语言(例如越南语)中,一些词汇由多个单词组成。因此,一些包含多个单词的标记可以被标记,而不仅仅是使用空格。 我有以下意见: 预期产出: 训练数据我_连接需要在一个令牌中粘在一起的单词: 这是我用来训练的命令行 带参数 但是,输出不能在一个标记中连接多个单词,但它被空格拆分。 我运行以获取输出的命令 我应该如何处理我们的配置参数中的训练数据,以训练每个标记都有多个单词的标记器?
我想在没有空格的标题中查找并分隔单词。 之前: 这是一个示例标题黑色-世界2019T.E.S.T.(测试)“测试”“测试”[测试] 之后: 这是一个例题标题HELLO-WORLD 2019 T.E.S.T .(测试)[测试]“测试”'测试' 我正在寻找一个可以执行以下操作的正则表达式规则。 我想我会识别每个以大写字母开头的单词。 但也要保留所有大写单词,以免将它们分隔为。 附加规则: 如果字母与数
我的CS课程有一个非常具体的问题。我有一个字符串中的句子,我需要在ArrayList中将其分隔成单个单词,并且不能使用split方法。 我的问题是,我没有对数组进行过任何教学,只有对循环和字符串语句的最起码的教学。我做了大量的研究,找到了进行循环并将单词发送到ArrayList的最佳方法,但是我仍然找不到一个好的方法来使它在句子中循环并将每个单词分开。我明白了把第一个单词分开是多么容易,然而在那之
问题内容: 我想使用PHP将文本拆分成单个单词。你有什么想法要实现吗? 我的方法: 这是一个好方法吗?您有改进的想法吗? 提前致谢! 问题答案: 使用与任何Unicode标点符号匹配的\ p {P}类和\ s空格类。 这将拆分为一组一个或多个空格字符,但也会吸收周围的所有标点符号。它还在字符串的开头或结尾匹配标点符号。这区分了诸如“不要”和“他说’哎呀!’”之类的情况。
我正在尝试训练opennlp词性标记器,它会根据我的特定词汇在句子中标记单词。例如: 正常词性标注后: 句子:NodeManager/NNP失败/VBD to/TO start/VB the/DT server/NN 使用我的词性标注模型后: 句子:NodeManager/AGENT失败/其他到/其他启动/其他/其他服务器/对象 其中AGENT,OTHER,OBJECT是我定义的标签。 所以基本上
问题内容: 我想做的是一项相当普通的任务,但我在网络上找不到任何参考。我的文字带有标点符号,我想要一个单词列表。 应该 但是只能使用一个参数,因此在用空格分割后,所有单词都带有标点符号。有任何想法吗? 问题答案: 正则表达式合理的情况: