当前位置: 首页 > 知识库问答 >
问题:

我如何培养自己的中国模式

邹博裕
2023-03-14

我正在尝试通过提到的https://nlp.stanford.edu/software/crf-faq.html来训练我自己的中文NER模型。我将数据转换为每行一个汉字,并在字符后标记实体,它喜欢:

红ORG

帽ORG

首O

席O

执 O

行 O

官 O

吉姆人

怀特赫斯特人

曾 O

表 O

示 O

亚 组织

马 组织

逊 组织

公O

共O

云O

有O

许 O

多 O

在使用命令java-cpstanford-ner.jaredu.stanford.nlp.ie.crf.CRF分类器-proptech.prop之后,它最终生成了类器(chinese.misc.distsim.crf.ser.gz)。然后我检查了类器在带注释的测试数据上是如何工作的,我使用命令java-cpstanford-ner.jaredu.stanford.nlp.ie.crf.CRF分类器-load分类器chinese.misc.distsim.crf.ser.gz-testFiletest.tsv,它似乎可以工作。

但是当我用文本段落而不是使用命令java-cp检查分类器时。jar edu。斯坦福。nlp。我就是。CRFClassizer-loadClassifier中文版。杂项。迪斯特西姆。crf。爵士。gz-textfile测试。txt,似乎分类器没用,它无法识别分词的中文。

我培训新的中国NER模型时有什么问题吗?我认为一个可能的问题是,我将训练数据转换为每行一个汉字。事实上,在中文中,一个汉字不是一个汉字,我应该使用分词中文训练数据,并将数据转换为每行一个汉字,然后标记汉字而不是汉字。

共有1个答案

微生善
2023-03-14

对于处理不同类型的文本输入可能有用的标志是:

-plainTextDocumentReaderAndWriter CLASSNAME Specify a class to read text documents (which extends DocumentReaderAndWriter)
-tokenizerFactory CLASSNAME Specify a class to do tokenization (which extends TokenizerFactory)
-tokenizerOptions "tokenizeNLs=true,asciiQuotes=true" Give options to the tokenizer, such as the two example options here. 

这可能也很有用:https://stanfordnlp.github.io/CoreNLP/human-languages.html

除此之外,你还应该看看SeqClassifierFlags中的中文分词功能。

 类似资料:
  • 本文向大家介绍培养自己的php编码规范,包括了培养自己的php编码规范的使用技巧和注意事项,需要的朋友参考一下 为什么我们要培养自己的编码规范? 我们写代码的时候,一个好的编码规范,对我们来说能够起到很多意向不到的效果。至少会有一下的好处: 1、提高我们的编码效率。整齐划一的代码方便我们进行复制粘贴嘛! 2、提高代码的可读性。 3、显示我们专业。别人看到了我们的代码,发现整个代码的书写流程都整齐划

  • 本文向大家介绍请说说,你平时怎么培养自己的产品感?相关面试题,主要包含被问及请说说,你平时怎么培养自己的产品感?时的应答技巧和注意事项,需要的朋友参考一下 1、需要对所有的事情保持一个好奇心,多去体验各种产品 2、多思考,思考每个产品的逻辑,包括 战略层、范围层、结构层、框架层、表现层。 3、多和其他人讨论和交流,自己多总结,形成一个自己的思考框架和模式

  • 1. 中国能不能做出自己的ChatGPT来?   一定会,而且会很快。快则半年,慢则两年,就能够出现一个中文效果不差于目前ChatGPT,其他语言能力达到60%甚至80%ChatGPT能力的模型。   2. 如果做出中国的ChatGPT,那么是在一个类似于OpenAI的创业公司,还是一个BAT这种成熟大公司?

  • 好的,在laravel 4中,如果我想添加自己的自定义类,例如:库\myFunction.php然后我执行以下步骤: 添加myFunctions.php到app/库/myFunctiosn.php 在app/start/global.php,在ClassLoader::addDirectory(数组(,我添加app_path()。 为了在我的刀片视图中调用它,我添加了以下代码 它是有效的。 但是如

  • 我正在使用reverfit2、rxjava2和adapter-rxjava来实现我的http api调用。 如果我有很多api需要实现,并且每个单独的api实现都需要添加这两行: 我不想在每个api实现中添加它们。我想使用MyObservable作为api定义的结果类型。 我的想法如下所示: 我在https://github.com/square/reverfit/blob/master/reve