我正在尝试创建一种类似于英语的小型语言来指定任务。基本思想是将陈述分为动词和名词短语,这些动词应适用于它们。我正在使用nltk,但未获得我希望的结果,例如:
>>> nltk.pos_tag(nltk.word_tokenize("select the files and copy to harddrive'"))
[('select', 'NN'), ('the', 'DT'), ('files', 'NNS'), ('and', 'CC'), ('copy', 'VB'), ('to', 'TO'), ("harddrive'", 'NNP')]
>>> nltk.pos_tag(nltk.word_tokenize("move the files to harddrive'"))
[('move', 'NN'), ('the', 'DT'), ('files', 'NNS'), ('to', 'TO'), ("harddrive'", 'NNP')]
>>> nltk.pos_tag(nltk.word_tokenize("copy the files to harddrive'"))
[('copy', 'NN'), ('the', 'DT'), ('files', 'NNS'), ('to', 'TO'), ("harddrive'", 'NNP')]
在每种情况下,它都未能意识到第一个单词(选择,移动和复制)被用作动词。我知道我可以创建自定义标签和语法来解决此问题,但是与此同时,当很多此类东西不在我的支持范围内时,我犹豫要重新发明轮子。我特别希望可以同时处理非英语语言的解决方案。
所以无论如何,我的问题之一是:这种语法是否有更好的标记器?有没有一种方法可以对现有的标记器进行加权,使其比名词形式更频繁地使用动词形式?有没有训练标记器的方法?总共有更好的方法吗?
一种解决方案是创建一个手动的UnigramTagger,该手动Backgram可以返回到NLTK标记器。像这样:
>>> import nltk.tag, nltk.data
>>> default_tagger = nltk.data.load(nltk.tag._POS_TAGGER)
>>> model = {'select': 'VB'}
>>> tagger = nltk.tag.UnigramTagger(model=model, backoff=default_tagger)
然后你得到
>>> tagger.tag(['select', 'the', 'files'])
[('select', 'VB'), ('the', 'DT'), ('files', 'NNS')]
只要您具有适当的默认标记器,该方法就可以适用于非英语语言。您可以通过训练自己的标记者train_tagger.py
从NLTK,教练和适当的语料库。
问题内容: 在我的html中,我很好奇使用唯一标识符(例如 保存图片)而不是语义是否正确。例如: 是否优先拥有: 与CSS: 而不是:我目前有: 与CSS: 唯一标识符的使用在语义上是否正确? 问题答案: 最好避免使用自定义标签,因为您永远不知道这些标签何时会标准化,并在将来有特殊用途。 如果要避免使用标头标记,对于您的示例最好的操作如下: 此外: 如果在设计页面时不使用标准html标记,则在禁用
因此,我想访问子标记result1、result2、result3中父标记属性test1、test2、test3(这些属性的返回值为true/false)的结果,以根据返回的条件值显示输出,不管它是true还是false。 谢谢,开发者。
定义和使用自定义标记可以吗?(这不会与将来的html标记冲突)-通过更改outerHTML替换/呈现这些标记?? 我在下面创建了一个演示,看起来效果不错 问题的最新情况: 让我进一步解释一下。请假设浏览器上启用了JavaScript-也就是说,应用程序不应该在没有javascript的情况下运行。 我见过使用自定义属性在指定标记中定义自定义行为的库。例如,角度。js大量使用自定义属性。(它还有关于
自定义宏标记使用教程: 在模板制作中,经常遇到一些网站标签在多个页面调用的问题,通常情况下我们可以通过模板的{dede:include file='文件名称' ismake='是否为dede板块模板(yes/no)'/}标签导入一个文件解决,在DedeCMS的5.3版本默认模板中的head.htm就如通过这样的标记引入到其他模板文件,然后编译成页面头部信息的,但这样以文件形式引入的方式并不适用于少
目前,诸葛io的服务范围涵盖了企业内各项业务,除了用户行为指标外,还有很多结合业务场景的特有指标需要分析;如:注册率=注册成功人数/活跃用户数,分、秒之间的单位换算等。 因此,诸葛io平台中提供了基础指标之间的四则运算,可灵活定义符合业务场景的特有指标,并支持自定义指标的可视化分析,以及将指标添加到数据看板中进行持续的跟踪监测的功能。 一、有哪些常见应用场景 场景一 某音频APP,需要统计人均收听
我正在尝试使用检索文件,同时添加自定义头。 检查我意识到可以在参数中获取对象,而不仅仅是一个字符串,从而可以放置我想要的标题。但是,如果我尝试对执行相同的操作,我会得到一个类型错误:预期的字符串或类似字节的对象,正如在另一篇文章中提到的。 我最终所做的是重写我自己的url检索,删除抛出错误的行(该行在我的用例中无关紧要)。 它工作得很好,但我想知道是否有更好/更干净的方法,而不是重写我自己的。如果