python tokenizer是什么_Python tokenizer包_程序模块 - PyPI - Python中文网

何麻雀
2023-12-01

这个包里有一本冰岛常用缩写的字典,

在文件

src/tokenizer/abbrev.conf

令牌赋予器是greynir项目的一个独立分支。

(github repository

此处

),作者相同。

注意,当greynir被许可时,tokenizer是在mit许可下被许可的。

在GPLv3下。

你也可以找到

冰岛语的reynir自然语言分析器

很有趣。reynir解析器在其输入上使用标记器。

要安装:$ pip install tokenizer

要使用(对于python 3,可以省略

u""

字符串前缀):from tokenizer import tokenize, TOK

text = (u"Málinu var vísað til stjórnskipunar- og eftirlitsnefndar "

u"skv. 3. gr. XVII. kafla laga nr. 10/2007 þann 3. janúar 2010.")

for token in tokenize(text):

print(u"{0}: '{1}' {2}".format(

TOK.descr[token.kind],

token.txt or "-",

token.val or ""))

输出:BEGIN SENT: '-' (0, None)

WORD: 'Málinu'

WORD: 'var'

WORD: 'vísað'

WORD: 'til'

WORD: 'stjórnskipunar- og eftirlitsnefndar'

WORD: 'skv.' [('samkvæmt', 0, 'fs', 'skst', 'skv.', '-')]

ORDINAL: '3.' 3

WORD: 'gr.' [('grein', 0, 'kvk', 'skst', 'gr.', '-')]

ORDINAL: 'XVII.' 17

WORD: 'kafla'

WORD: 'laga'

WORD: 'nr.' [('númer', 0, 'hk', 'skst', 'nr.', '-')]

NUMBER: '10' (10, None, None)

PUNCTUATION: '/' 4

YEAR: '2007' 2007

WORD: 'þann'

DATEABS: '3. janúar 2010' (2010, 1, 3)

PUNCTUATION: '.' 3

END SENT: '-'

请注意以下事项:

< Buff行情>

句子由tok.s_u begin和tok.s_end标记分隔。

复合词,例如

strjórnskipunar-og eftirlitsnefndar

合并为一个令牌。

众所周知的缩略语是公认的,它们的全面扩展

标记.val

字段中可用。

识别序数(

3.,xvii.

)及其值(

3,17

)

标记.val

字段中可用。

日期、年份和时间,无论是绝对的还是相对的,都被认可

相应的年、月、日、时、分和秒

值作为元组包含在

token.val

数字,包括整数和实数,都可以识别,并且它们的值

标记.val

字段中可用。

标记器如何处理文本的进一步详细信息可以从

测试模块

在项目的github存储库中。

 类似资料: