这个包里有一本冰岛常用缩写的字典,
在文件
src/tokenizer/abbrev.conf
令牌赋予器是greynir项目的一个独立分支。
(github repository
此处
),作者相同。
注意,当greynir被许可时,tokenizer是在mit许可下被许可的。
在GPLv3下。
你也可以找到
冰岛语的reynir自然语言分析器
很有趣。reynir解析器在其输入上使用标记器。
要安装:$ pip install tokenizer
要使用(对于python 3,可以省略
u""
字符串前缀):from tokenizer import tokenize, TOK
text = (u"Málinu var vísað til stjórnskipunar- og eftirlitsnefndar "
u"skv. 3. gr. XVII. kafla laga nr. 10/2007 þann 3. janúar 2010.")
for token in tokenize(text):
print(u"{0}: '{1}' {2}".format(
TOK.descr[token.kind],
token.txt or "-",
token.val or ""))
输出:BEGIN SENT: '-' (0, None)
WORD: 'Málinu'
WORD: 'var'
WORD: 'vísað'
WORD: 'til'
WORD: 'stjórnskipunar- og eftirlitsnefndar'
WORD: 'skv.' [('samkvæmt', 0, 'fs', 'skst', 'skv.', '-')]
ORDINAL: '3.' 3
WORD: 'gr.' [('grein', 0, 'kvk', 'skst', 'gr.', '-')]
ORDINAL: 'XVII.' 17
WORD: 'kafla'
WORD: 'laga'
WORD: 'nr.' [('númer', 0, 'hk', 'skst', 'nr.', '-')]
NUMBER: '10' (10, None, None)
PUNCTUATION: '/' 4
YEAR: '2007' 2007
WORD: 'þann'
DATEABS: '3. janúar 2010' (2010, 1, 3)
PUNCTUATION: '.' 3
END SENT: '-'
请注意以下事项:
< Buff行情>
句子由tok.s_u begin和tok.s_end标记分隔。
复合词,例如
strjórnskipunar-og eftirlitsnefndar
,
合并为一个令牌。
众所周知的缩略语是公认的,它们的全面扩展
在
标记.val
字段中可用。
识别序数(
3.,xvii.
)及其值(
3,17
)
在
标记.val
字段中可用。
日期、年份和时间,无论是绝对的还是相对的,都被认可
相应的年、月、日、时、分和秒
值作为元组包含在
token.val
数字,包括整数和实数,都可以识别,并且它们的值
在
标记.val
字段中可用。
标记器如何处理文本的进一步详细信息可以从
测试模块
在项目的github存储库中。