文本分类问题就是将一篇文档归入预先定义的几个类别中的一个或几个,而文本的自动分类则是使用计算机程序来实现这种文本分类,即根据事先指定的规则和示例样本,自动从海量文档中识别并训练分类,文本为大家讲解一下NLPIR大数据语义智能分析系统是怎样实现文本分类的。
NLPIR平台的文本分类有两种模式:专家规则分类与机器学习分类。
专家规则分类指的是根据事先人为制定的分类规则进行分类,比如“中国建 筑”类别,可定义该类别的规则:“长城;牌坊;园林;寺院;钟;塔;庙宇;亭台楼阁;井;石狮;民宅;秦砖汉瓦;兵马俑;故宫;紫禁城;颐和园;布达拉 宫;平遥古城;乔家大院;苏州园林;杭州园林;徽派建筑;十里长亭;长城; 天坛;鸟巢;水立方”,系统会根据文本中出现的特征词语判定文本类别为:中国 建筑。
机器学习分类是利用机器自动学习的能力,通过大量文本的训练,是系统 具有分类的能力。比如准备军事、政治类别的大量语料,通过训练,机器自动学 习类别特征,经过不断的语料训练,分类效果越来越精准。 通过“专家规则分类过滤”、“机器学习分类过滤”,分类结果会呈现在结果提示框中。
NLPIR采用深度神经网络对分类体系进行了综合训练。演示平台目前训练的类别只是新闻的政治、经济、军事等。内置的算法支持类别自定义训练,该算法对常规文本的分类准确率较高,综合开放测试的F值接近86%。
在应用方面,NLPIR 深度文本分类可以用于新闻分类、简历分类、邮件分类、办公文档分类、区域分类等诸多方面,还能够实现文本过滤,从大量文本中快速识别和过滤出符合特殊要求的信息,可应用于品牌报道监测、垃圾信息屏蔽、敏感信 息审查等领域。