前两天看到论文《Chinese Poetry Generation with Planning based Neural Network》中使用TextRank进行关键词提取。在阅读文章时也想到了除了TextRank之外,经常还使用TFIDF进行关键词提取。
一些算法的使用取决于业务场景和算法的特性。关键词提取是干什么的呢?关键词抽取的任务就是从一段给定的文本中自动抽取出若干有意义的词语或词组。 那么这个有意义的就会和算法的特性结合在一起了。
补充一句:这两种方案是无监督的,当然也可以使用分类的方式进行有监督的处理,本文不讨论关于有监督的关键词提取方法。
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。也就是说:一个词语在一篇文章中出现次数越多, 同时在所有文档中出现次数越少, 越能够代表该文章。
词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数,在实际的任务中也可以是一个句子,需要结合具体的任务灵活变通。这个数字通常会被归一化,一般是词频除以文章总词数(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否), 以防止它偏向长的文件。找到一篇文献,其中词频