当前位置：首页 > 文档资料 > 面向程序员的数据挖掘指南 >

朴素贝叶斯算法和非结构化文本 - 训练阶段

优质

小牛编辑

135浏览

2023-12-01

首先，我们统计所有文本中一共出现了多少个不同的单词，记作“|Vocabulary|”（总词汇表）。

对于每个单词w_k，我们将计算P(w_k|h_i)，每个h_i（喜欢和讨厌两种）的计算步骤如下：

将该分类下的所有文章合并到一起；
统计每个单词出现的数量，记为n；
对于总词汇表中的单词w_k，统计他们在本类文章中出现的次数n_k：
最后应用下方的公式：

训练阶段 - 图1

免责声明：以上内容版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。感谢每一位辛勤著写的作者，感谢每一位的分享。