Word2Vec训练过程中的加速问题

巩子实

2023-12-01

学习ML/NLP的童鞋们都知道，word2vec是NLP的一个重要应用。Word2Vec是谷歌开源的一个将语言中字词转化为向量形式表达的工具。它通过在大数据量上进行高效训练而得到词向量，使用词向量可以很好地度量词与词之间的相似性。Word2Vec采用的模型包含了连续词袋模型Continuous Bag of Words（简称：CBOW）和Skip-Gram模型，其中CBOW是从原始语句（比如：中国的首都是__）推测目标字词（比如：北京）；而Skip-Gram与CBOW正好相反，它是从目标字词对原始语句进行推测。一般情况下，CBOW在小型语料中的表现良好，而Skip-Gram对大型数据集更为合适。针对CBOW和Skip-Gram的具体工作原理，可以参考https://www.cnblogs.com/pinard/p/7160330.html 和 https://blog.csdn.net/u010665216/article/details/78724856。

实际上，对于大规模训练语料来讲，训练时间是非常宝贵的。在这种情况下，我们就需要考虑提高训练速度。如下有两个非常好的训练速度提升的原理，供大家参考学习。https://www.cnblogs.com/Determined22/p/5807362.htm和https://blog.csdn.net/qunnie_yi/article/details/80128024

尽管word2vec取得了巨大的成功，并使得期应用非常广泛。但是随着技术的发展，它也不免被其他技术所取代。目前，有BERT、XLNet等先进的技术，在多项任务的性能上完全超过word2vec。推荐童鞋们关注和学习。

Word2Vec训练过程中的加速问题

相关阅读

相关文章

相关问答

相关文档