当前位置: 首页 > 软件库 > 程序开发 > 数学计算 >

Word2Vec.Net

单词转换成向量形式工具
授权协议 MIT
开发语言 .NET
所属分类 程序开发、 数学计算
软件类型 开源软件
地区 不详
投 递 者 暴奕
操作系统 Windows
开源组织
适用人群 未知
 软件概览

Word2Vec.Net 是单词转换成向量形式工具Word2Vec .NET版本。

使用示例代码:

            var builder = Word2VecBuilder.Create();

            if ((i = ArgPos("-train",  args)) > -1)
                builder.WithTrainFile(args[i + 1]);
            if ((i = ArgPos("-output", args)) > -1)
                builder.WithOutputFile(args[i + 1]);
            //to all other parameters will be set default values
            var word2Vec = builder.Build();
            word2Vec.TrainModel();
            var distance = new Distance(args[i + 1]);
            BestWord[] bestwords = distance.Search("some_word");

或者

//more explicit option
        string trainfile="C:/data.txt";
        string outputFileName = "C:/output.bin";
        var word2Vec = Word2VecBuilder.Create()
            .WithTrainFile(trainfile)// Use text data to train the model;
            .WithOutputFile(outputFileName)//Use to save the resulting word vectors / word clusters
            .WithSize(200)//Set size of word vectors; default is 100
            .WithSaveVocubFile()//The vocabulary will be saved to <file>
            .WithDebug(2)//Set the debug mode (default = 2 = more info during training)
            .WithBinary(1)//Save the resulting vectors in binary moded; default is 0 (off)
            .WithCBow(1)//Use the continuous bag of words model; default is 1 (use 0 for skip-gram model)
            .WithAlpha(0.05)//Set the starting learning rate; default is 0.025 for skip-gram and 0.05 for CBOW
            .WithWindow(7)//Set max skip length between words; default is 5
            .WithSample((float) 1e-3)//Set threshold for occurrence of words. Those that appear with higher frequency in the training data twill be randomly down-sampled; default is 1e-3, useful range is (0, 1e-5)
            .WithHs(0)//Use Hierarchical Softmax; default is 0 (not used)
            .WithNegative(5)//Number of negative examples; default is 5, common values are 3 - 10 (0 = not used)
            .WithThreads(5)//Use <int> threads (default 12)
            .WithIter(5)//Run more training iterations (default 5)
            .WithMinCount(5)//This will discard words that appear less than <int> times; default is 5
            .WithClasses(0)//Output word classes rather than word vectors; default number of classes is 0 (vectors are written)
            .Build();

            word2Vec.TrainModel();

        var distance = new Distance(outputFile);
        BestWord[] bestwords = distance.Search("some_word");
  • NLP之Word2Vec:Word2Vec算法的简介(CBOW和Skip-Gram及其对比)、安装、使用方法之详细攻略 目录 Word2Vec算法的简介 1、Word2Vec算法的概述—更好的文本表示(降维),但存在词歧义问题 (1)、案例理解如何利用Word2Vec算法寻找相似词

  • 目录 前言 首先导入相关的包 接下来准备语料 模型训练 应用词向量库 前言 了解了文本表示的基本含义之后,前面学习了词袋模型这种最简单的文本表示方法,接下来学习了Word2Vec。 本文便是使用工具训练Word2Vec的实操代码,代码都是来自参考文献里的这本书,但是我在学习的过程中发现,书上的代码使用的应该gensim3版本,现在gensim已经更新到了v4,所以书中的很多代码报错。 针对这种问题

  • 目录 中文语料处理 法一:语料处理为列表 法二:语料是文件(处理为迭代器) 对一个目录下的所有文件生效(法1)  对一个目录下的所有文件生效(法2) class : gensim.models.word2vec.PathLineSentences 对于单个文件语料,使用LineSentence 语料库获取语料 word2vec中文语料处理及模型训练实践 python gensim训练 word2v

  • 目录 一、Word2vec模型介绍与举例 1.1 Skip-Gram详解 1.2 词向量的优势

  • 新闻文本分类 预训练Word2vec语料 导入相关库 import numpy as np import pandas as pd from gensim.models import word2vec 读取数据 train_df = pd.read_csv('../data/train_set.csv', sep='\t') test_df = pd.read_csv('../data/test

  •        学习ML/NLP的童鞋们都知道,word2vec是NLP的一个重要应用。Word2Vec是谷歌开源的一个将语言中字词转化为向量形式表达的工具。它通过在大数据量上进行高效训练而得到词向量,使用词向量可以很好地度量词与词之间的相似性。Word2Vec采用的模型包含了连续词袋模型Continuous Bag of Words(简称:CBOW)和Skip-Gram模型,其中CBOW是从原始语

 相关资料
  • 问题内容: 在这里,我想问些奇怪的事情。 我想问问有什么方法/逻辑可以将整数值转换成包含数字英文单词的字符串值? 例如,用户输入22并获得输出22或2。 谢谢 问题答案: 看看这段代码,它可能就是您想要的。例如,在main方法内部,如果有: 输出: 编辑 我复制了下面的代码,清理了一下格式(主方法在底部):

  • 我正在从事一个与NLP相关的项目,在这个项目中,我想从一个句子中识别主要动词(我可以使用依赖项解析器),然后将动词转换为其名词形式(或者我们可以说从动词派生的名词),例如或,只要可能。有没有类似于wordnet或verbnet的资源提供这种功能?

  • 问题内容: 我正在编写将给定数量转换为单词的代码,这是我在谷歌搜索后得到的。但是我认为要完成一个简单的任务需要一些冗长的代码。两个正则表达式和两个循环,我想要更简单的方法。 我正在尝试使其尽可能短。并发布我的想法 有什么建议? 同样,上面的代码转换为英语编号系统,例如Million / Billion,我不希望使用南亚编号系统。就像在Lakhs和Crores 问题答案: 更新 :看起来这比我想象的

  • 问题内容: 给定一个单词,该单词可能是也可能不是单数形式的名词,您将如何生成其复数形式? 基于这个NLTK教程和这个关于复数规则的非正式列表,我编写了这个简单的函数: 但是我认为这是不完整的。有一个更好的方法吗? 问题答案: pattern-en软件包(适用于python 2.5+,但不适用于python 3)提供了复数形式

  • 我是Spark和Scala的新手,我正在尝试阅读它在MLlib上的文档。 关于 http://spark.apache.org/docs/1.4.0/mllib-data-types.html 的教程, 不显示如何从本地向量列表构造RDD[Vector](可变行)。 例如,我已经在火花壳中执行(作为我探索的一部分) 如果“合并”,它将看起来像这个矩阵 那么,如何将矢量 、 转换为?

  • 我需要一个java开源代码,将希伯来文字符串转换成带有英文字符的字符串,例如:将单词 "שלום" 转换成"shalom"