当前位置：首页 > 软件库 > 程序开发 > 数学计算 >

Word2VEC_Java

word2vec的Java实现

授权协议 Apache

开发语言 Java

所属分类程序开发、数学计算

软件类型开源软件

地区不详

投递者孔厉刚

操作系统跨平台

开源组织无

适用人群未知

软件官网

官方下载

软件概览

Word2VEC java版本的一个实现。

示例代码：

package com.kuyun.document_class;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.UnsupportedEncodingException;
import java.util.List;

import org.ansj.domain.Term;
import org.ansj.splitWord.analysis.ToAnalysis;

import com.alibaba.fastjson.JSONObject;
import com.ansj.vec.Learn;
import com.ansj.vec.Word2VEC;

import love.cq.util.IOUtil;
import love.cq.util.StringUtil;

public class Word2VecTest {
    private static final File sportCorpusFile = new File("corpus/result.txt");

    public static void main(String[] args) throws IOException {
        File[] files = new File("corpus/sport/").listFiles();

        //构建语料
        try (FileOutputStream fos = new FileOutputStream(sportCorpusFile)) {
            for (File file : files) {
                if (file.canRead() && file.getName().endsWith(".txt")) {
                    parserFile(fos, file);
                }
            }
        }

        //进行分词训练

        Learn lean = new Learn() ;

        lean.learnFile(sportCorpusFile) ;

        lean.saveModel(new File("model/vector.mod")) ;



        //加载测试

        Word2VEC w2v = new Word2VEC() ;

        w2v.loadJavaModel("model/vector.mod") ;

        System.out.println(w2v.distance("姚明")); ;

    }

    private static void parserFile(FileOutputStream fos, File file) throws FileNotFoundException,
                                                                   IOException {
        // TODO Auto-generated method stub
        try (BufferedReader br = IOUtil.getReader(file.getAbsolutePath(), IOUtil.UTF8)) {
            String temp = null;
            JSONObject parse = null;
            while ((temp = br.readLine()) != null) {
                parse = JSONObject.parseObject(temp);
                paserStr(fos, parse.getString("title"));
                paserStr(fos, StringUtil.rmHtmlTag(parse.getString("content")));
            }
        }
    }

    private static void paserStr(FileOutputStream fos, String title) throws IOException {
        List<Term> parse2 = ToAnalysis.parse(title) ;
        StringBuilder sb = new StringBuilder() ;
        for (Term term : parse2) {
            sb.append(term.getName()) ;
            sb.append(" ");
        }
        fos.write(sb.toString().getBytes()) ;
        fos.write("\n".getBytes()) ;
    }
}

使用案例

word2vec使用过程（Java版）

这里只介绍如何使用，不介绍原理（想要了解原理的看这里） 1.下载Word2Vec（Java版地址） 2.根据自己情况准备语料库（搜狗2012全网新闻数据） 3.处理语料库。以搜狗2012全网新闻数据为例： (1)首先处理掉HTML标签并转为utf8编码格式：cat news_tensite_xml.dat | iconv -f gb18030 -t utf-8 -c | grep "<conte
Word2VEC_Java

软件简介 Word2VEC java版本的一个实现。示例代码： package com.kuyun.document_class; import java.io.BufferedReader; import java.io.File; import java.io.FileNotFoundException; import java.io.FileOutputStream; import jav
Word2VEC_java

package com.kuyun.document_class; import java.io.BufferedReader; import java.io.File; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOException; import java.io.
GitHub - Jiangwm/Word2VEC_java: word2vec java版本的一个实现

Word2VEC_java word2vec java版本的一个实现有人抱怨没有测试代码。我工作中用到。写了个例子正好发这里。大家领会下精神把 package com.kuyun.document_class; import java.io.BufferedReader; import java.io.File; import java.io.FileNotFoundException; imp
GitHub - rexwong/Word2VEC_java: word2vec java版本的一个实现

Word2VEC_java word2vec java版本的一个实现有人抱怨没有测试代码。我工作中用到。写了个例子正好发这里。大家领会下精神把 package com.kuyun.document_class; import java.io.BufferedReader; import java.io.File; import java.io.FileNotFoundException; imp
GitHub - NLPchina/Word2VEC_java: word2vec java版本的一个实现

Word2VEC_java word2vec java版本的一个实现有人抱怨没有测试代码。我工作中用到。写了个例子正好发这里。大家领会下精神把 package com.kuyun.document_class; import java.io.BufferedReader; import java.io.File; import java.io.FileNotFoundException; imp
word2vec_java源码解析

第一步，读取语料（已经分过词），把每个词出现的频率放在wordMap中。 private void readVocab(File file) throws IOException { MapCount<String> mc = new MapCount<>(); try (BufferedReader br = new BufferedReader(new InputStreamR
Word2vec java实战

前言在学习了word2vec的牛逼后，开始进入实战，解决问题了。实战添加依赖 com.medallia.word2vec word2vecjava_2.11 1.0-ALLENAI-4 训练模型由于语料比较小，各项参数，都调小了。 @Service @Slf4j public class Word2vecService { public Word2VecModel train() { tr
word2vec使用過程（Java版）

這里只介紹如何使用，不介紹原理(想要了解原理的看這里) 1.下載Word2Vec(Java版地址) 2.根據自己情況准備語料庫(搜狗2012全網新聞數據) 3.處理語料庫。以搜狗2012全網新聞數據為例： (1)首先處理掉HTML標簽並轉為utf8編碼格式：cat news_tensite_xml.dat | iconv -f gb18030 -t utf-8 -c | grep "" > co
word2vec——训练自己的word2vec模型

数据集：data/souhu下面的所有文件夹的所有txt文件代码： import os import re import sys import jieba import torch from gensim.models import Word2Vec, word2vec import numpy as np import jieba.analyse import matplotlib.pyplo

Word2VEC_Java

同类工具

相关阅读

相关文章

相关问答

相关文档