当前位置: 首页 > 工具软件 > JWPL > 使用案例 >

JWPL生成中文wikipedia数据库

储俊英
2023-12-01

1. 下载文件:

数据文件最好采用百度云保存链接后下载,或者采用firefox插件downthemall

zhwiki-20140823-pages-articles.xml.bz2
zhwiki-20140823-categorylinks.sql.gz
zhwiki-20140823-pagelinks.sql.gz

JWPL Datamachine包:

jar-with-dependencies.jar

2. 生成数据文件:

参考:JWPL_code_google_DataMachine

java -Dfile.encoding=utf8 -Xmx4g -cp jar-with-dependencies.jar de.tudarmstadt.ukp.wikipedia.datamachine.domain.JWPLDataMachine chinese 頁面分類 消歧义 ./zhwiki/20140823

3. 数据库导入

-- 创建数据库
CREATE DATABASE wikipedia DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
-- 建表
source /home/hanzhe/Document/wikidumps/jwpl_tables.sql
-- 导入txt
source /home/hanzhe/Document/wikidumps/load2mysql.sql

4. 参考网页:

http://www.cs.bgu.ac.il/~elhadad/nlp12/jwpl/wikification.html







 类似资料: