1. 下载文件:
数据文件最好采用百度云保存链接后下载,或者采用firefox插件downthemall
zhwiki-20140823-pages-articles.xml.bz2
zhwiki-20140823-categorylinks.sql.gz
zhwiki-20140823-pagelinks.sql.gz
JWPL Datamachine包:
2. 生成数据文件:
参考:JWPL_code_google_DataMachine
java -Dfile.encoding=utf8 -Xmx4g -cp jar-with-dependencies.jar de.tudarmstadt.ukp.wikipedia.datamachine.domain.JWPLDataMachine chinese 頁面分類 消歧义 ./zhwiki/20140823
3. 数据库导入
-- 创建数据库
CREATE DATABASE wikipedia DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
-- 建表
source /home/hanzhe/Document/wikidumps/jwpl_tables.sql
-- 导入txt
source /home/hanzhe/Document/wikidumps/load2mysql.sql
4. 参考网页:
http://www.cs.bgu.ac.il/~elhadad/nlp12/jwpl/wikification.html