Awesome-Chinese-NLP

授权协议 Apache-2.0 License
开发语言 Python
所属分类 神经网络/人工智能、 自然语言处理
软件类型 开源软件
地区 不详
投 递 者 洪胜涝
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

awesome-chinese-nlp

A curated list of resources for NLP (Natural Language Processing) for Chinese

中文自然语言处理相关资料

图片来自复旦大学邱锡鹏教授

Contents 列表

1. Chinese NLP Toolkits 中文NLP工具

2. Corpus 中文语料

3. Organizations 中文NLP学术组织及竞赛

4. Industry 中文NLP商业服务

5. Learning Materials 学习资料



Chinese NLP Toolkits 中文NLP工具

Toolkits 综合NLP工具包

  • THULAC 中文词法分析工具包 by 清华 (C++/Java/Python)

  • NLPIR by 中科院 (Java)

  • LTP 语言技术平台 by 哈工大 (C++) pylyp LTP的python封装

  • FudanNLP by 复旦 (Java)

  • BaiduLac by 百度 Baidu's open-source lexical analysis tool for Chinese, including word segmentation, part-of-speech tagging & named entity recognition.

  • HanLP (Java)

  • FastNLP (Python) 一款轻量级的 NLP 处理套件。

  • SnowNLP (Python) Python library for processing Chinese text

  • YaYaNLP (Python) 纯python编写的中文自然语言处理包,取名于“牙牙学语”

  • 小明NLP (Python) 轻量级中文自然语言处理工具

  • DeepNLP (Python) Deep Learning NLP Pipeline implemented on Tensorflow with pretrained Chinese models.

  • chinese_nlp (C++ & Python) Chinese Natural Language Processing tools and examples

  • lightNLP (Python) 基于Pytorch和torchtext的自然语言处理深度学习框架

  • Chinese-Annotator (Python) Annotator for Chinese Text Corpus 中文文本标注工具

  • Poplar (Typescript) A web-based annotation tool for natural language processing (NLP)

  • Jiagu (Python) Jiagu以BiLSTM等模型为基础,使用大规模语料训练而成。将提供中文分词、词性标注、命名实体识别、情感分析、知识图谱关系抽取、关键词抽取、文本摘要、新词发现等常用自然语言处理功能。

  • SmoothNLP (Python & Java) 专注于可解释的NLP技术

  • FoolNLTK (Python & Java) A Chinese Nature Language Toolkit

Popular NLP Toolkits for English/Multi-Language 常用的英文或支持多语言的NLP工具包

  • CoreNLP by Stanford (Java) A Java suite of core NLP tools.

  • Stanza by Stanford (Python) A Python NLP Library for Many Human Languages

  • NLTK (Python) Natural Language Toolkit

  • spaCy (Python) Industrial-Strength Natural Language Processing with a online course

  • textacy (Python) NLP, before and after spaCy

  • OpenNLP (Java) A machine learning based toolkit for the processing of natural language text.

  • gensim (Python) Gensim is a Python library for topic modelling, document indexing and similarity retrieval with large corpora.

  • Kashgari - Simple and powerful NLP framework, build your state-of-art model in 5 minutes for named entity recognition (NER), part-of-speech tagging (PoS) and text classification tasks. Includes BERT and word2vec embedding.

Chinese Word Segment 中文分词

Information Extraction 信息提取

QA & Chatbot 问答和聊天机器人



Corpus 中文语料



Organizations 中文NLP学术组织及竞赛



Industry 中文NLP商业服务

  • 华为云NLP 针对各类企业及开发者提供的用于文本分析及挖掘的云服务,旨在帮助用户高效的处理文本

  • 百度云NLP 提供业界领先的自然语言处理技术,提供优质文本处理及理解技术

  • 阿里云NLP 为各类企业及开发者提供的用于文本分析及挖掘的核心工具

  • 腾讯云NLP 基于并行计算、分布式爬虫系统,结合独特的语义分析技术,一站满足NLP、转码、抽取、数据抓取等需求

  • 讯飞开放平台 以语音交互为核心的人工智能开放平台

  • 搜狗实验室 分词和词性标注

  • 玻森数据 上海玻森数据科技有限公司,专注中文语义分析技术

  • 云孚科技 NLP工具包、知识图谱、文本挖掘、对话系统、舆情分析等

  • 智言科技 专注于深度学习和知识图谱技术突破的人工智能公司

  • 追一科技 主攻深度学习和自然语言处理



Learning Materials 学习资料

  • 资源 我爱自然语言处理 2019斯坦福自然语言处理(深度学习)视频 2017斯坦福自然语言处理(深度学习)csdn笔记 YSDA Natural Language Processing course 自然语言处理起源:马尔科夫和香农的语言建模实验 lihanghang/NLP-Knowledge-Graph资料汇总 汉语自然语言处理b站视频 自然语言处理理论与实战源码下载 七月算法NLP班课件 数

  • 推荐一个中文的GPT2项目 Chinese version of GPT2 training code, using BERT tokenizer. 作者提供了一份中文的GPT2训练代码,使用BERT的Tokenizer。可以写诗,新闻,小说,或是训练通用语言模型。支持字为单位或是分词模式。支持大语料训练。 以下来在该项目主页描述。 GPT2-Chinese Description Chinese

  • 1 github 链接      https://github.com/SophonPlus/ChineseNlpCorpus          包括:情感分类,推荐,问答    https://github.com/CLUEbenchmark/CLUEDatasetSearch       NER、QA、情感分析、文本分类、文本分配、文本摘要、机器翻译、知识图谱、语料库以及阅读理解等 10 大类

  • 推荐一个Github项目:Morizeyao/GPT2-Chinese Chinese version of GPT2 training code, using BERT tokenizer. 作者是AINLP交流群里的杜则尧同学,提供了一份中文的GPT2训练代码,使用BERT的Tokenizer。可以写诗,新闻,小说,或是训练通用语言模型。支持字为单位或是分词模式。支持大语料训练。推荐Star,

  • 自然语言处理的库非常多,下面列举一些对Python友好,简单易用,轻量,功能又全的库。 1 中文 中文自然语言处理工具评测:https://github.com/mylovelybaby/chinese-nlp-toolkit-test awesome: https://github.com/crownpku/Awesome-Chinese-NLP Hanlp 地址:https://github.

  • 前言 本文主要介绍了自然语言处理的基础答疑和案例介绍。 一、在真实的建模场景中,如何能给模型加入先验知识? 在模型中加入人为设计的先验信息,会让模型学习到一些关键的特征,从而会让模型学习得更好,因为机器模型可以结合人类已有的先验知识。 具体包括以下几方面的措施: 借助预训练模型 把网络的weight替换成一个在另外一个任务上pretrain好的模型weight,而不是选择随机权重作为初始权重,例如

  • awesome-pretrained-chinese-nlp-models BERT         略。 RoBERTa RoBERTa 详解 BPE 算法原理及使用指南【深入浅出】 ALBERT ALBERT全面理解 一文看懂从BERT到ALBERT NEZHA “哪吒”出世!华为开源中文版BERT模型 文献阅读笔记:NEZHA MacBERT MacBERT: 中文自然语言预训练模型 WoB

  • GNN4NLP-Papers A list of recent papers about GNN methods applied in NLP areas. Taxonomy Fundamental NLP Tasks Incorporating Syntactic and Semantic Information in Word Embeddings using Graph Convolutio

  • 宝藏资源收藏分享 本文整理了我目前觉得还算不错的GitHub资源,分为NLP、深度学习和基本知识 NLP nlp-tutorial(实现了NLP的一些模型的代码) GitHub链接: graykode/nlp-tutorial: Natural Language Processing Tutorial for Deep Learning Researchers (github.com) ML-NL

 相关资料
  • 目录: PyTorch学习教程、手册 PyTorch视频教程 NLP&PyTorch实战 CV&PyTorch实战 PyTorch论文推荐 Pytorch书籍推荐 PyTorch学习教程、手册 PyTorch英文版官方手册:对于英文比较好的同学,非常推荐该PyTorch官方文档,一步步带你从入门到精通。该文档详细的介绍了从基础知识到如何使用PyTorch构建深层神经网络,以及PyTorch语法和一

  • Awesome Resume for Chinese 适合中文的简历模板 How to Contribute 请见贡献指南! LaTeX dyweb/Deedy-Resume-for-Chinese 适合应届毕业生的 LaTeX 简历模板,by @dyweb cv_resume 中文简历 Latex 模板。基于 ModernCV 模板,进行了中文字体支持和优化,by @geekplux billr

  • 中华新华字典数据库和 API 。收录包括 14032 条歇后语,16142 个汉字,264434 个词语,31648 个成语。 对性能没需求的话,可以用我的新华字典 API 。所有的数据放在 data/ 目录。 Project Structure chinese-xinhua/|+- .vscode/|  ||  +- launch.json <-- VSCode 配置文件|+- data/ <-

  • deeplearningbook-chinese 是 Deep Learning 中文翻译。 请直接下载PDF阅读(已打包为zip,貌似现在不能上传PDF)。 虽然这一版准确性有所提高,但我们仍然建议英文好的同学或研究者直接阅读原版。 校对认领 我们划分4个类别的校对人员。每个类别需要很多人。 负责人也就是对应的翻译者。 我们需要有人简单地阅读,最好是刚入门或者想入门的同学。有什么翻得不明白的地方

  • chinese-search 是一个全文检索组件,基层实现依赖 nodejieba 中文分词和 redis 集合存储。比 MySQL 更轻便更敏捷。 使用 ## ES5var search = require('chinese-search');## ES6import search from 'chinese-search'var data = [{    'name': 'C#权威指南-ful

  • 將XMCircleType改成支持中文。将一串文字按照圆弧形排列输出,可以自定义排列成的圆弧的角度。