当前位置: 首页 > 工具软件 > NLP-progress > 使用案例 >

整理向|GitHub 最受欢迎的 NLP 相关项目

薛栋
2023-12-01

本文整理了 GitHub 上 11 个 NLP 相关项目。包含 NLP 的最近前沿进展、学习路径、基准语料库、面试必备理论知识等。无论是入门,还是精进 NLP ,这些项目足以满足你的需求!收藏本文慢慢学习吧。

最近进展梳理:

NLP-progress

https://github.com/sebastianruder/NLP-progress

跟踪 NLP 最新进展。整理常见 NLP 任务的 SOTA 模型,及对应数据集。想要涵盖传统和核心的 NLP 任务,例如依存分析、词性标注以及最近的阅读理解和自然语言推理。主要目的是让读者快速了解,他们感兴趣任务的基准数据集和 SOTA 模型,为进一步研究奠定基础。

NLP 指南:

AILearning

https://github.com/apachecn/AiLearning

中文资料包含机器学习、深度学习、自然语言处理的学习路线图、视频、电子书、学习建议等。

NLP-tutorial

https://github.com/graykode/nlp-tutorial

针对 TensorFlow 和 PyTorch 学习 NLP 的教程。多数 NLP 模型都用少于 100 行的代码实现(注释和空白行除外)。

funNLP

https://github.com/fighting41love/funNLP

从文本中抽取结构化信息,用到的 GitHub 项目包整理。

BERT

https://github.com/google-research/bert

TensorFlow 代码和BERT的预训练模型。BERT(Bidirectional Encoder Representations from Transformers),是一种预训练语言表示的新方法,在各种 NLP 任务中达到 SOTA。论文地址:https://arxiv.org/abs/1810.04805。

Transformers

https://github.com/huggingface/transformers

Tranformers(之前称为 pytorch-transformers 和 pytorch-pretrained-bert),为自然语言理解(NLU) 和 自然语言生成(NLG)提供了 SOTA 通用架构(BERT、GPT-2、RoBERTa、XLM、DistilBert、XLNet、CTRL……),包含 100 多种语言的 32+ 预训练模型,以及 TensorFlow 2.0 和PyTorch 之间的深度互操作性。

Spacy

https://github.com/explosion/spaCy

使用 Python 和 Cython 的工业强度自然语言处理。Spacy 用于 Python 和 Cython 中的高级自然语言处理库。它基于最新研究成果,从一开始就设计用于实际的产品。Spacy 带有预训练的统计模型和单词向量,目前支持 50 多种语言的标记化。具有 SOTA 的速度,用于标记、解析和命名实体识别的卷积神经网络,并且易于深度学习集成。

AllenNLP

https://github.com/allenai/allennlp

基于PyTorch的NLP研究库,用于针对各种语言任务开发最先进的深度学习模型。

Attention-is-all-you-need-pytorch

https://github.com/jadore801120/attention-is-all-you-need-pytorch

“Attention is All You Need” (Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin, arxiv, 2017)论文的 PyTorch 实现。一种新颖的利用自我关注机制的 sequence to sequence 框架,在 WMT 2014 英译汉任务上实现了 SOTA(2017/06/12)。

中文语料库整理:

ChineseNlpCorpu

https://github.com/SophonPlus/ChineseNlpCorpus

搜集、整理、发布中文自然语言处理语料/数据集,与有志之士共同促进中文自然语言处理的发展。

面试利器:

ML-NL

https://github.com/NLP-LOVE/ML-NLP

此项目是机器学习(Machine Learning)、深度学习(Deep Learning)、NLP 面试中常考到的知识点和代码实现,也是作为一个算法工程师必会的理论基础知识。

 类似资料: