当前位置：首页 > 软件库 > 神经网络/人工智能 > 机器学习/深度学习 >

GLM

用于自然语言理解和生成的通用预训练框架

授权协议 MIT

开发语言 Python SHELL

所属分类神经网络/人工智能、机器学习/深度学习

软件类型开源软件

地区国产

投递者封永嘉

操作系统跨平台

开源组织无

适用人群未知

软件官网

软件文档

官方下载

软件概览

GLM (General Language Model) 是清华大学推出的一种使用自回归填空目标进行预训练的通用语言模型，可以针对各种自然语言理解和生成任务进行微调。

GLM 通过添加 2D 位置编码并允许以任意顺序预测跨度来改进空白填充预训练，从而在 NLU 任务上获得优于 BERT 和 T5 的性能。同时，GLM 可以通过改变空白的数量和长度对不同类型的任务进行预训练。在横跨 NLU、条件和无条件生成的广泛任务上，GLM 在给定相同的模型大小和数据的情况下优于 BERT、T5 和 GPT，并从单一的预训练模型中获得了 1.25 倍 BERT Large 参数的最佳性能，表明其对不同下游任务的通用性。

关于 GLM 的详细描述可参考论文 GLM: General Language Model Pretraining with Autoregressive Blank Infilling (ACL 2022)

ChatGLM-6B 就是在 GLM 框架的基础上为中文 QA 和对话进行了优化。

预训练模型

可以从 OneDrive 或 Tsinghua-Cloud 下载论文中使用的预训练模型。

Name	Params	Language	Corpus	Objective	File	Config
GLM-Base	110M	English	Wiki+Book	Token	glm-base-blank.tar.bz2	model_blocklm_base.sh
GLM-Large	335M	English	Wiki+Book	Token	glm-large-blank.tar.bz2	model_blocklm_large.sh
GLM-Large-Chinese	335M	Chinese	WuDaoCorpora	Token+Sent+Doc	glm-large-chinese.tar.bz2	model_blocklm_large_chinese.sh
GLM-Doc	335M	English	Wiki+Book	Token+Doc	glm-large-generation.tar.bz2	model_blocklm_large_generation.sh
GLM-410M	410M	English	Wiki+Book	Token+Doc	glm-1.25-generation.tar.bz2	model_blocklm_1.25_generation.sh
GLM-515M	515M	English	Wiki+Book	Token+Doc	glm-1.5-generation.tar.bz2	model_blocklm_1.5_generation.sh
GLM-RoBERTa	335M	English	RoBERTa	Token	glm-roberta-large-blank.tar.bz2	model_blocklm_roberta_large.sh
GLM-2B	2B	English	Pile	Token+Sent+Doc	glm-2b.tar.bz2	model_blocklm_2B.sh
GLM-10B	10B	English	Pile	Token+Sent+Doc	Download	model_blocklm_10B.sh
GLM-10B-Chinese	10B	Chinese	WuDaoCorpora	Token+Sent+Doc	Download	model_blocklm_10B_chinese.sh

将下载的文件解压到本地文件夹中，并在相应的脚本中设置CHECKPOINT_PATH为文件夹路径。

结果

SuperGLUE

验证集、单模型、单任务微调

Model	COPA	WSC	RTE	WiC	CB	MultiRC	BoolQ	ReCoRD
GLM-10B	98.0	95.2	93.1	75.7	98.7/98.2	88.1/63.3	88.7	94.4/94.0
DeBERTa-XXLarge-v2	97.0	-	93.5	-	-	87.8/63.6	88.3	94.1/93.7

Seq2Seq

CNN/Daily Mail (test set，没有使用额外的数据)

Model	ROUGE-1	ROUGE-2	ROUGE-L
GLM-10B	44.7	21.4	41.4
T5-11B	43.5	21.6	40.7
PEGASUS-Large	44.2	21.5	41.4
BART-Large	44.2	21.3	40.9

XSum (test set，没有使用额外的数据)

Model	ROUGE-1	ROUGE-2	ROUGE-L
GLM-10B	48.9	25.7	40.4
PEGASUS-Large	47.2	24.6	39.3
BART-Large	45.1	22.3	37.3

Language Modeling

测试集，零样本

Model	LAMBADA (accuracy)	Wikitext103 (perplexity)
GLM-10B (bi)	72.35	11.33
GLM-10B (uni)	67.18	12.22
GPT-2	52.66	17.48
Megatron-LM (8.3B)	66.51	10.81
Turing-NLG	67.98	10.21

使用案例

什么是GLEW GLFW GLM

GLEW是一个基于OpenGL图形接口的跨平台的C++扩展库。GLEW能自动识别当前平台所支持的全部OpenGL高级扩展涵数。只要包含glew.h头文件，就能使用gl,glu,glext,wgl,glx的全部函数。GLEW支持目前流行的各种操作系统。官方解释如下：GLEW is an open-source cross-platform extension loading library wit
R语言_GLM 的 summary()

对于glm模型summary()输出的汇总结果，如何解读是非常重要的，它直接影响得出的结论。例如下面这样一个输出结果，该如何理解呢？ Call: glm(formula = bl ~ I, family = gaussian,data = anaData) Deviance Residuals: Min 1Q Median 3Q Max -62.36
无法打开包括文件:“glm/glm.hpp”

问题：无法打开包括文件:“glm/glm.hpp”，文件中包含 “glm/glm.hpp” 报错，但是可以打开文件在工程中包含了glm 文件夹解决方案：在项目属性中包含 ./glm 和 $(ProjectDir)
opengl 中使用glm的坑

矩阵必须用单位矩阵初始化，否则不会显示出图像 glm::mat4 transform=glm::mat4(1.0f); 以下的transform代表先平移后旋转，和定义的顺序是相反的 transform = glm::rotate(transform, (GLfloat)glfwGetTime() * 10.0f, glm::vec3(0.0f, 0.0f, 1.0f)); transform

GLM

预训练模型

结果

SuperGLUE

Seq2Seq

Language Modeling

同类工具

相关阅读

相关文章

相关问答

相关文档