当前位置: 首页 > 工具软件 > CodeGeeX > 使用案例 >

预训练模型-代码补全(一):CodeGeeX(清华大学)

梁丘洲
2023-12-01

随着NLP预训练模型的发展,大语言模型在各个领域的作用也越来越大。几个月前,GitHub基于OpenAI的GPT-3训练的Copilot效果十分惊艳,可惜现在已经开始收费(参考:Copilot Labs插件——基于AI的代码解释和代码翻译神器)。而最近,清华大学也发布了一个代码补全神器——CodeGeeX。

一、CodeGeeX简介

这是一个具有130亿个参数的大型多语言代码生成模型,它预先经过20多种编程语言的大型代码库的训练。截至2022年6月22日,CodeGeeX已经在1536个Ascend 910 AI处理器集群上接受了8500多亿tokens的训练。

该模型的VS Code插件目前一周内被调用25万次左右,并上榜VSCode Weekly,十分火爆。

这个代码补全模型的特点如下:

  1. 多语言代码生成:CodeGeeX在用几种主流编程语言生成可执行程序方面表现良好,包括Python、C++、Java、JavaScript、Go等DEMO
  2. 跨语言代码翻译:CodeGeeX支持不同语言之间的代码片段翻译。只需单击一下,CodeGeeX就可以将程序转换为任何预期的语言,并且具有很高的准确性。演示
  3. 可定制编程助手:CodeGeeX在VS代码扩展市场上免费提供。它支持代码完成、解释、总结等功能,为用户提供更好的编码体验。VS代码扩展
  4. 开源和跨平台:所有代码和模型权重都公开用于研究目的。CodeGeeX支持Ascend和NVIDIA平台。它支持在单个Ascend 910、NVIDIA V100或A100中进行推理,应用模
 类似资料: