百度、鹏城实验室发布全球最大中文单体模型，代码将于近期开源

中国工程院院士、鹏城实验室主任高文（左），百度首席技术官王海峰联合发布大模型。图片来源：百度

作为当前人工智能发展的重要方向，预训练大模型已成为AI领域的技术新高地。

12月8日，鹏城实验室与百度在深圳联合召开发布会，发布双方共同研发的全球首个知识增强千亿大模型——鹏城-百度·文心（模型版本号：ERNIE 3.0 Titan），百度产业级知识增强大模型“文心”全景图也首次亮相。

鹏城实验室总部位于深圳，是中央批准成立的网络通信领域新型科研机构，该实验室所研发的“鹏城云脑Ⅱ”是国产自主的首个E级AI算力平台，为鹏城-百度·文心提供算力支持。

会上，百度首席技术官、深度学习技术及应用国家工程实验室主任王海峰表示，鹏城-百度·文心大模型参数规模达到2600亿，是目前全球最大的中文单体模型。

参数规模意味着什么？中国工程院院士、鹏城实验室主任高文解释道，参数越多，大模型越复杂，越能够准确地把事情表达清楚。

他举例说，要说一个人的性别很简单，如果要把年龄、家庭关系、祖上由来都弄清楚，就需要非常非常多地参数。

在海量参数的基础上，鹏城-百度·文心大模型能从大规模知识、多种语言、多种模态数据中融合学习。据王海峰所述，该模型在机器阅读理解、文本分类、语义相似度计算等60多项任务取得最好效果，并在30余项小样本和零样本任务上刷新基准。

他还谈到，鹏城-百度·文心大模型由百度文心知识增强算法、大规模数据与知识、飞桨深度学习平台及“鹏城云脑Ⅱ”支撑。

据介绍，飞桨是我国首个自主研发的深度学习开源开放平台，研制了端到端自适应分布式训练框架，实现多硬件支持，并行效率高达90%，支持鹏城-百度·文心大模型高效、稳定地训练。

为解决大模型应用落地难题，百度团队首创大模型在线蒸馏技术，模型参数压缩率可达99.98%。压缩版模型仅保留0.02%参数规模就能与原有模型效果相当。

王海峰表示，鹏城-百度·文心代码近期会在OpenI启智社区开源，依托“鹏城云脑Ⅱ”对外开放，将进一步解决 AI 技术在产业应用中缺乏领域和场景化数据等关键难题。

“预训练模型对整个科学的发展、社会的发展、创新的发展都是非常重要的工具。运用这个工具，可以帮助做很多人工智能的赋能，不局限于某个领域，这对人工智能的发展都是一个福音。” 高文则表示。

为促进产学研协“多轮驱动”，百度还与鹏城实验室成立了鹏城-百度自然语言处理联合实验室，并以此为依托，资源共享、优势互补，在自然语言处理前沿研究和创新应用方面协同攻关。