金磊 梦晨 发自 凹非寺
量子位 报道 | 公众号 QbitAI
上学时候,有的同学花费大量时间去死记硬背,成绩却不一定好。
而学霸们往往有这样的心得:在刷题之外还要总结知识体系,事半功倍。
人学习过程中的这一现象,在机器学习领域似乎同样得到应验。
以巨头们竞争的热点NLP大模型为例,一味增加参数规模就相当于给AI更多的背诵资料。费时费力不说,有些只能从训练数据的海量文本中学到一些词句之间表面的关联。
强如GPT-3也无法用常识判断出问题本身是否成立,只要提问的时候使坏设个套,它就真的往里钻。
有网友提问“长颈鹿有几只眼睛?”,GPT-3能从文本中能学到,正确回答出两只,这很厉害。
再问“我的脚有几只眼睛?”这样没头脑的问题,GPT-3也不会拒绝回答,而是根据概率猜测出最大可能性也是两只。
△像极了考试没读懂题目还要硬猜的学渣
如果用上知识增强技术,让AI同时从大规模知识和海量多元数据中持续学习会如何?
其实知识增强大模型的威力,业界在7月份已经见证了一次。
ERNIE 3.0一举刷新54个中文 NLP 任务基准,其英文模型在国际权威的复杂语言理解任务评测 SuperGLUE 上,以超越人类水平0.8个百分点的成绩登顶全球榜首。
ERNIE 3.0具备超强语言理解能力以及写小说、歌词、诗歌、对联等文学创作能力。
不到半年时间,知识增强大模型这一方向上又传来新消息。
这一次,知识增强大模型参数达到2600亿,既是全球首个千亿级知识增强大模型,也是目前全球最大的中文单体模型。
有这样豪华的配置,实际表现如何?
新模型在机器阅读理解、文本分类、语义相似度计算等60多项任务中都取得了最好效果。
在30多项小样本和零样本任务上,也刷新了基准。
△小样本学习效果
△零样本学习效果
究其原因,是大规模知识+海量无结构数据,让AI在知识的指导下学习效率更高,能够更快地学习到海量数据(603138,股吧)中蕴含的规律。
所表现出来的也就是更加智能。
仅仅说刷榜、跑分等干巴巴的数据可能无法激发你的想象力,如果说这给大模型产业化规模应用打开了新窗口呢?
突破小样本、零样本学习问题,一方面能节省人工标注数据的昂贵成本,另一方面更是为本身就缺少足够数据的新场景带来希望。
试想医疗领域,有些罕见病历史上所有病历数据都收集起来,也不足以支撑传统预训练大模型。
像突发新型传染病这种争分夺秒的事件,如果AI可以在初期数据不足时也参与进来,病毒的破解研究和防治工作或许也能提速不少。
说了这么多,是时候正式介绍一下这次的知识增强千亿大模型了:鹏城-百度·文心大模型,由百度联合鹏城实验室共同研发。
△中国工程院院士、鹏城实验室主任高文(左)、百度首席技术官王海峰(右)联合发布鹏城-百度·文心
5个月时间从百亿到千亿的突破,百度做了什么?
知识增强千亿大模型,会带来哪些改变?
下面就来一探究竟。
知识增强千亿大模型是怎样炼成的?
千亿参数,要想“炼”动这种体量的大模型,一个强劲的“马达”是必不可少的。
说的直白一些,就是硬件层面上,需要提供一个强大的算力。
在这一方面,正如其名“鹏城-百度·文心”,它所采用的便是其前者——鹏城云脑Ⅱ。
鹏城云脑Ⅱ是一个算力集群,同时也是第一个国产自主的E级AI算力平台。或许这样说还感受不到其算力的强大,但换个角度来比较便可一目了然了。
例如在全球高性能计算领域最权威榜单——IO500中,鹏城云脑Ⅱ便曾以7043.99分和1129.75分“技压群雄”,获得了总榜第一名和10节点榜单第一名。
但除了算力这种“硬”功夫之外,与之相辅相成的还有其“软”的一面。
就好比炼丹过程中,不仅需要旺盛的火力,炼丹师的技艺、手法也是至关重要。
而炼就千亿大模型背后的这位“技巧型选手”,正是大家所熟知的百度飞桨。
不过这一次,飞桨这个深度学习开源开放平台,倒是展现出了它新炼成的核心技巧。
端到端自适应分布式训练框架。
值得一提的是,这框架是目前世界上为数不多的超大规模模型训练框架。
与传统的分布式训练方法相比,性能能够提升2.1倍,并行效率可以高达90%。
这个框架在面对不同的模型和硬件的时候,可以把它们“看做”统一的分布式计算视图和资源视图,并通过硬件感知细粒度切分和映射功能,搜索出最优的模型切分和硬件组合策略。
如此一来,诸如数据、模型参数、梯度、优化器状态等,便会按照最优的策略分配到不同的计算卡上了。
除此之外,飞桨在训练千亿大模型时为了加强模型训练的鲁棒性和稳定性,还增加了弹性资源管理模块。
通过分布式训练框架和平台调度器之间更好的交互,来实现容错和弹性的分布式训练,从而提高整体资源利用率。
弹性资源管理模块能感知硬件资源变化,如故障、扩容、缩容,来自动重新构建资源视图,并触发飞桨框架的各个模块来自动的做出反应,如模型切分、硬件映射、流水执行,在不中断训练的情况下,弹性调度集群可用资源,来进一步提升整体的训练的性能。
而且为了能够在鹏城集群上高效训练,飞桨还加入了支持多种AI芯片下硬件感知的训练技巧。
除了软硬结合之外,为了能更好地理解语言并生成内容,这次鹏城-百度·文心大模型在算法层面上也有创新之处:
可控学习和可信学习算法。
可控的意思,简单来说就是不需要任何的标注样本,就可以生成不同类型的文本。
甚至可以把指定的体裁、情感、长度、主题、关键词等做自由组合。
具体而言,通过可控学习,可以把模型预测出来的文本,和原始文本做拼接,并构造从指定属性生成对应文本的预训练数据。
有了这样的数据之后,模型就通过对它的学习,做到即使面对不同类型的文本,也能炼就零样本生成的“功夫”。
至于可信学习,就是生成出来的内容是“符合事实”的。
在这一点上,就有点像GAN了,主要的方式是通过自监督的对抗训练,来让模型学会区分数据的真伪。
模型在学会了这项技能之后,就可以在众多生成的候选内容中,挑出来最可靠的那个了。
最后,炼成鹏城-百度·文心大模型的背后,还有一个首创的大模型在线蒸馏技术。
这个技术要解决的,便是应用难落地的老大难问题。
因为大模型不论是训练还是推理,需要消耗的资源都是非常密集且昂贵。
而在“在线蒸馏技术”的加持之下,模型参数压缩率可达99.98%!
换言之,在几乎相同的效果之下,压缩版的参数量仅为原来的0.02%。
而相比于传统的蒸馏技术,它可以在大模型学习的过程中,周期性地将知识信号传递给若干个学生模型同时训练。
如此以来,就可以达到在蒸馏阶段一次性产出多种尺寸的学生模型的目的。
就好比老师也需要学习,学成之后再将自己总结的笔记拿给学生们去学习。
而有了这项技术之后,就可以做到“老师学习的同时还能教学生”的作用。
再打个比方就是,如果大模型去参加一个考试能拿100分,那通过在线蒸馏技术后,压缩5000倍的小模型也能考出96分的高分成绩。
但更为重要的是,算力仅需原来的1/5000。
……
这,便是鹏城-百度·文心千亿大模型的炼就过程。
那么在具体应用场景上,知识增强大模型与其他模型相比有什么优势?
打10010就能体验的大模型
其实,百度这次除了发布鹏城-百度·文心千亿大模型,还让百度产业级知识增强大模型“文心”全景图亮了相。
没想到吧,这样学霸级别的大模型不止一个,还有一整个大模型家族。
文心大模型中,既包含基础通用的大模型,也包含面向重点领域、重点任务的大模型,以及丰富的工具与平台,能够促进技术创新和产业发展。
知识增强跨语言大模型ERNIE-M,同时从多种语言中学习,让机器有了同时学习和理解多种语言的能力,权威跨语言理解榜单第一名;
知识增强跨模态理解大模型ERNIE-ViL,将场景图的结构化知识融入预训练,在视觉常识推理任务榜单获得第一名;
知识增强跨模态生成大模型ERNIE-ViLG,实现图文双向生成,也是全球规模最大中文跨模态生成模型。
……
不过说了这么多,效果好不好,只有用起来才知道。
而大模型“出山”下场的地方之一,是与许多人的日常所息息相关的场景——中国联通(600050,股吧)。
对于中国联通来说,每天都会面临来自用户的海量需求,包括业务咨询、业务办理、问题解答等等。
对于诸如此类的业务需求,又需要马上作出回应,而且要理解用户的问题并给予满意的答复。
培训大量的业务员所需要投入的人力、物力之大,基于中国联通的客户体量也就可想而知了。
于是,针对这样的一种现实情况,联通便和百度携手,基于百度文心大模型打造了一款可定制的对话技术。
具体而言,这项技术采用了百度文心大模型的语义表示能力,建立了面向对话理解问题的专用预训练模型。
换言之,现在你打“10010”咨询业务问题,作出丝滑解释的背后,正是大模型在发力。
或许你会说,类似这种功效的智能客服AI在电商等场景中经常也能看到。
但也正如刚才我们提到的,百度文心大模型一个非常显著的特点,就是降本增效。
在联通的这个场景中,模型对于数据标注量的需求降低了45%,如此一来便做到了在人力和物力上的“双重释放”。
而不仅仅是在联通这个案例,百度文心大模型在金融领域也在发挥着它的作用,例如保险合同业务处理,就是其中一个。
一般来说,一份保险合同需要完成近40个类目的条款解析分类,如果采用人工的方式去处理,那么一份合同大概需要小半天的时间。
再细分到每个员工,那么一个人每天至多仅能处理20份左右的保险合同。
那么如果面对海量的合同需求,随即而来的便是人工的成本、处理的效率等一系列问题。
而基于文心大模型,百度与金融领域的客户便打造了保险合同条款智能解析模型。
这个模型可以对合同作出智能分类,由它做“辅助”,一个业务员处理一份合同的时间就骤减到了1分钟,速度是此前的几十倍了。
据了解,目前这款模型已经覆盖百余份合同模板,完成了上亿份合同条款的智能分类,而且还是一天之内就能上线的那种。
……
由此可见,诸如百度文心大模型的能力,已经不单单是科研上的大势所趋,更是行业众多领域实打实所需要的需求。
其能够体现的核心价值便是降本增效,而这也是与当今数字化转型大浪潮的目标相契合。
那么接下来一个问题便是,大模型的能力该如何铺开来大规模的用起来。
对外开放,开发者不必重复造轮子
虽说知识增强大模型有千般好,如何把AI能力向外输出,让大家都能用上也是产业化大规模应用的关键。
而百度表示,百度文心大模型都会通过百度自研的深度学习平台飞桨上逐步对外开源开放。
近年来,百度AI反复强调的两个关键词是「融合创新」与「降低门槛」。
这次的鹏城-百度·文心以及文心知识增强大模型,就是多项融合创新积累起来的一次爆发。
技术研发上,知识与深度学习融合,改变了从神经网络技术单点突破的局面。
降低模型的研发和使用成本,解决数据标注困难、模型可控可信度差等难题,增加在各个场景的泛化能力。
应用场景上,跨模态多技术融合,让AI面对复杂的真实业务场景有了更多实用价值。
金融上的合同与报表、医疗影像与病例分析都是仅靠NLP或CV技术无法单独完成的,而AI与人直接交流的场合更是需要视觉、语言、语音、知识共同参与。
落地部署上,百度飞桨深度学习框架、鹏城云脑II的软硬件融合释放AI能力,首创大模型在线蒸馏技术更是节省千倍算力……
以上种种技术创新的积累终于产生质变,在传统的定制化模型开发之上,开辟出基于通用大模型的个性化微调的新模式。
新技术、新模式通过算力中心和开放社区向全行业输出AI能力,真正做到降低门槛。
通用大模型通过少量数据甚至无需数据就能训练出特定业务场景的AI模型,让开发模式变得可以复制,AI模型可轻松跨场景迁移。
以开源平台、算力中心为基础构建产业生态,为医疗、金融、法律等垂直领域的中小企业降低创新成本,提高社会运行效率。
未来,学校、科研机构和企业也计划参与到合作研发之中,这个过程中积累的数据、实现的应用场景、汇聚的开发者又能回过头来反哺整个技术生态和产业生态。
在这条路上积累十年的百度看来,下一步,就是形成以社会化协作为特征的AI大生产了。