行业知识
7月27日,由微博、新浪新闻主办的人工智能领域行业峰会——“融合生态价值共创”2022新智者大会召开,在大会“智驱万物:AI推动万物互联的加速到来”的议题中,百度技术委员会主席吴华女士分享了题为《大模型技术及应用》的演讲,揭秘大模型的基本原理、发展趋势,分享了大模型助力产业智能化的前沿应用。
我今天的分享包括三个部分,首先我会介绍大模型的知识,接下来介绍百度文心大模型,之后介绍大模型的应用。
我们知道,现在人工智能主要三个方面:深度学习、大数据、大算力。三个结合起来促进了现在人工智能的发展。
基于这样的大数据、深度学习、大算力,我们能够通过从无标注的数据中自监督的学习,得到预训练的大模型。这些大模型在下游各种任务的应用中,只需要少量的任务数据,就能取得非常好的效果。
预训练大模型的基本原理,实际上有一点像人的教育的过程。自从我们出生,从上小学、中学,甚至上大学,我们接受的都是通识教育。
在这个漫长的成长过程中,我们能够从周围的文本、图像、视频等等,建构自己的知识体系。之后接受专业教育的时候,我们需要很少量的或者相对短的时间,就可以获得专业的技能。
所以,预训练大模型也像人类的学习一样,能够从大量的数据中学习知识和规律。在下游的各种人工智能的应用中,大模型可以使用少量的标注数据,就能得到很好的效果。
我们知道,预训练大模型最早是2018年的Bert开始1亿的参数的模型。现在已经发展成了1.2万亿的参数,参数规模已经提升了1.2万倍,算力规模也提升了1152倍,数据规模也提升了587倍。
为什么大家还是在不停增大规模呢?实际上随着参数规模的增大,以及数据的增大,预训练大模型的推理能力以及在下游的应用过程中的效果越来越好,迁移能力和泛化能力越来越强。因此,这个模型还在不断增大过程中。
预训练大模型最先是在自然语言处理领域得到了发展。在这个过程中,预训练大模型在国际权威的两个数据集上,主要是自然语言理解的数据集上,超越了人类的水平。
之后,大模型开始应用在视觉和跨模态等领域。在视觉上,通过大模型的训练,在视觉分类、视觉分割等任务上,其性能也得到了极大的提升。万象城平台
在跨模态方面,我们通过文本和图像融合训练,能够提升视觉推理、视觉问答等任务的水平。
最近,跨模态大模型能够根据文本或者说的一句话,就可以生成一幅跟话相关的或者文本相关的图像。图像的可观性以及质量都非常好,甚至超越了人类的水平。
在预训练大模型的应用或者训练的过程中,实际上,人类的先验知识是不可或缺的。首先,在GPT-3的训练过程中,人类实际上通过自己的先验知识,不断地调试参数,进行超参的设置。
之后,百度的文心ERNIE 3.0通过引入人类凝炼的知识图谱,使得模型的效果进一步得到提升。之后,我们发现在应用过程中,有不同的已经标注好的任务数据,如果模型能够学习到这些数据,效果也会得到不断提升。
因此,通过人工设置模板,把这些任务数据使得充分利用,也能进一步提升这些预训练模型的效果。
前面说的这三项,是三种不同的使用人类先验知识的方法,都是为了提升预训练大模型的效果。
比如说,GitHub使用预训练模型来生成代码,这些代码能辅助程序员提高他写代码的效率。
最近,Transformers的部分作者出来创业,创业了一个Adept的项目,目标是想使这些大模型和人类生活中使用的各种各样的电子工具结合,使得人类的生活或者工作的效率提升。
比如说,用模型生成一个报表,或者是说创作一段文本等等,使得人类效率能得到大幅度提升。
文心大模型,包括自然语言处理大模型、视觉大模型、跨模态大模型、以及生物计算大模型,生物大模型能提升发现新药的效率。
在大模型的基础上,为了提高行业应用的效率/效果,我们也构建了行业大模型。在实际应用中,我们也提供了各种各样的工具和平台,使得使用大模型的流程变得更加简单。
第一个特点,能够从大规模的知识图谱和海量的无结构数据中学习。除了海量无结构数据以外,我们也充分利用了人类的知识。比如说大规模的知识图谱,我们能够通过两者的协同来学习知识和规律。
比如说,我们通过掩码知识图谱中”作品”这个词,指导模型从文本中学习这种知识推断关系。反过来我们掩码”作家”这个词,能够通过知识图谱,去指导还原。
通过这种方法,我们能解决结构化数据和无结构化数据统一表示的问题,使得学习效果进一步提升。
第二个特点,在ERNIE模型中,能够同时融合自编码和自回归的结构,能够使这个模型即能够理解语言也能够生成语言。
在理解语言的时候,我们采用自编码的方式,模型能够看上下文。也就是前面的和后面的词,我都能看到。这样的话,有利于语言理解的效果提升。
而在生成的时候,模型只能看到前面已经生成的语言。那这样的话,模型采用自回归的方法,来进行语言生成。
通过这样的方式,这个模型能同时做到自然语言处理里面的语言理解和语言生成。
第三个特点,我们采用了飞浆非常领先的并行技术,能够高效地支持超大参数规模的模型训练。飞桨能够支持千亿规模的参数模型训练。我们知道,这么大的参数训练,不可能在一台机器,一张卡,或者说单机多卡这样的训练,需要多机多卡并行训练,因此,我们采用了模型并行、行业知识参数并行、流水线并行、参数贴片的并行方式,使得模型训练的效率,提升了50%。
基于这样的一个基础,所以我们发布了鹏城-百度·文心大模型,能够基于飞桨领先的并行技术,以及鹏城先进的算力中心,训练2600亿的模型,在60多项任务中达到了最好的水平。
知识增强大模型,能够显著提升语言理解能力,尤其是复杂知识推理能力,比如跟GTP-3比,我们的模型能够提高8%个点。尤其是在多步推理和常识推理上,知识增强模型表现得更好。
刚才我们提到,模型除了做语言理解以外,还有能做语言生成,而且能做多种风格的语言生成。比如说做小说的写作,还有歌词的创作,以及诗歌的创作等等。
而且,创作出来以后,我们有做过一些评估。有时候都不能分出来是人写的,还是机器写的。
同时,我们发现知识能提升学习效率,在模型发布的时候,在国际排行榜SuperGLUE上排在榜首,这是自然语言领域权威的一个数据集合。可以看到我们的模型和GPT-3相比,模型的参数规模非常小,但是我们的效果更好。
同时,我们也看到,我们的模型有生成能力。尤其是能生成不同风格的文体。比如说,我们能够写小说,能够做诗歌的创作,可以写歌词等等。
在预训练大模型中,我们已经融入了大规模的知识图谱,在实际应用过程中,也有很多已经标注了跟任务相关的知识。
在大模型中,我们也把这些多种多样的任务知识,融入到大模型的训练中。而且是通过统一的、基于提示的方式来把这些知识融入在我们的大模型中。
比如说把问答、情感分析,甚至文本生成等等这样的一些任务知识,能融入到这个大模型训练中,可以进一步提升下游的任务效果。
我们看到,在左边第一张图中,在公开的数据中,我们即使不利用任务相关的数据,这个模型也能够显著提升这些任务的效果。尤其在真实场景中,包括语言理解和语言生成的这两类任务中,模型的迁移能力也得到了显著的提升。
除了文本相关模型,实际上我们也训练了跨模态生成大模型。这些模型能够同时利用文本和图像的数据,同时做文本到图像,以及图像到文本的生成。这样的话,两个任务能够互相帮助,进一步提升生成的效果。
上面一排实际上是从文本到图像的一个生成。也就是说,我说一句话,模型能根据这些话生成相对应的图片。我们看到这些图片的写意能力还是非常强的。
下面一排,实际上是我输入一个图片,这个模型就能够输出一句对这个图片的描述。这个应用还是非常好的,这样的话比如说我们出去游玩,拍了很多照片,但是你检索的时候非常难。
除了刚才说的底座的文心ERNIE模型,以及ERNIE-VI跨模态模型。实际上,我们在任务模型中,在下游应用中,也需要和任务相关的大模型。
我们知道,在自然语言领域中,对话任务是一个非常综合性的任务。如果我们实现了机器自由对话,那我们离通用人工智能就更近了一步。
所以,针对这样的特点,我们提出了基于隐变量的对话生成大模型,能够解决多样性的生成问题。
同时,我们在对话的过程中,我们在理解对方说的话的基础上,模型同时要回复。这实际上是一个理解和生成结合的过程。因此,我们用统一的框架来建模理解和生成。
我们看到,基于这样的原理,发布了全球首个百亿对话预训练生成模型,这个模型效果好,能耗低。同时,我们也发现在这个百亿模型之前,我们发布了一个16亿的模型。这个16亿的模型,虽然参数少,但是效果比其它发布的更大模型,效果更好。所以,说明它的能耗更低。
我们来看一个例子,在这个例子中,首先这个机器人实际上是一个有自己的人设。比如说她是女性,她的兴趣是人工智能。根据这样的设定,跟人对话的过程中,她能很快的就她的兴趣进行聊天。
而且,她还能回答人工智能领域相关的。比如说,关于模型训练,以及函数特点的一些问题。同时,她也具有人类的常识。比如说,她也知道要如何算数,计数计的比较准确。同时,你要出去玩的时候,她知道今天是雨天,提醒你带伞。或者提醒你去针对今天的天气,穿衣等等这样的一些能力。万象城平台
第一个是在行业应用中,因为大模型缺乏行业知识,它的能力不能充分的得到体现。
第二个是在使用的大模型过程中,因为数据建设、模型调试、以及部署的门槛高,也使得大模型在下游的应用中,没有得到充分的利用。
第三个是大模型对于计算资源和存储资源的要求都非常高,所以在资源受限的场景下,也不能很好的被使用。
我们发现,在行业应用中,有一些充分训练的模型,即使没有利用预训练技术,效果也比大模型的效果好。
为了解决这个问题,我们就提出了建设行业大模型的一个方案。也就是说,在通用大模型的基础上,利用存在大量的、无标记的数据,再训练一个行业大模型。这样的话,使得行业大模型在行业相关的任务上的效果,能得到极大的提升。
我们发现,在电力行业也存在很多的结构化知识。充分利用这些结构化的知识,发现电力行业大模型,在电力相关的这些任务中,能提升相关任务的效果,平均能提高3-4个点之间。
同时,我们发现另外一个例子,在金融领域我们跟浦发银行合作,也利用了金融领域的结构化知识,提高金融行业里面的任务效果。比如说,在命名实体识别上,我们从60%多提高到90%多,这个提高还是非常大的。
除了前面举例的行业以外,大模型已经在各行各业中得到了非常广泛的应用。比如说,在互联网行业、医疗行业、保险、证券、交通等等这样的一些行业里面能大幅的提升效率和效果。
我们刚才提到,大模型在资源受限的场景,不能充分的发挥效果。因此,我们可以提供大模型小型化的一些方案,比如说裁减、蒸馏、量化、稀疏等。在不同的场景中,可以使用不同的方法,因为这些方法在效果、速度、部署成本、迭代的效率等等方面是各有优缺点的。
我们来举一个例子,在搜索场景的例子。在这个场景里,实际上当时面临着一个非常大的挑战,是千亿模型怎么在搜索场景进行部署。
我们采用了两种方法。第一种方法是在训练的过程中同时进行蒸馏,将大模型蒸馏成一个比较小的模型。这样的话,能够用同一个计算资源做两件事,训练多个模型。这样的话,节省了计算资源。
第二个,为了保证小模型的效果,我们采用了助教的方式。也就是说,我们中间采用了中型的模型来作为助教,来教这个小模型。也就是说,大模型教中型模型,中型模型教小型模型的方式,使得效果得到了极大的提升。我们当时用了万分之2.5的参数,就能达到千亿模型96%的效果。所以,基本上是无损的这种方式来做的。
刚才我们提到,大模型在使用过程中,其实部署的成本比较高,或者门槛比较高。因此,我们把大模型平台化,在这个平台中,我们提供了多种大模型部署方案,以及效果提升的方案,并且提供错误分析、模型迭代、模型监控等等多种功能,使得模型效果能得到充分的保证。
因此,我们提供了工具平台,而且是面向不同的用户。比如说,对于专业的用户,我们提供了开发套件;对于零基础的开发者,我们提供了EasyDL开发工具以及平台;介于两者之间的,我们提供了BML这样的一个开发平台。
而且,在这个平台上,我们提供了多种服务。万象城平台比如说数据标注、模型调试,以及效果验证等等一些工具,使得这个模型部署得到充分的保证。
现在文心大模型在百度的产品上得到了广泛的应用,包括百度搜索、新闻推荐、好看视频、地图、小度等等,效果都得到了极大的提升,有的高达10%以上。
同时,大模型实际上能提高人的创作效率。因此,大模型也用来文案写作。比如说之前我们高考作文写作,大模型也可以来做媲美于人类高考生的作文的写作,还有做视频的生成、诗歌的生成等。
基于大模型,我们能生成一个数字人,数字人能根据图像或者文字内容的不同,有不同的表情、不同的手势,甚至能够生成很流畅的一个视频。
所以,我们能够利用大模型,大幅度提高人的生产效率。而且,现在文心大模型已经广泛应用于千行百业。
大模型能够助力产业智能化,保险、金融、医疗、人力资源、证券、通讯、电商、物流等等行业,得到了充分的使用。