31｜发展趋势：生成式AI系统的未来发展趋势是什么？

Oct 30, 2023

31｜发展趋势：生成式AI系统的未来发展趋势是什么？-AI大模型系统实战-极客时间



下载APP





关闭

渠道合作

推荐作者

31｜发展趋势：生成式AI系统的未来发展趋势是什么？

Tyler · AI大模型系统实战

课程介绍



讲述：Tyler

时长09:41大小8.85M



你好，我是 Tyler。
前面的两节课，我们深入研究了 OpenAI 的创新历程、国内大模型在产业界的发展趋势以及其背后的技术和商业逻辑。
今天，我将结合自己的观察，与你分享人工智能的发展趋势，我总结出了以下几个关键趋势，分别是多模态、混合专家模型和模型小型化。
多模态模型我们先来说一下第一个趋势——多模态模型。
为了理解这一趋势，我们需要先了解大模型的行业现状。正如我们之前提到的，微软收购了 OpenAI，你有没有想过，他们该如何才能收回这笔庞大的投资？
答案很简单，他们需要进一步地商品化 OpenAI，基于 OpenAI 先前积累的用户和技术能力，建立微软的商业壁垒。然后再通过这一壁垒创造超额利润，以收回成本。
这是一个可以预见的必然趋势，从技术角度来看，这是一个迎合商业需求的过程。OpenAI 现在需要忘记早期由马斯克制定的“造福人类，改变世界”的愿景，只想尽早将大模型这项无休止投入的技术纳入商业闭环，把用户需求当作牵引，让技术更加健康地发展。
为此，他们必然要更大规模的商业化。而想要追求这个目标，就要完成这三个主要任务：第一个是增加用户规模，第二是增加用户使用时长，第三个任务则是提高付费用户的转化率。只有这样才能增加每个用户的生命周期价值（LTV），扩大业务的营收和利润。
前两个任务最直接的办法，就是让用户在使用你产品的时候“变懒”或“变笨”。比方说啊，如果大模型技术可以处理文字、图像、视频、音频，还有各种办公文档等日常工作中常用的信息格式，自然会吸引更多人使用 ChatGPT。
了解了这一逻辑后，我们可以理解为什么 GPT 的下一个发展方向是多模态领域。这也解释了为什么 OpenAI 没有急于推出 GPT-5，而是首先推出了 GPT-4V。
从 OpenAI GPT-4V 的那篇报告里，就证明了他们已经很好地解决了大多的视觉多模态的问题，那为什么他可以做得这么好呢？其实这件事的本质是一个视觉问答（Visual Question Answering，VQA）的问题。
该问题的早期方案都是基于两阶段的方式去做的，第一个阶段是图生文，第二阶段是文字理解。那图生文做得最好的方法当然也就是 OpenAI 的 CLIP，文字理解最好的模型则是 GPT-4。这个过程只不过是整合他们两个本已具备的一些能力。稍微概括一下就是，前期的技术积累让 OpenAI 当仁不让地成为了多模态模型的佼佼者。
当然，我们看到 OpenAI 在论文中介绍了一类视觉任务，他们处理得非常不好，他们自己也没有避讳去说这件事情，那就是复杂图像的理解。
这也证明了 GPT-4V 虽然可以解决 80% 的问题，但是他们没有精力和资源去完成剩下 20% 的事情，这也给各个领域的创业者，或者是垂直领域的工作者，留下了一些空间。
大象踩不死蚂蚁，你完全可以结合你的领域知识，在你的领域当中去做这种复杂图像的理解，这个是 GPT 目前所不能完成的，比如在生物医疗领域的复杂图像理解，就是一个待解决的问题，也是一个很有价值的创新业务方向。当然这里我只是举一个最直观的例子，相关的场景还是需要你自己去发掘。
混合专家模型我们都知道，原始 OpenAI 的 GPT 模型已经非常庞大，推理成本很高。前面提到的多模态和商业化的双重背景将导致推理成本进一步上升，多模态功能的加入会增加模型参数，提高单次推理成本。进一步商业化的要求也会扩大用户规模，增加服务调用次数，提高推理需求总量。
两个因素的共同作用下，大模型技术的开销与日俱增，甚至可能到达目前技术所不能支撑的一个程度，或者说这个成本没有任何一家公司能够承担。
因此，大模型也进入了我们在之前课程中提到的“分久必合，合久必分”的阶段。为了让大模型可以支持更多垂直领域，更好地回答用户特定问题，OpenAI 也进行了拆分大型原始模型的工作。根据谷歌的公开研究报告，GPT-4 实际上已经成为混合专家模型。当然这是包括我在内的一些 AI 工作者之前也都在猜想的一个事情，不过谷歌的这一篇文章帮助大家印证了自己的猜想。
这对于各个领域的创业者和垂直领域从业者都是好消息，因为这证明了在目前的阶段，很难出现一个通用大模型来完成所有任务，“超级智能”还需要很长时间才能实现。这为各个领域的垂直大模型提供了创新的想象空间，让大家可以去发现各自领域中的蓝海，完成自己的创新和商业模式的构建。
我们在前面的课程中提到了，因为在一些相关度不高的任务上，很难增加“涌现”的效果。因此，对于这些隔离度较高的任务，我们可以使用不同的领域模型来完成工作。
比如，将文生图、内容理解和内容摘要的模型做成一个模型，当然是可以的。但是，如果想让这个统一的模型达到生产级的效果，它的参数规模至少要达到 100B。
这三个任务如果分别使用三个 80B 的模型来完成，就可以节省大量的推理成本。拆分主要有两种方法，第一种是根据领域专家的知识来进行拆分。除此之外，还有一种方法就是让模型自己去决定如何拆分，自动生成一些可解释性不是那么强的专家模型来完成工作。
可以看出混合专家模型的专人专事模式会带来两个好处。
第一个好处是，提高了每个模型的专业性，这往往会带来模型表现的提升。
第二个作用是，降低了“用人标准”，也就是每个模型参数量的降低，减少单次推理成本。
大模型技术作为一个早期的技术，还没实现普及和大众化，因为成本高昂，业界也正在探索除了混合专家模型之外，进一步降低技术成本的方法，下面就来详细说说这些方法。
大模型技术平民化商业关注的重点在于降低成本，而模型小型化技术的目标就是优化硬件成本，降低推理功耗，因此我也比较看好大模型小型化的这个趋势。
其实，模型小型化并不是一个新领域，这项技术在人工智能领域已经广泛使用了多年。
最初，这项技术主要用于物联网设备，如边缘计算设备，因为在这些算力紧缺的设备上运行模型推理任务非常困难。最早期的模型小型化方法，主要集中在将中等规模的模型裁剪成更小规模的模型，以便在物联网设备上使用。
这和将大模型缩小到中等规模模型的任务之间存在一定的差异，但在本质上，使用的技术和方法是相似的。这也是为什么大模型刚刚推出后不久，就出现了各种模型小型化方法，使人们能够在笔记本电脑甚至树莓派这类设备上运行大模型。
在未来很长的时间内，模型小型化都还会是让大模型技术普适化的主要技术，模型小型化技术还有许多待开发的空间，包括训练中量化、剪枝和压缩等一系列 AutoML 技术，异构计算的技术，还有大模型的架构和硬件架构的 co-design 技术，这些都是未来重要的发展方向。
即使你只是该领域的应用者，也需要时刻关注可以降低商业成本的模型小型化方法，这会给你带来实际的成本优势，让你悄悄开挂，超过他人。
总结ChatGPT 成为家喻户晓的用户产品后，它已经无法脱离用户需求和商业业绩的限制。尽管 GPT 技术是一个令人振奋的技术人的胜利，但即使它生而自由，如今也无往不在商业的枷锁之中。新技术孕育了新的商业模式，商业收入反哺于技术研发，这是大家在互联网行业蓬勃发展的这些年中都无法打破的客观规律。
因此，ChatGPT 被收购后，首要任务是如何满足更多用户的需求，以确保其技术优势和市场优势能够转化为商业收入，然后像一切“伟大”的公司一样，建立护城河，封堵后来者。为了更好地接近客户，ChatGPT 必须让客户在使用产品时变得更便捷或更简单。因此，多模态大模型成为最迫切的功能需求，这也是 OpenAI 推出 GPT-4V 的原因。
然而，我们也必须认识到 GPT-4V 的局限性。多模态功能会增加模型训练和推理成本。所以，我们需要思考如何进一步降低这些成本。而我们谈到的一系列模型小型化技术，正是为此服务，这些技术包括混合专家模型、蒸馏、量化、剪枝、压缩等等。
思考题我们知道，手机 4G 流量成本的下降催生了短视频产品的蓬勃发展，当大模型的使用成本可以忽略不计时，你预测会有哪些应用横空出世？
恭喜你完成我们第 31 次打卡学习，期待你在留言区和我交流互动。如果你觉得有收获，也欢迎你分享给你身边的朋友，邀 TA 一起讨论。

生成式 AI 系统的未来发展趋势包括多模态模型、混合专家模型和模型小型化。随着大模型技术的商业化，多模态模型成为关键趋势，OpenAI的GPT-4V在视觉多模态问题上表现出色，但在复杂图像理解方面存在挑战，为垂直领域的创新提供了机会。另一方面，混合专家模型的出现为各领域提供了创新空间，降低了模型参数量和推理成本。同时，模型小型化技术在降低硬件成本和推理功耗方面发挥重要作用，未来仍有许多待开发的空间。这些趋势将对人工智能技术的发展产生深远影响，为读者提供了对未来发展方向的重要洞察。 ChatGPT作为一款备受瞩目的用户产品，已经无法脱离用户需求和商业业绩的限制。尽管GPT技术是一个令人振奋的技术人的胜利，但即使它生而自由，如今也无往不在商业的枷锁之中。新技术孕育了新的商业模式，商业收入反哺于技术研发，这是大家在互联网行业蓬勃发展的这些年中都无法打破的客观规律。因此，ChatGPT被收购后，首要任务是如何满足更多用户的需求，以确保其技术优势和市场优势能够转化为商业收入，然后像一切“伟大”的公司一样，建立护城河，封堵后来者。为了更好地接近客户，ChatGPT必须让客户在使用产品时变得更便捷或更简单。因此，多模态大模型成为最迫切的功能需求，这也是OpenAI推出GPT-4V的原因。然而，我们也必须认识到GPT-4V的局限性。多模态功能会增加模型训练和推理成本。所以，我们需要思考如何进一步降低这些成本。而我们谈到的一系列模型小型化技术，正是为此服务，这些技术包括混合专家模型、蒸馏、量化、剪枝、压缩等等。预测当大模型的使用成本可以忽略不计时，将会催生出许多新的应用。这可能包括更智能的虚拟助手、更精准的自然语言处理系统、更高效的图像识别技术等。这些应用将会深刻改变人们的日常生活和工作方式，为技术的进步和商业的发展带来新的机遇和挑战。这篇文章总结了生成式 AI 系统的未来发展趋势，以及ChatGPT作为用户产品在商业化中面临的挑战和发展方向。同时，文章也提出了对未来大模型使用成本下降可能带来的新应用的预测。这些内容为读者提供了对人工智能技术和商业发展的重要洞察，帮助他们更好地了解未来的发展方向和潜在机遇。

分享给需要的人，Ta购买本课程，你将得18元

生成海报并分享

2023-10-30

赞 9

提建议

30｜藏宝图：大模型产业全景图，新业态带来哪些新机遇？

32｜职场规划：面试准备，如何做大模型时代下的长远规划？

 写留言

全部留言(2)

最新
精选

顾琪瑶
2023-10-30 来自上海
如果用小模型或垂直领域模型的话, 那么agents是否就不需要了
作者回复: 你好，顾琪瑶！虽然可以直接告诉你答案，但还是希望你能够独立思考，你可以试着回答一下这几个问题：智能体和大语言模型本身的定位分别是什么？它们分别解决的是什么问题？
共 3 条评论
1
aLong
2024-02-29 来自北京
结合问题如果路过忽略成本。我想很多内容都会变得更美好。例如虚拟老师，通过专业性的模型去教学。这等于升级了那些文档、视频教学的方式。虚拟导游，根据固定景区或者是通用型导游去结合你想法喜好去旅行。相关可能就很多了。虚拟助手等等。这些可能是具身智能也可能是移动终端方式。
1

