01｜认知升级：你心中的AI大模型长啥样？

Aug 14, 2023

01｜认知升级：你心中的AI大模型长啥样？-AI大模型系统实战-极客时间



下载APP





关闭

渠道合作

推荐作者

01｜认知升级：你心中的AI大模型长啥样？

Tyler · AI大模型系统实战

课程介绍



讲述：Tyler

时长12:02大小10.99M



你好，我是 Tyler。从今天起，我们正式开始学习“AI 大模型架构”。
最近，各大媒体热搜上都在讨论 AI 大模型，国内外的各个大厂也都在相关领域开疆拓土。“AI 大模型将成为新一代应用平台”的观点，似乎已经成为各大公司的共识。
相信你学习这门课程的目的，也是为了在 AI 大模型的技术浪潮下，尽早熟悉甚至驾驭这个新的基础设施，走在技术的前沿。不过在开始之前，我想先问你一个问题：学习一个全新领域的时候，你一般第一件事会做什么？
我的习惯是 follow 数学上的方法，先搞清楚这个领域的“公理”有哪些，因为它是该领域的共识，如果不能在一开始，就和领域中的大多数人建立共识，后续所有的认识都会出现偏差。所以在正式开始学习之前，我们有必要花点时间了解这些“公理”以及它们背后的历史，让自己的认知更接近该领域的专家，这样后面的学习才能事半功倍。
今天这节课里，我们主要会讨论后面这几个问题。
AI 大模型是什么？
AI 大模型能做什么？
为什么说 AI 大模型是新一代应用平台？
理解了这几个问题，你才能真正进入到属于技术人的 AI 大模型世界。
AI 大模型是什么？我相信在过去的一年里，你经常听到各种名词，比如大模型、AI 模型、生成式 AI、AIGC、生成式 AI 大模型等等。好像机器突然被魔法棒点中，瞬间觉醒了智能，现在已经学会了诗歌和绘画，接下来就要开始统治和奴役人类。
实际上，在技术术语上并没有“大模型”这个说法。不过，由于它被广泛使用，大模型这个名字已经深入人心。虽然我不必刻意纠正，但作为一个严谨的技术专栏，我还是想指出一点：在学术分类上，我们无法找到“大模型”这个分类。
学术上更多更常用的术语是基础模型（foundation model 或 base model），在 2021 年 8 月，李飞飞和其他一百多位学者，联合发布了一份超过 200 页的研究报告  On the Opportunities and Risks of Foundation Models。在这篇文章中，AI 专家们介绍了目前该类模型所面临的机遇和挑战，并一致将这些大模型称为基础模型（Foundation Models），所以通用的标准术语是基础模型而非大模型。
维基百科对基础模型的定义是这样的，基础模型是一种大型机器学习模型，通常在大量数据上进行大规模训练（通过自监督学习或半监督学习），以使它可以适应各类下游任务。
因此，它需要兼顾参数量大（大型模型），训练数据量大（大量数据大规模训练）和迁移学习能力强（适应多种下游任务）几点才能够叫做基础模型，而不只是参数量大，就能够叫做基础模型，我们在甄别时需要特别注意。
另一个重要的定义就是 AIGC，目前工业界普遍将 AIGC（Artificial Intelligence Generated Content）称为生成式人工智能。
你应该也已经观察到了，目前全球热门的 AIGC 应用（如 ChatGPT，Midjourney）几乎都是通过“大模型”的上下文学习、涌现和思维链等能力支撑实现的，所以大众和媒体往往会把这种“智能”和“大模型”技术建立一一映射的关系。因此讨论 AIGC 应用时，各类媒体往往会在“生成式人工智能”后面加上“大模型”，这也就是我们常听到的“生成式人工智能大模型”。
我简单解释一下涌现和思维链。所谓“涌现”，指的是在大模型领域，当模型突破某个规模时，性能显著提升，表现出让人惊艳、意想不到的能力。所谓思维链（Chain-of-thought，CoT）指的是通过一系列有逻辑关系的思考步骤，形成一个完整的思考，进而得出答案的过程。
看到这里你可能仍然有些困惑，叫大模型不够专业，叫生成式人工智能大模型也怪怪的，那“大模型”究竟是什么呢？别着急，想要理解它的本质，我们有必要先梳理一下“大模型”从何而来。
大模型技术从何而来？在过去的二十多年里，随着 AI 系统的发展，模型一直在不断增大，所以“大模型”实际上是一个相对的概念。
刚刚提到的基础模型不是凭空出现的，故事还要从 AI 模型为什么热衷于追求“大”开始说起。在搜索、广告和推荐等内容分发领域兴起后，我们开始能够收集到大规模的有监督反馈数据，例如点击、点赞和购买等行为数据。市场也渐渐察觉，投入在人工智能技术上的投资，可以在商业上获得巨大的回报。因此，为了更好地记忆和监督海量数据中的信息，模型的参数规模开始急剧增长，模型变得越来越大。
随后，随着 DeepMind AlphaGo 的走红，AI 领域进入了全面爆发的阶段。重要的 AI 应用，如 AlphaZero 和无人驾驶，能够以较低成本自动生成训练数据，训练数据的规模也发生了质的飞跃。在更大规模的训练数据基础上，以计算能力和存储成本的降低为有利条件，模型的参数规模再次急剧增加，模型变得更大了。
目前，以 OpenAI GPT 3.0 为里程碑的 AI 大模型正在使用全网的数据进行无监督训练，我们进入了一切皆为训练数据的时代。这使得模型可以获得几乎无限的训练数据。为了对如此规模的数据进行建模，模型参数的规模越大越好，因此模型变得越来越大了。
你可能已经注意到了，大模型的“大”是一个相对概念，是一个持续的过程。更大规模的训练数据需要模型具备更强的记忆、理解和表达能力。而为了拥有更强的记忆、理解和表达能力，模型则需要更大的参数量，也就是更大的模型。
我来做个“中译中”你会更好理解：你可以把模型当成一个，在学习新知识方面如饥似渴的孩子，随着年龄的增长，他的大脑在不断发育，脑容量变得越来越大，为了让他的智力不断成长，你需要为他提供更好的老师，供养更多更复杂的知识资料。
所以模型为什么越来越“大”就很容易理解了：内因是身体的发育，也就是存储和算力的发展。外因是人类在知识量和共享度上的发展，互联网技术使得人类个体公开可查的学习资料，在本世纪内快速膨胀。
大模型技术因何而火？不过生成式 AI 大模型的兴起不仅仅是由于模型规模变大，而是多个因素相互作用形成的。
首先，在近年的技术发展中，大型语言模型，特别是以 GPT 3.0 为代表的大模型，展现出了出色的涌现、思维链和上下文学习的能力，不再停留在“人工智障”的阶段，极大地提升了自然语言理解和生成的能力，然而，这只是其中的一个必要条件。
第二个必要条件是跨模态建模能力的发展。这让同一个模型能像人类一样同时理解和处理 Excel、PPT、PDF、图像和视频等多种形式的数据。加持了这样的能力，算法生成的信息量从此发生质变，生成式人工智能发挥作用的舞台就更多了。
第三个必要条件是生成式模型的交互方式。生成式 AI 产品巧妙地利用了人类的惰性，通过新的交互方式，大大提高了产品的渗透率。这使得人们不断地使用 ChatGPT，并逐渐产生了依赖。这也成为了当前 AI 大模型产业，迅速发展的关键点。
然而，所有这些前提条件的实现，都依赖于存储和计算能力的持续发展，“孩子”身体的发育，使模型能够容纳和记忆更大规模的数据。不过，以上只是生成式 AI 大模型兴起的一些必要条件，但其全面走红还涉及到资本和产业发展的需求等多个因素的综合效果。通过后续的学习，你会对“AI 大模型是什么”这个问题有更深入的理解。
AI 大模型能做什么？由于大语言模型在训练数据上的多样性和数量的保证，以及大规模参数所造成的涌现和思维链能力，让它可以很好地应对如语言翻译、创意策划、文章创作和代码编写这类任务。
文章创作
编码助手
前面说了大模型好的方面，但是大模型技术本身也存在一些局限。比如训练数据存在时效性的问题，比方说 GPT3.5 只使用了 2021 年 9 月之前的数据进行训练（又如最新的 GPT-4 Turbo 使用了 2023 年 4 月之前的训练数据），无法评判那之后的事实，同时大模型在因果推断方面也存在一些问题。
大模型还会出现“幻觉”，会一本正经地给你讲“林黛玉倒拔垂杨柳”的故事，当然这些既是问题，也是我们 AI 大模型架构的发展机遇。
至于前面说的种种局限，工业级的大模型系统是如何优雅应对的呢？这里我先卖个关子，等到后面实战架构篇我们再详细讨论。但你现在不妨先假想一下：如果你是 ChatGPT 的架构师，你会如何设计基于大模型技术的架构呢？
其实一个优秀的架构师和顶级的厨师一样，在获得一个食材之后，要尽可能保留它最大的价值和优点，并最小化甚至消除它的缺点所带来的影响。对于 ChatGPT 的“厨师”来说，AI 大模型是一个优秀的食材，它本身具备很强的理解、摘要总结和多轮对话的能力，但是，正如前面提到的，它在数据时效性，输入长度限制和内容可信性方面的缺点也很明显。
那么我们应该如何处置这道食材呢？我们已经看到 OpenAI 架构师给出的方式，ChatGPT 开放了联网和插件接口功能，已有的互联网应用可以通过 OpenAI 的 API，将自己的应用放入 ChatGPT 的应用中心，这是平台产品的一个最鲜明的特征。
利用大模型平台先天具备的优异语言能力、意图识别能力和指令翻译能力，将互联网领域的各个能力接入其中，由 AI 大模型作为大脑，帮助各个应用互相对话，产生化学反应，这就是 GPT 架构师提供的“答题思路”。
可以看出，这个平台和之前我们熟悉的平台都不一样。你不是多了一个小助手，而是接近“全能”的专业大管家。
作为助理，他能帮你提前安排日程，完成差旅机票酒店的预定，或者根据会议相关的资料和人数帮你预定会议室，提前发放会议议程。
作为秘书：他能根据你的个人习惯，每天查询你关注领域的最新消息，为你整理专属版“参考消息”。或者每个周末整理你一周交给他的工作任务，为你生成工作周报。
作为“伴侣”，他甚至可以接入语音合成和语音识别的插件，以及数字人的插件，像一个真正的朋友一样和你进行视频对话。
这个能力将使 ChatGPT 成为当之无愧的新一代生态平台。毫无疑问大模型系统平台将成为强大的生产工具，擅长使用大模型平台的用户将极大地提升个人生产效率，和其他人拉开差距。用户和开发者的全部数据会汇集于此，形成强大的马太效应。
因此，国内互联网公司也在加紧构建属于自己的 AI 大模型系统平台和相应的应用生态。我们身处其中，也要做好长期投入的准备，一起迎接下一轮行业洗牌时刻的到来，大潮过后方知谁是英雄。下一节课中我就会带你直观地感受大模型技术发展的无限前景，敬请期待。
小结这节课，我带你熟悉了 AI 大模型领域的一些“公理”和发展历史。学完今天的内容，你已经和领域中的专业人员，对 “AI 大模型技术是什么”这件事，达成了共识。
有了这节课作为基础，你在后面的学习不会出现大的偏差。因为你已经拥有该领域的“试金石”，可以用它对领域中的内容优劣进行评判。随着时间的流逝，这节课的内容将会对你产生最深远而重要的影响。
学到这里，相信你已经深刻体会到了这个新一代的生态平台的价值，无论你是互联网应用的开发者，还是平台型应用的建设者，此刻都是参与到这次新一轮技术革命中的最佳时间，希望你我在若干年后回看这个时代时，可以满意地面对自己的成长，而不是后悔再次因畏难或对新鲜事物的排斥和潜在机会擦肩而过。
思考题前一段时间，马斯克曾联合上千位人士签署联名公开信，“以担心人工智能系统将达到不可控程度，且会造成不可预知的风险为由，呼吁暂停训练更强大的人工智能 6 个月”。你认为他说得对吗？他所说的不可控的程度是什么？通向这种情况的技术路径和成本是什么？
恭喜你完成我们第 1 次打卡学习，期待你在留言区和我交流互动。如果今天的课程对你有帮助，欢迎你把它转发出去！我们下节课见！

AI大模型是当前热门话题，本文从学习AI大模型的角度出发，探讨了AI大模型的定义、应用和技术发展。文章首先指出“大模型”并非学术分类，而更常用的术语是基础模型。基础模型是一种大型机器学习模型，通常在大量数据上进行大规模训练，以适应各类下游任务。此外，文章介绍了AIGC（生成式人工智能）应用，指出大模型技术的发展源于AI模型追求“大”的趋势。随着数据规模和计算能力的增加，模型参数规模不断扩大，以适应更大规模的训练数据。最终，文章以“一切皆为训练数据”的时代为结尾，强调了大模型的发展是一个持续的过程。整体而言，本文深入浅出地介绍了AI大模型的概念、发展和应用，为读者提供了全面的认知升级。 AI大模型的兴起不仅仅是由于模型规模变大，而是多个因素相互作用形成的。大型语言模型展现出了出色的涌现、思维链和上下文学习的能力，跨模态建模能力的发展让同一个模型能够处理多种形式的数据。生成式模型的交互方式也大大提高了产品的渗透率。然而，这些前提条件的实现都依赖于存储和计算能力的持续发展。大模型在语言翻译、创意策划、文章创作和代码编写等任务上表现出色，但也存在时效性和因果推断方面的局限。工业级的大模型系统需要优雅应对这些局限，而大模型系统平台将成为强大的生产工具，极大地提升个人生产效率。马斯克呼吁暂停训练更强大的人工智能，担心人工智能系统将达到不可控程度，造成不可预知的风险。这引发了对技术路径和成本的思考。整体而言，本文深入探讨了AI大模型的技术特点和发展趋势，为读者提供了全面的认知升级，同时引发了对人工智能发展的深刻思考。

分享给需要的人，Ta购买本课程，你将得18元

生成海报并分享

2023-08-14

赞 36

提建议

开篇词｜漫游未来，一起开启AI大模型系统修炼之旅

02｜具身智能：OpenAI真正的野心是什么？

 写留言

全部留言(9)

最新
精选

润泽
置顶
2024-03-05 来自北京
请问学习本课程、以及从事大模型工作，需要具备较强的数学基础吗？
作者回复: 你好，润泽！由于大模型产业分工具有一定的分层特点（如市场、运营、产品、工程师和算法专家等），所以我们在课程中也采用了自顶向下的知识排布方法。我们将内容划分为基础、进阶和高阶阶段。在基础和绝大多数进阶内容中，无需直接涉及数学知识；在少部分进阶和一部分高阶内容上，需要大家具备一些数学能力。我们在第32节总结了课程的内容和设计理念，相信能够解答你的疑问。
aLong
置顶
2023-11-23 来自北京
结合最近OpenAI出现的反转剧情来看。 “以担心人工智能系统将达到不可控程度” 这方面的内容确实存在的问题。尤其是在 IILYA 的一些课看法中感觉到IILYA对OpenAI安全政策的批评是具有建设性的。OpenAI应该认真考虑IILYA的建议，并采取措施加强AI安全。具体来说，两者有以下相似之处： 1. 都认为AI技术存在一定的风险。 2. 都认为需要采取措施加强AI安全。 3. 都建议建立独立的机构来监督AI技术的开发和使用。而马斯克旗下的Grok。又是联名信后的另一个产物，我不知道他内心是怎么想的。挺半年这个措施，如果是为了商量讨论怎么来制定安全有关的会议，我想那可能还是单纯的考虑安全问题。但是Grok的出现，以及他平时宣传风格。马斯克的安全意识还是要加引号的。
展开
作者回复: 你好，aLong！回答得很好，从头像看得出你是一个很懂马斯克的人 :)
2
_MISSYOURLOVE
2023-08-15 来自北京
目前的工作就是调用openAI的接口，为其包装一层供公司各部门的业务人员使用，提高效率。希望能在老师得带领下，踏上这趟不一样的列车
作者回复: 你好，MISSYOURLOVE！相信在工作中，你已经对大模型技术有了一些直观认识。我们未来的工作会和大模型技术融合的越来越深，坚持下去一定会有所收获，加油！
6
周晓英
2023-09-03 来自美国
个人感觉马斯克的担心有一定的道理，由于大模型已经学习了海量人类知识和经验，且具备学习和推理能力，按照这个发展趋势，出现接近或超越人类的智商是有可能的，且这一点如果被坏人利用，很容易对人类产生伤害。AI技术是双刃剑，必要的监管是需要的。但马斯克的公开信或许也有自己的目的，用于拖延一下对手的发展速度，为自己企业推出业界最具竞争力的大模型之一争取时间。但从另外一个角度思考，出现强人工智能、超人工智能需要大量的计算资源、数据和时间进行训练和优化，目前可能不会很快出现这一情况？
展开
作者回复: 你好，周晓英！很好，你的回答说明你已经可以独立判断该领域的信息了👍🏻
3
Juha
2023-08-15 来自北京
7月13日，「网信中国」官方发布了：「生成式人工智能服务管理暂行办法」，将于8月15日正式施行。对于这个，老师是啥看法呢～
作者回复: 你好，Juha！这个问题非常具体，说明你一直在紧密关注这个领域。出于工作的需要，我也一直在参与AIGC相关标准的制定，这里从我个人的角度说一下我比较关注的内容。首先，需要注意的是该问题的具体范围，主要面向境内的服务。其次，该办法鼓励在算力方面进行贡献，并有序地开放公共数据。第三点则是强调服务提供者要对AIGC生成的内容进行主动标识，我相信您在一些互联网应用中已经注意到类似于“此内容由AI生成”的提示了。最后，对于涉及舆论的AIGC服务，务必履行相关的备案手续。 AIGC 是一个新兴领域，我们需要共同努力，确保其健康发展。
共 2 条评论
3
静心
2023-10-18 来自北京
马同志是在表示：你们跑得太快了，我已经追赶不上你们了，等等我，咱一起跑！
编辑回复: 哈哈哈哈～
2
kylin
2023-08-14 来自吉林
老师，请问：重要的 AI 应用，如 AlphaZero 和无人驾驶，能够以较低成本自动生成训练数据，能不能举个具体的例子说明如何自动生成训练数据呢
作者回复: 同学你好，问题很好。我们知道 AlphaZero 是一个自我对弈、自我进化的围棋机器人，它在无休止的自我对弈过程中，积累的历史棋谱都是可用的训练数据，这个过程几乎不需要人的参与。无人驾驶可以使用诸如街景车采集过程中的驾驶数据，作为种子数据来训练模型。当无人车具备一定的自动驾驶能力后，只需要安全员陪同，就能自主产生行车记录数据，用于模型训练。顺便预告一下，我们会讲到强化学习算法，这两个场景都用了这个方法。
2
Lucky+
2023-09-04 来自北京
马斯克的担忧是基于人工智能的快速发展和潜在的滥用。他担心的“不可控的程度”可能是指强人工智能或超级智能，这种智能可能超过人类智能，有自我意识和自我改进的能力。如果没有适当的控制和道德框架，这样的系统可能会做出对人类不利的决策。通向这种情况的技术路径可能包括深度学习、机器学习、神经网络和其他人工智能技术的进一步发展和完善。这些技术的发展需要大量的研究和开发，以及大量的计算资源和数据。因此，成本可能会非常高。然而，这并不意味着我们应该停止发展人工智能。相反，我们应该制定更严格的法规和道德框架，以确保人工智能的安全和有益的使用。同时，我们也需要对人工智能的潜在风险有更深入的了解和研究。
展开
作者回复: 你好，Lucky！回答得很好，在后面的课程里也期待你的留言！
1
GAC·DU
2023-08-14 来自北京
现在这个“大胖孩子”已经在风口上顺势起飞，不禁要问为啥停训六个月，而不是停训六年，六个月能有什么意义，暂缓一两个大版本的跨越？估计是成老马节奏带不动了吧
作者回复: 能将大模型比作大胖孩子，说明你真的有认真听课！至于课后题的答案，我们会在下一讲揭晓。
1

