04｜游目骋怀：工业级的大模型系统强在哪？

Aug 15, 2023

04｜游目骋怀：工业级的大模型系统强在哪？-AI大模型系统实战-极客时间



下载APP





关闭

渠道合作

推荐作者

04｜游目骋怀：工业级的大模型系统强在哪？

Tyler · AI大模型系统实战

课程介绍



讲述：Tyler

时长10:48大小9.86M



你好，我是 Tyler。
在前几节课当中呢，你已经在大模型系统的认知上有了质的提升，弄清楚了以下几个问题。
AI 大模型系统是什么？
为什么 AI 大模型系统是新一代应用平台?
在这轮技术革命中，OpenAI 的最终目标是什么？
此外，你还学会了如何利用市面上流行的开源工具，快速构建“原型系统”。但要牢记，不要过于陶醉于“一日千里”的幻觉中，要明白开源工具只是体验版，并非真正的大模型系统。
常见误区（弱在哪里）为什么这么说呢？因为开源工具主要用于快速构建原型，而不是为工业级系统设计的。我们这就来梳理一下刚开始学习时最容易产生的误区。
误区一：将 LangChain 和 AutoGPT 认作真正的 LLM 系统链式调用的 LangChain，虽然学习起来非常方便，但无法经受生产环境真实流量考验，并不是说 LangChain 的链式调用方法或者说编程语言 Python 不适合生产环境，它差得可不止这一星半点。
真正工业级的应用需要有离线、近线几套系统配合供给，才能让在线系统效果出众、性能稳定。如果你想深入学习开源项目，提升自己的职业能力，不要浪费时间去研究 LangChain 和 AutoGPT 这类科研原型验证项目的开源代码。
你更应该去学习那些得到商业公司支持、质量更高的开源项目，这对你的职业发展会有直接帮助。因为科技公司们能直接通过开源项目，获得真金白银的收益，所以，他们会不遗余力地发展自己的开源软件。
这里我举几个例子，来帮助你理解这句话，第一个例子是 Google，它的研发人员已经成为了 Android 和 Kubernetes 这些项目社区的核心成员，所以他们可以通过技术手段制定商业标准。第二个例子是 Oracle，大多数企业更倾向选择有影响力的开源软件对应的商业版本，来支撑自己的业务。所以，MySQL 可以让 Oracle 的收费数据库卖得更好。
总之，我希望你可以客观地看待“开源”这种技术合作形式，选择合适的学习项目。如果想更进一步，则应将开源当作技术发展的一个途径，而不仅仅将开源作为充满技术情怀的 Hacker 行为。
误区二：将 Embedding 检索奉为记忆增强的“圭臬”上节课学到的向量（Embedding）检索技术，虽然外行觉得很新鲜，但一些网上资料有点过于强调它的作用了，其实它只是内容推荐系统中再普通不过的一项技术。
大模型通过提示词中信息的 Embedding 去检索外部记忆片段这种做法并不高明，充其量只是字面匹配的一个变种而已，存在非常明显的缺点。
你无法找到主题最相近的文档，因为在一开始，你就把文档的语义切割了，更何况你所能使用的开源向量检索，根本没办法满足工业级的性能和数据量级要求。
而且即便只选择使用向量检索的方式做外部记忆增强，也会出现外部文档过多、向量索引快速膨胀的问题，这时如果没有工业级人工智能系统的架构做支撑，你的系统将被慢慢拖垮。
误区三：无视开源大模型的内容生成质量问题各类开源模型，比如 ChatGML 和 Llama 是无法直接拿来满足商业需求的。用它们搭建一个小型的自动化工具尚且勉强够用，但如果是在客户需要花费真金白银的商业场景，结果可想而知。
在大模型商业化的过程中，模型的领域定制是免不了的。有些同学可能在一些地方学习了如何简单使用 OpenAI 的 API 来微调你的模型，它虽然名字叫微调，不过只是为每个用户做了极其浅层的补丁，严格意义上算不上微调。
真正的领域微调需要基于定制化的模型，使用高性能的训练框架进行大规模分布式训练，结合强化学习和 MoE（混合专家模型）。因为在商业系统中，绝对不允许出现差错，对模型性能有严格的要求。
当然，这样的问题不胜枚举，比如前几节课你学到的 ReAct 陷入死循环怎么办？陷入幻觉怎么办？大模型不认得 ReAct 的指令怎么办？WormGPT 通过越狱指令利用你的模型入侵系统怎么办？
不过，归根结底，我觉得现在的各种知识传播中会出现这些误区，根本原因是 AI 大模型系统还在快速商业化进程中，真正的核心技术还在小圈子内传播。
应对之道（强在哪里）而我们的课程将带你一探究竟，填补这份空白，应对上文提到的这些问题。随着后面的课程更新，你也会慢慢看见工业级大模型的完整面貌。
AI 大模型系统的理论知识为了真正理解工业级大模型的强悍之处，我们先得提升自己的见识，具备扎实人工智能理论知识。通俗一点解释，其实模型可以看作一个函数，它模拟了人类智能的运行方式。在模型训练中，你所做的就是解出这个函数中未知变量的值。
接着，我们需要通过特征工程让模型更好地理解训练数据。特征工程的核心是对样本数据的改造，可以将数据映射到更细致的维度，或者映射到更高维度的空间。
一旦你掌握了上述基本概念，就能训练出一个工业级的模型了，之后我会教你人工智能三个主要流派中常用的算法，解释它们的优缺点和适用范围。我还会指导你如何将它们融合运用，以满足工业级 AI 系统不同场景的需求。
当你深入了解了人工智能算法的原理后，你就能更顺利迈进大模型相关的知识领域了。谈到大模型，首先要谈的就是预训练模型（PTM）。我会让你明白为什么许多大模型技术起源于预训练模型的方法，还会解释为什么预训练模型首先在视觉领域得到广泛应用。
最后，你会了解现代大语言模型的发展历程，及其背后引人注目的历史。这包括几次技术革命，以及 Google 和 OpenAI 之间关于技术选型的竞争。
如何训练一个大模型在你掌握了足够的理论基础后，我会和你深入讨论如何在实际工业场景中，通过构建离线数据工程和模型训练系统，使你能够独立地训练模型，并进行在线实时的增量更新。这些步骤是让 AI 系统变得智能的关键。
接下来，我将从零开始，教你如何进行多机多卡的分布式训练，制造一个真正的大模型。你将了解为何 OpenAI 每次训练都需要花费上千万美元。
当然，实际应用中，你通常只需要对模型进行微调。我会分享一些技巧，以加速你的模型微调过程。最后，我还会教你如何使用强化学习（RLHF）的方法，来微调你的大模型。我会告诉你适合这种方法的场景，以及这样做的好处是什么。
如何构建一个工业级的 AI 系统工业级 AI 大模型系统最鲜明的一个特征，就是针对自己的业务场景，基于数据驱动的业务系统框架去定制大模型，而不是使用别人“施舍”的通用大模型。
首先，我们需要学习 AI 系统的策略建模方法。思路是把业务问题转化为数学问题，然后对这些数学问题进行建模，最终将它们转化为工程问题。在这个过程中，你将学会如何根据不同的场景选择合适的模型算法。
在学习 AI 内容推荐服务时，你将掌握如何让你的系统轻松地应对在线真实场景，如何通过调整算法来灵活地控制在线指标。这些问题也是在线内容生成（AIGC）系统需要解决的。
如果想让你的系统在商业竞争中处于优势地位，就需要有针对性地设计系统模块，结合在线服务的特性来实现算法。这样，你的系统才可能成为商业竞争中有竞争力的智能体。这不仅关系到在线 AI 系统的盈利能力，也是让你的 LLM 应用走向具身智能的重要技能。
对于 AIGC 系统而言，为了避免过高的推理开销增加商业成本，模型小型化的方法也必不可少，这能大大降低在线推理的开销。
至于前面说的外部记忆问题，我们需要去学习如何构建一个工业级的检索增强系统。这个系统将成为提示引擎的主要外部记忆，也会成为可信 AI 的重要依据。该系统的数据来源正是 AIRC 系统中积累的强大知识表示和检索能力。
另外，安全可靠的风控模块也必不可少，这样 AI 系统才能拥有工业级的鲁棒性，确保你的商业系统能够在各种真实风险中稳定运行。
小结今天的总结比较特别，我想给你分享一份问题清单，你可以把它当成后面内容的“预告”。从第五节课开始，我将带你进一步的学习，进一步提升认知，直到最后具备参与到生产级 AIGC 大模型系统研发工作中的能力。
希望在后面的课程中，你能带着以下的问题进行学习。为了让你的 AI 大模型系统掌握足够的理论知识，你需要弄清楚后面这些问题。
为了搞清楚如何训练一个大模型，你需要在后面的课程中，探寻后面这些问题的答案，其中包括理论和实践两个方面。
如果需要构建一个工业级的 AI 系统，你需要在后面的课程中探寻以下问题的答案。
到这里，我们热身篇的内容告一段落。为了给你留下足够的时间学习消化讲过的内容，还有动手练习课程里的作业，第五节课会在下周一和你见面。
在等候更新的时间，你可以深入思考一下我们前面提到的问题，这样后面学习的时候，你的理解会更加深刻。
思考题1. 你认为 Llama2 和 Qianwen 开源的目的是什么？
2. 学完热身篇的内容，最颠覆你认知的内容是什么？
恭喜你完成我们第 4 次的打卡学习，期待你在留言区和我交流互动。也欢迎你把这节课分享给身边朋友，和 TA 一起学习进步。

本文深入探讨了构建工业级大模型系统的技术优势和挑战。首先，指出了常见误区，如对开源工具的误解和忽视内容生成质量问题。接着，提出了应对之道，包括提升理论知识、训练大模型以及微调模型的方法。强调了理论知识的重要性，特别是在人工智能算法的原理方面，以及在实际工业场景中构建离线数据工程和模型训练系统的关键性。此外，介绍了多机多卡的分布式训练和使用强化学习方法微调大模型的技巧。总的来说，本文为读者提供了深入了解工业级大模型系统的理论知识和实际应用的指导，帮助读者更好地理解和应用大模型系统的技术特点。

分享给需要的人，Ta购买本课程，你将得18元

生成海报并分享

2023-08-15

赞 18

提建议

03｜原型系统：开源工具自建AI大模型底座

05｜策略建模：为什么AI系统能够猜你所想？

 写留言

全部留言(14)

最新
精选

王三
置顶
2023-08-17 来自北京
最关注本课程的工业化落地方案，目前大模型只是助理（助手），而工业化（客户）往往要求专家水平的应用。里面的gap需要一套大模型工业化方法论补充。
作者回复: 同学你好！你关注的内容就是我们专栏的目标。专栏中的内容都来自一线工业级AI大模型系统的真实经验，这也是这个专栏最独特的价值，毕竟真实的工业级AI大模型系统的实践经验是大家很难有机会接触到的。希望大家能够通过这个专栏开阔视野，获得前瞻性的指导，理解圈内人眼中真正的大模型技术是什么，而不是隔靴搔痒、人云亦云的浅层知识。
9
胖胖虎
2023-09-03 来自江苏
Llama2和qianwen开源的目的，我认为是为了构建生态，抢占未来AIGC生态的制高点。OpenAI的闭源生态对任何有野心的厂商都是不可接受的，这无异于把城堡建在沙子上。Llama和qianwen的开源，一方面有大厂背书，第二解决了各厂商底层担心的事情。可以让各个第三方可以相对放心使用。后续的各个第三方基于其进行发展，会让整个生态逐渐生长在上面，而开源的厂商会逐渐获得生态的主导权。
作者回复: 你好，胖胖虎！回答的非常好👍🏻
8
Juha
2023-08-20 来自北京
老师好，就是您的观点是，我们现在基于langchain做一些工具的开发是不太明智的选择嘛～
作者回复: 你好，Juha！你可以使用 Langchain 做一些生产力工具，但是不要将它用在 toB 或 toC 的在线生产环境当中，这会造成很大的性能、可用性和安全的隐患。
共 5 条评论
6
周晓英
2023-10-02 来自美国
最颠覆我认知或者说我最有同感的地方，是大模型领域demo级别的代码调用，和真正的工业化落地方案，中间还有巨大的鸿沟需要跨越。大模型的新闻每天都有非常多，让人眼花缭乱，实际上很多新闻稿都存在宣传因素，上手实验一下发现可能并不完全是那么回事，而即使上手实验能成功，可能还只是老师说的demo级别，和真正的商业应用差距还非常大，因此有一点简单的进展，一定要保持冷静，后边的坑还会很多。
作者回复: 你好，周晓英！说的很好，希望在后面的课程中继续和你交流。
共 2 条评论
3
糖糖丸
2023-08-23 来自北京
开源是为了增强技术影响力，让更多从业者follow自己的标准，降低自己的技术成本，也为后续商业化做铺垫
作者回复: 你好，糖糖丸！回答得很好，在接下来的课程中，也期待你的反馈。
3
R_R
2023-08-16 来自北京
fine tune是最后一条路，精通 prompt 是基本
作者回复: 你好，R_R！看来你在之前接触过相关知识，非常好。提示语工程可以有效增强模型的理解和记忆能力，补充外部知识。但是，如果想让新知识之间产生“化学反应”，涌现新的智能，还需要 finetune 的配合。在接下来的课程中，也期待你的反馈。
共 2 条评论
3
一只豆
2023-08-21 来自广东
越来越期待后面的课程了～请教老师一个 “大模型性能评估”的问题。当我们着手针对垂直领域进行大模型的定制化开发时，我们可能在对比调用GPT4 API 和自家大模型的效果。那关于性能评估这块，我理解一部分是之前产品经理要做的 user case 的描述，但因为是个新技术，能力也更强，除了原先写 user case 的内功心法之外，是不是有一些新的框架性思考或者 guideline 之类的东西可以学习？再次感谢老师，把小圈子的知识普惠出来，功德太大了～
展开
作者回复: 你好，一只豆！很好的问题。大模型系统的性能评估，要分为几个层面。首先要明确业务系统的北极星指标，这部分需要配合在线 AB 实验系统进行监测。其次要定义客户的动线，也就是你说的用例，要想办法设计用户反馈闭环，让用户的反馈信息不仅能够成为 LLM 的评估指标，还能成为 LLM 的训练监督信号。最后需要评估 LLM 的本身的能力，其中包括对 LLM 的“语言知识”和“世界知识”的考察，这些方法在后面的课程中会逐一展开。在接下来的课程中，也期待你的反馈。
共 3 条评论
1
peter
2023-08-15 来自北京
请教老师几个问题： Q1：Flowise可以在win10下运行吗？ Q2：专业、复杂软件，比较难学，知识点很多，是否可以做一个针对某个复杂软件的大模型，有问题的话可以问这个大模型。 Q3：模型对CPU、内存、硬盘空间的要求是什么样？我准备换笔记本电脑，用新的笔记本电脑来学习、练习大模型，请问：购买的时候，需要什么样的配置才能满足要求？
作者回复: 你好，peter！第一个问题是共性问题，建议你参考我在其他同学下的回答。第二个问题的答案是 Yes，相信你在学完后续的课程后会有能力完成。对于第三个问题，我的建议是结合自身的预算选择一台支持 CUDA 的自用级 N 卡的机器，这样在做实验时会更方便。选择自用级而非工作站级显卡，是因为我们的日常使用强度和维保需求没有那么高，无需承担这部分溢价。至于大模型的端到端训练实验，考虑到性价比则建议使用按量付费的云服务器进行。
共 3 条评论
1
John(易筋)
2024-05-20 来自中国香港
请问如何加入老师的微信群，很受启发，谢谢。真正工业级的应用需要有离线、近线几套系统配合供给，才能让在线系统效果出众、性能稳定。如果你想深入学习开源项目，提升自己的职业能力，不要浪费时间去研究 LangChain 和 AutoGPT 这类科研原型验证项目的开源代码。你更应该去学习那些得到商业公司支持、质量更高的开源项目，这对你的职业发展会有直接帮助。因为科技公司们能直接通过开源项目，获得真金白银的收益，所以，他们会不遗余力地发展自己的开源软件。-- 老师的这两段话醍醐灌顶。
展开
作者回复: 你好，John！课程群在课程页的【课程介绍】中的专栏交流群部分，可以联系小助理加群。
周晓英
2023-10-02 来自美国
llama2和千问开源的目的，可能有几个：一是展示企业的技术实力，确立业界领先地位。二是通过开源吸引大量开发者，从而可以广泛收集数据和反馈，迭代自己的模型。三是将开源模型作为试用品，将能力更强的商业模型作为收费产品或收费服务，形成销售漏斗。当然也可能有开源精神、希望成为行业领袖的因素。
作者回复: 你好，周晓英！回答得很好，相信你已经充分理解了这节课中的一个知识点。希望在后面的课程中继续和你交流。
共 2 条评论

