极客时间已完结课程限时免费阅读

30|藏宝图:大模型产业全景图,新业态带来哪些新机遇?

30|藏宝图:大模型产业全景图,新业态带来哪些新机遇?-AI大模型系统实战-极客时间
下载APP

30|藏宝图:大模型产业全景图,新业态带来哪些新机遇?

讲述:Tyler

时长13:16大小12.11M

你好,我是 Tyler。
上节课我们学习了 OpenAI 的发展历程,不过对我们而言,最重要的还是要了解国内大模型产业的发展情况,因为客观角度讲,国内外的大模型发展的重点是存在差异的。
后面这张图是 2023 年世界人工智能大会(WAIC)“聚焦·大模型时代 AIGC 新浪潮”论坛上,中国信息通信研究院正式发布的《2023 大模型和 AIGC 产业图谱》。
中国信通院:2023 大模型和AIGC产业图谱
看到这张产业图谱,你是不是觉得目不暇接?这节课我们就来带你看看这张图背后的故事,为你道出图中这些 Logo 之间的关系,并且划出其中的重点。

大家都在做什么?

稍微留意一下刚才那张全景图,你会发现它的覆盖面非常广。其中主要包括基础设施、模型与工具,产品服务和行业应用,涵盖了大模型上下游的几乎所有主要国内企业。
不难看出,你能想象到的几乎所有和 AI 搭一点边的公司都开始 all in 大模型了。当然,从好的方面讲,这是一个涌现大模型时代 Killer APP 的过程。  但是,经历了几次互联网大潮之后,相信你一定知道,在这个新一轮的烧钱大赛中,只有选择最合理的花钱方法,找到最合适场景的公司,才能笑到最后。
所以,从业者要想清楚所在业务的商业逻辑,因为大模型技术中投入的真金白银如果不能形成良好的商业闭环,随着时间的流失,你所能留下的可能就只有海量的云服务流水或者 API 账单,最后甚至连台服务器都留不下。
这也是上节课中,我曾和你分析微软,百度和阿里云的入局的原因。他们本质上是使用 PaaS 层的大模型能力作为牵引打造“被集成”的能力,这样才能帮助他们解决 AI 资源分配碎片化的问题(这个问题我会在后面产业大模型的地方展开讲解)。如果你没有相同的条件,就不要轻易尝试这种高风险、重资产的策略。
也正是这种重资产模式的门槛,导致目前大模型的供给方,主要掌握在了几家大型科技公司的手中。其他一些供应链中上游的公司主要是传统的 AI 厂商,比如 AI 四小龙。供应链最下端还是以原有的各互联网大厂为主。
除此之外,我们往往会忽视基础设施的部分,觉得事不关己。不过在这里还是想提醒一下,如果你是一个技术人,或者是某个组织的决策者,可以重点关注一下华为。
由于半导体行业供货风险的因素,目前华为的昇腾系列已经生于毫末,很多主流的国产开源大模型已经兼容了华为昇腾,昇腾的背后是华为的芯片和模型开发训练 backend 支持。提早地学习基于昇腾工具链的模型开发能力,相信我,这一定对你未来的发展有直接的帮助。

大模型能力的本质是什么?

刚刚我们结合产业图谱,对上下游角色的宏观商业逻辑进行了讨论,下面再来说说我们在做具体大模型业务的时候,需要关注哪些内容。
大语言模型的本质上是一种基于概率的模型,可根据输入数据和输出的上下文预测下一个最有可能出现的词,也就是我们在前面课程中学习过的 seq2seq。无论目前大语言模型的表现有多么都惊艳,涌现出了多强的创造力,都无法改变它的本质。
因此,已经学习过我们专栏的同学一定能少走弯路,可以清晰判断哪些场景适合大语言模型,哪些场景不适合。首先我们梳理一下大语言模型适合做什么。

大模型擅长做什么?

基于我们对大模型技术的学习和目前产业实践情况来看,大模型在后面几类工作上表现良好。
创造性工作,比如作画、写诗。
批改工作,比如对已有文案的修正、润色,再比如公文修改、邮件生成、法律文书纠错。
代码辅助工作:比如代码生成,局部静态代码检测和软件工程的辅助能力(如测试用例生成)上,大模型都有良好的表现和发挥。
其实这样的情况我们很好理解,结合前面学过的大模型的本质,大模型擅长基于概率统计来预测输出分布。而前面这几类工作的本质也是一种基于统计的概率模型。
其实人类在完成这些工作时,也是根据学习历史中广泛的示例文案,来得到知识,学习的示例越多,则越能更好地完成这些工作。举个例子,大部分软件工程师的大部分工作都是在网上寻找最佳示例,并结合自己对历史上的工作经验,通过自己的技术品味来选择最好的方案,完成自己目前手上的工作。相信通过这些例子,你自己也可以判断出大模型适合做哪些事情了。
不过有些事情其实是很难判断的,比如你用大模型去改造一个场景时,这件事到底是雪中送炭还是锦上添花,这是我经常会问团队的问题,也是我个人经常思考的一个问题。
要分析这个问题,首先我们一定要登高望远,无论是用具身智能的方法还是混合专家模型的能力,我们要知道大模型解决各种问题的技术路径是什么。但是,也要知道哪些场景用到了大模型的核心能力,哪些场景只是用大模型做了一些辅助功能,哪些场景是用大模型简化了之前的工作流程。
比如  Midjourney 的  AI 绘画带给我们的是场景模式的创新,LLMs 做智能客服属于工作方法上的创新,而 Copilot 这种用大模型辅助编程开发的应用,则是工具的创新……
当然,这可能不只是大模型业务中要回答的问题,而是我们在引入每一项新技术时都要思考的话题,只有想清楚这个问题,才能让业务尽量规避无休止烧钱的命运,尽早走入健康的商业循环。

大模型不擅长做什么?

下面我们聊聊,有哪些事情我们是不建议使用大语言模型来做的。
首先,在现阶段你要充分考虑大模型的推理成本,因为大模型技术就目前而言还是很贵的,无论是从显卡本身的开销或者是模型推理的功耗,都还没到我们可以忽略推理成本不计的程度。
所以千万不要用大模型做你之前就已经能做得很好的事情。你可能会说,这难道不是基本常识吗?没错,不过你还是会发现到处都是这种应用,比如用大模型去做正则表达式就能做的事情这类,不胜枚举。
当然,除此之外,更不要拿大语言模型做它不擅长的事情,甚至做人工智能都不擅长的事情。比如因果推断或者事实性验证,因为这类工作我们更应该用计量经济学或者事实验证的方法来做。因为这是大语言模型的最大弱点,当然这里说的是不要拿大语言模型直接处理这些工作的核心任务,如果使用大语言模型完成辅助任务是没问题的。
举个直观的例子,比如在金融领域,你可以让大语言模型帮你做财报等这类消息的分析和舆情判断,但是不能使用它作为你投资决策的主要建议,甚至执行引擎,因为这是一个小圈子内的博弈场景,连人工智能算法都无法很好地解决。

打通频率

虽然说了这么多,但是你会发现,这些思维很难进入一些公司决策者的思考过程中。这也是为什么最优秀的创新性的业务一号位往往是技术出身。因为新技术的供给方和需求方通常在两个频段。
尤其是在国内的现状下,许多大公司看到的最大机会都在产业大模型上,但是技术视角的供给和碎片化的产业中的需求往往无法对齐。
由于产业(大图中行业应用部分)的碎片化,互联网科技公司从早期的石油开采模式从面向钻眼(头部 APP)的集中开采,变成了面向页岩油(产业应用)的开采,很难出现边际效应
那作为大型科技公司,应该如何在产业应用碎片化如此严重的情况下,以相对可控的成本,尽量完成尽量高的行业渗透呢?想清楚这个问题非常重要,因为甚至会影响你业务的生死存亡。要知道在这个过程中,稍有不慎,就会走入两个极端。
第一个极端是,我觉得我技术领先,所以所有的产业都应该来被我赋能、被我改造,天天坐在办公室中幻想。
另一个极端则是专家下工厂,无休止地派出自己的 AI 专家,到各个行业去整合方案,做定制开发,费时费力,费人费钱,到最后发现虽然声势浩大,但算了账以后却一点钱都没有赚到。
所以现在 AI 大模型技术相关的企业都在回归理智,虽然嘴上还在坚持之前所奉行的“数实融合”,但所做的工作都还是在“回归互联网”。而真正有能力“数实融合”的传统大型企业,其实都在构建自己的技术团队,自顶向下进行彻底的改革,很少让大型科技公司有插手的机会。
所以,各大科技公司索性回到自己 MaaS(模型即服务)的定位,通过互联网行业的数据和人才积累,训练出一个大模型作为护城河,解决好自己的任务,并且通过建立自己的人才和技术壁垒,让产业搞不定大模型这件事的时候,再来找你谈合作。
这样对产业的渗透速度和力度远没有之前妄想的那样多。不过这其实也是一个彼此价值回归的过程,到头发现谁也改造不了对方。如果你也是相关行业的参与者,或者即将加入这个战场,请一定要小心陷入这种“改造”或者“赋能”他人的陷阱。

总结

今天的内容告一段落,我们做个总结吧。
今天,我主要结合自己在大模型行业中的一线经验和观察,和你分享了产业上下游都在做什么,有哪些工作适合大模型,哪些则不然。
这节课的前半部分,我主要为中小型公司提示了一些一定要避开的雷区,因为他们只有一次尝试的机会,大模型领域的创新机会非常多,千万不要在这个充满机会的时代进入一个错误的战场。
这节课的后半部分我和你分享了在产业互联网和大模型技术双重背景下,大型科技公司所面临的困境,产业的碎片化让科技公司进入空军打巷战的窘境。
为什么这么说呢?因为培养一个空军是很贵的,培养 AI 专家亦然。如果让高薪的 AI 专家去产业“下工厂”,完成一个个碎片化的项目,大型科技公司则会成为倒贴钱的高级外包。
无论多么资深的 AI 专家面对眼前的碎片化工作都只会心如乱麻。相信大家还记得那句经典的“坦克装上翅膀不是飞机”,但是飞机落在地上同样不是坦克。如果决策者源源不断派飞行员去打巷战,这将是一场必输的战争。
虽然现在各大科技公司嘴上还在说“数实结合”的事情,以兑现自己的承诺,但实际上他们已经变成了方案整合商,使用自己的大厂品牌溢价拿到订单,然后便把订单分给各种供应商,让他们作为雇佣军去完成这些巷战,在这样的默契下,科技巨头拿到了面子、刷高了营收,雇佣军拿到了里子、赚到了实惠。
与此同时,各大科技公司还将自己的主力空军悉数调配回互联网这片空战战场,继续叠高自己的人才和数据壁垒,闷声发财,伺机而动。

思考题

这节课的目标是帮助你了解产业上下游中不同角色做大模型的动力是什么,重新审视自己当前的组织决策和职业选择,希望你能够认真思考。最后给你留个思考题。
你认为这一轮大模型竞争中,国内外分别有哪些公司会成为最后的赢家?
恭喜你完成我们第 30 次打卡学习,期待你在留言区和我交流互动。如果你觉得有收获,也欢迎你分享给你身边的朋友,邀 TA 一起讨论。

大模型产业全景图展示了国内大模型产业的发展情况,覆盖了基础设施、模型与工具、产品服务和行业应用等多个领域。大部分与人工智能相关的公司都在积极投入大模型领域,但在这个新一轮的竞争中,只有选择最合理的花钱方法,找到最合适场景的公司,才能脱颖而出。目前大模型的供给主要掌握在几家大型科技公司手中,而华为的昇腾系列已经兼容了主流的国产开源大模型,提前学习相关技能将对未来发展有帮助。 大模型的本质是一种基于概率的模型,能够预测下一个最有可能出现的词,因此在创造性工作、批改工作和代码辅助工作等方面表现良好。然而,在使用大模型时需要注意推理成本,不要用大模型做已经能很好完成的任务,也不要让它做人工智能不擅长的事情,如因果推断或事实性验证。因此,在引入新技术时,需要清楚地思考哪些场景适合大模型的核心能力,哪些只是用大模型做了一些辅助功能,以规避无休止烧钱的命运,尽早走入健康的商业循环。 在产业互联网和大模型技术双重背景下,大型科技公司所面临的困境,产业的碎片化让科技公司进入空军打巷战的窘境。为了避免成为倒贴钱的高级外包,大型科技公司需要回归理智,构建自己的技术团队,建立自己的人才和技术壁垒,以相对可控的成本,尽量完成尽量高的行业渗透。同时,各大科技公司将自己的主力空军调配回互联网这片空战战场,继续叠高自己的人才和数据壁垒,闷声发财,伺机而动。 在这一轮大模型竞争中,国内外的公司都在积极投入,但最终的赢家将是那些能够找到最合适场景,规避无休止烧钱的命运,以相对可控的成本,尽量完成尽量高的行业渗透的公司。这需要清晰的思考哪些场景适合大模型的核心能力,哪些只是用大模型做了一些辅助功能,以及构建自己的技术团队,建立自己的人才和技术壁垒。

分享给需要的人,Ta购买本课程,你将得18
生成海报并分享
2023-10-27

赞 5

提建议

上一篇
29|从创业到被收购,OpenAI经历了哪些关键阶段?
下一篇
31|发展趋势:生成式AI系统的未来发展趋势是什么?
unpreview
 写留言

全部留言(6)

  • 最新
  • 精选
  • aLong
    置顶
    2024-02-27 来自北京
    看好国内字节系和智谱。在去年我和朋友一起聊天我告诉他coze的方式很像dify但比dify好用多了。这是产品上的差距,后来coze国内云雀上线。智谱是用排除法排除后只有智谱体验起来不错,但当时还是glm3。目前他的glm4体验还是不错的。

    作者回复: 你好,ALong,回答的很好。智谱和字节有各自的优势: 智谱是离创新最近的人,他的背后是智谱研究院和清华科研团队的支持,他们成功探索了大型模型领域的"第三条路",在模型架构上进行了创新,同时他们在组织结构上更接近于OpenAI。 字节是离用户最近的人,目前拥有业界最高质量的用户数据和顶尖的人才密度。作为国际化最成功的互联网企业之一,字节在一定程度上能够规避芯片技术的瓶颈。基于国内最大的GPU集群之一,他们可以快速地落地真实应用高效迭代。

    1
  • 周晓英
    2023-10-29 来自北京
    国内大模型我看好清华智谱,低调有实力,默默做事的风格,模型训练一半使用了国产芯片,很有意义

    作者回复: 你好,周晓英!很好的洞察,智谱确实是国内最像 OpenAI 的机构,是朝着 OpenAI 早期的路子在走的。

    3
  • yanger2004
    2023-10-27 来自上海
    微软

    作者回复: 你好,yanger2004!方便详细说说吗,为什么你认为是微软。

    2
  • Geek_71a740
    2023-12-02 来自北京
    请教,您怎么看数学大模型这个事儿?

    作者回复: 同学你好,能更具体一些吗?比如你指的是用大模型进行逻辑推理,还是用大模型进行数学计算?

    1
  • 一个坏人
    2023-11-17 来自北京
    老师好,请问一下: 私有化部署copilot这类代码辅助模型的成本咋样?使用辅助工具后节约下来人力成本能覆盖到模型推理的成本么?/捂脸🤦‍♂️
    共 1 条评论
    2
  • 一个坏人
    2023-11-17 来自北京
    私有化部署 copilot这类模型的时候,1000研发人员一天成本大概多少? 研发效率提高节约下来的成本能覆盖么?
    2