清华率先发布首份汽车行业大模型白皮书

贾浩楠 2024-04-12 17:41:01 来源：量子位

大模型是生产工具，而非“奇技淫巧”的上车噱头

贾浩楠发自副驾寺智能车参考 | 公众号 AI4Auto

大模型威力渗透各行各业，汽车人在躁动和焦急中期待行业巨变。但截至目前大模型上车的尴尬现状是：与车无关。

类似“文生图”之类功能，和核心行车用车场景不搭边，甚至算不上好的车内娱乐。至于车企的AI转型，显然更帮不上忙。

大模型重塑生产力，汽车工业不能够也不应该被落下。AI界产学研其实一直在思考、实践。

近期，一份由产学研各界共同发布的《大模型驱动的汽车行业群体智能技术白皮书》，首次说清楚了汽车工业全流程中，大模型到底该怎么用。

汽车行业大模型，有什么用？

先断一下句：汽车·行业大模型，这样理解更为准确。

因为这份白皮书中提出的大模型，不是面向普通用户的“文生图”之类的应用，而是为车企生产运营流程提供服务的群体智能产品。

什么是群体智能？

针对特定任务的AI模型是一个智能体，群体智能是指多个智能体通过协作和信息共享，形成的集体智慧，能够处理更加复杂的任务，展现出超越单个智能体的能力。自然界中的蜂、蚁等物种都表现出这样的群体智能。

而大模型能力加持的群体智能，能够更高效地沟通，处理规模更大、种类更多的任务。

车企运营流程中的整车制造、供应链、研发和工程、销售和分销、市场营销、售后服务、贸易与物流、租赁和金融服务、回收跟再创造等各个环节，群体智能不仅仅是简单的自动化工具，它可以为汽车行业带来前所未有的效率提升和个性化体验。

比如汽车制造环节，通过多智能体的自动交互，可以实时监测生产线的运作状态，能够预测设备的维护需求，从而显著减少意外停机时间。

此外，智能体们还能通过智能分析生产数据，帮助制造商优化零部件的库存管理和供应链，这不仅减少了库存成本，也提高了生产效率。

以及，跨部门的智能体们，还可以根据市场需求、原材料的供应状况和生产能力，智能调整生产计划，确保生产线的高效运转。

除了“造好车”，以大语言模型为基础的群体智能，价值更加体现在帮车企“卖好车”上。

汽车的营销环节，通常分为获客、清洗、转化、接待和成交五个方面。

前期通过广告、品牌活动、汽车垂媒、品牌私域、内容种草等等手段获客，可以迅速获得大量的潜在客户基础画像与联系方式。接下来就是一系列沟通、实车、讲解的“孵化培育”工作。

周期较长、转化率较低，尤其依赖销售个人沟通能力、精力，有很大不确定性。

《白皮书》中，构建了五大智慧营销解决方案，分别为数智研究院场景解决方案、新媒体运营场景解决方案、用户运营场景解决方案、集约DDC场景解决方案、與情运营场景解决方案。

全部以销售结果为导向，形成自动化的流水线式工作流，重点是采用不同的多智能体组合，模拟各阶段的工作角色。

例如对于客户定制化的购车需求，“销售智能体会”收集用户个人情况，分析出高匹配度的需求车型，再以专业的话术表达出结果，并采用多轮对话的方式，与客户一起讨论出最佳的销售方案。

同时，运营主管智能体可以在环节中实时检查智能体跟进情况，进行跟进情况、质量分析、检视客户画像，反馈给智能体监控平台。任何客户运营智能体和客户交流的经验都会随着案例的增加而沉淀下来，形成智能体工作流的迭代机制，从而使得智能体孵化客户的效率在沉淀中不断提高。

所以在在智能体智慧销售场景下，一个人类销售经理，可以仅通过多智能体监控平台实时查看整个组织多智能体的工作情况，工作能力边界与范围得到了极大拓展。

最后总结一下，清华自然语言处理实验室、易慧智能、面壁智能在白皮书书中提出了一种全新、To B的大模型“上车”模式：

用不同的AI模型替代车企业务流程中的不同工种，简单地说，就是数字员工。

但创新之处在于，它们不是针对简单重复任务的自动化替代，而是一群数字员工[6] 之间，通过自然语言相互交流协作，在没有形式上的“主脑”控制情况下，发挥出提质增效的作用。

并且，这样的协同可适用于从生产到销售的几乎各个环节。

是这样一群数字员工具有基本工作能力和沟通能力的，就是具备一定AGI（通用人工智能）的大模型。

怎么实现的？

单个智能体相对好做，针对不同任务有不同的基础模型，比如用在分类目标检测的ResNet、用来产生样本的GAN等等……只要有合适的数据来训练。

但一个业务流程，或一个系统工程，需要很多这样的基础模型发挥作用。以往，这些模型几乎谈不上沟通联系，协作基本靠人为书写的规则。这就造成信息处理能力有限，输出决策片面分散，以及维护成本很高。

而《白皮书》中提出的群体智能之所以能work，关键是组织孪生。

包括三个关键部分：岗位孪生、架构孪生和业务孪生。

其中，岗位孪生利用大模型技术创建数字员工，这些虚拟人能模拟真人的交流方式，包括声音和表情，并具备“感性智能”。它们能够执行内容生成、基础交流、客户服务等工作。

智能体系统有专用的提示词框架，通过按照提升词框架来巧妙设计与岗位相关的提示词，并精准限定基座大模型回答问题的范围、方式等等。

不过基座大模型是通用语言模型，其内置的知识是通用的，对于特定领域的问题可能无法给出准确的答案。为此，还特地引入检索增强生成（RAG）技术，可以将特定领域的文档和问答灌入系统，形成“长期记忆”存储于向量数据库或搜索系统中。在生成过程中，将相关记忆注入到提词中，使数字员工能够精准回答特定领域的问题，从而弥补基座大模型的潜在不足。

比如在在汽车领域，可以让智能体调用 API 接口，并根据接口返回的行业知识，进行专业、可溯源的内容生成。而当提示词工程和知识库类的长期记忆补充依然不能完全满足业务需求时，还能够采用高效后预训练和高效微调技术。通过微调和后预训练，我们能够“教给”大模型相关的垂直领域知识，为数字员工赋予个性化，使其更好地适应不同的业务场景和用户需求。

架构孪生则是在数字世界中映射真实公司的组织架构，通过智能体网络技术定义智能体间的交流和逻辑。可以形象地理解为上面那群数字员工需要遵循的“OA流程”。

基于大模型群体智能体技术，如 AgentVerse（清华自然语言处理实验室和面壁智能共同研发），不仅能够定义智能体本身的记忆、能力，还能够定义智能体之间交流的方式和逻辑，能够一定程度把现实人类的组织架构映射到数字孪生世界，生成对应真实公司架构的数字孪生架构。

这种技术架构，通常将多智能体环境划分为数个功能模块，包括灵活代码扩展及定制化功能设计框架、智能体语言交互协同合作机制、智能体系统功能与结构演化机制等。

整体工作流程分为四个阶段：专家招募阶段，根据问题解决的进展情况确定和调整座席人员组成。协作决策阶段，选定的智能体进行联合讨论以制定解决问题的策略。行动执行阶段，智能体与环境交互以实施决策阶段计划的行动。评估和反馈阶段，对当前状态与期望结果之间的差异进行评估，如果当前状态不理想，则给出反馈，以便在下一次迭代中进一步细化。

技术框架技术上，定义了各自的接口，用户可以根据自身需求重新定义不同模块的功能。这种可定制性使得数字孪生的架构不再受到固定的限制，而能够根据不同行业和企业的需求进行灵活调整。用户可以根据特定的场景和任务要求，定制数字孪生的架构，使其更好地适应实际应用场景。

业务孪生通过整合大语言模型、搜索增强技术和智能体构建等，自动执行实际业务，优化业务执行效果。这一部分仍然是利用大模型的“工具”，给数字员工[10] 增强战斗力。

比如X Agent是面壁智能创新的AI智能体框架，基于强大的大语言模型核心，设计创新性地引入了一种“双循环机制”，使其在处理复杂任务时能够从“宏观”和 “微观”两个视角进行全面考虑，类似于人类“左脑”和“右脑”的协同工作方式。

外循环承担着全局任务规划的责任，将复杂任务巧妙地分解为可操作的简单任务，使得 X Agent 能够高效地完成全局的任务分解和规划，展现出宏观任务处理的领导力。

在内循环中，X Agent 迅速转变身份，充当高效的「执行者」，确保外循环传递的子任务能够顺利达到预期。它能够灵活地检索外部系统中的工具，并根据子任务性质逐步求解。

完成子任务后，内循环生成详细的反思，并将反馈信息传递给外循环，指示当前任务是否完成，以及在任务执行中的潜在优化点。

所以，一切的关键，就在大模型上。这里不妨再简单科普一下大模型：

现有的大语言模型几乎全部是以 Transformer 模型作为基础架构来构建的。其主要思想是通过自注意力机制获取输入序列（可以是文本、语音、图像、视频等等）的全局信息，并对序列中的每个元素进行全局建模，并在各个元素之间建立联系**。

翻译一下，就是Transformer在感知之外，拥有了基本的归纳因果的能力，使人工智能向认知这个世界迈出第一步。

所以《白皮书》中构提出的群体智能，它的基础就是清华自然语言处理实验室、易慧智能、面壁智能的具有一定通识能力的大模型。

传统AI Agent，也就是单一人工智能体，同样具有感知、决策、知行的能力，但它的任务目标单一，输入的数据也比较固定。

而对于大模型来说，与人类之间的交互是基于提示（Prompt）实现的，用户提示是否清晰明确会影响大模型回答的效果。大模型“大”在以巨大参数规模捕捉复杂语言结构，实现上下文理解和连贯文本输出。这一“能力涌现”现象体现在大模型能进行高级认知任务，如抽象思考和创造性写作。ChatGPT横空出世震惊世人，正是因为它对几乎人类涉足的各领域都有准确的认知。

如果这样的能力灌注到一群不同的智能体中，它们就可以直接使⽤复杂的⾃然语⾔进⾏交流。

并⽀持抽象思维、复杂问题解决和丰富的信息交换。基于对语⾔信息的深⼊理解和分析，可以在决策中考虑更⼴泛和深⼊的因素。

比如软件开发任务，就可以分解为一连串的“生产线”，子任务通过角色扮演交流实现智能体间的方案提议和决策研讨过程：

首先设计三个角色CEO、CTO和CPO讨论软件设计方案，决定智能驾驶算法的功能体验使用的编程语言。

然后进入编程，程序员进行代码撰写，设计师进行GPU设计。

测试：代码的审查和实际运行两步，涉及「代码审查员」和「测试工程师」两个角色。

文档：环境说明和用户手册两类，前者说明了智驾算法所依赖的环境，由CTO指导程序员完成。而后者则由是CEO决定包含的内容，交由PRD进行生成。

这样的框架特别适用于复杂的行业场景，尤其是汽车行业。

智能车好做，智能车企难做

的确，以如今中国制造业实力和供应链齐备水平，“攒”出一辆智能车没什么难的。比如小米用了3年时间，其实都不算快的。

但“智能”车企，却是摆在新势力求存和老车企转型路上最难的挑战。

因为软件算法、硬件域控自研等等这些，钱花到位，团队人才自然就到位。但怎么把大模型变成生产力，整体运营流程提质增效，是目前车企最迫切的需求。

易慧智能向智能车参考透露，他们接触的车企，无一例外对AI Agent在提高工作效率、优化成本、提升客户体验等方面的落地应用展现出兴趣。

其实从前面几个例子就能看出，车企头疼的是精细化运营效果和可控的运营成本之间，凭借人为部署操作，很难摸索出一个最佳平衡点，无论是生产、采购、营销等等环节。

从这一点来看，这份产学研联合发布的首份汽车行业大模型白皮书，最大的意义是尝试用大模型的能力，解决汽车行业、制造业的实际问题。

并且提出了具体方式：通过大模型的通识能力和自然语言处理能力，让过去一群各自独立的数字员工高效交流协作。

而且还有具体模式架构：组织孪生，有流程有工具有方法论。

这也是汽车工业第一次认真把大模型作为生产工具对待，以终为始找解决方案，而非“奇技淫巧”的上车噱头。

根据麦肯锡测算，到2030年，数字劳动力将形成价值1.73万亿元的市场，这其中自然包括汽车行业。

而汽车工业的经验，又几乎可以无损复制到一切大制造业。

大模型驱动的群体智能技术，是汽车工业AI转型的“星星之火”，而它首创的模式和理念，又岂止于汽车。

大模型上车清华大学

贾浩楠

端到端新突破：「蒸馏」一下性能提升100%！北理工计算机学院出品2024-07-23
北京10亿押注座舱芯片「一姐」：估值140亿，出货600万片2024-07-16
小米造车资质批下来了，正式告别“北京”2024-07-15
对话商汤绝影王晓刚：端到端上车，新的降维打击开始了2024-07-12

清华率先发布首份汽车行业大模型白皮书

汽车行业大模型，有什么用？

怎么实现的？

智能车好做，智能车企难做

相关阅读

从此，清华不再「唯论文数」！校长邱勇：大学不能把学术权力，交给期刊编辑和审稿人

清华打造足球AI：首次实现同时控制10名球员完成比赛，胜率94.4%

清华姚班校友马腾宇斩获斯隆奖！与鬲融师承一脉，李飞飞点赞祝贺

清华芯片研究再获顶会MICRO加持：软件定义芯片团队出品，最佳论文提名后又一突破

清华量子信息班成立！姚期智任首席教授，首批招生面向今年高考生

触觉是怎么产生的？清华大学破解诺奖成果未解之谜，登上Nature

热门文章

雷军：地表最强四门车，小米造！自曝造车起步估值超700亿

陶哲轩在IMO上给AI团队颁奖！他们要做AI数学的ImageNet

给iPhone背面贴个AI录音机，生意老好了

AI视频修复速度10倍提升，过曝变色也能逐帧搞定｜美图国科大新算法

微软蓝屏搞瘫全球，马斯克很生气，原因很尴尬