钉钉AI：好险，差点就被长文本卷到

衡宇 2024-03-28 12:47:37 来源：量子位

长文本、多模态、工作流，钉钉AI上大分

梦晨衡宇发自凹非寺
量子位 | 公众号 QbitAI

好家伙，现在随便打开一个大模型应用，支持的文本都有那————么长。

最新消息，7亿人在用的钉钉也加入战局，一出手就是长文本、多模态和工作流三大能力升级，全是最热门的AI迭代方向。

专门提一下，钉钉AI助理的长文本这次能轻松拿捏几十万字的文档，甚至放话单文档理论上无上限。

钉钉那边倒是没避讳，直言当然也进行了文本上限的限制，目前考虑到工作场景的实用性，单文档还是限制在上限500页（小声说，可能也是要考虑成本？）。

讲道理，普通人应该很少有需要大模型吃超长文本的时候……但是作为用户和体验者，咱就一个原则：我可以用不上，你不能不提供（手动狗头）。

除了“量子速读”，钉钉AI助理在文档细节上也对答如流。

一份文档喂进去，你得到的不是只读了一遍的助手，而是研究了千百遍的专家。

再者，除了祭出长文本能力，钉钉还全面升级，继续在集成AI能力上整大活。

多模态速读：不只是文档、图片的理解，还支持解析网页、书籍、视频的摘要速度。在钉钉知识库中，如果你的文档比较多，甚至可以一次性解析几百万甚至几千万字的文档，也能做到跨文档的解析、问答。
自定义工作流：可视化配置AI的工作流程，把AI能力真正用到业务流程里。

能写会看，还能自定义工作流，在钉钉，用户完全可以拥有新造的AI同事。

同时也可以从这件事上看出一些市场动向。目前，做AI的公司逐渐划分出两派。

以技术为出发点的公司，去寻找场景，目前主要在长文本、多模态等纯技术能力上狂卷。

以场景为出发点的公司，去集成技术，已经陆续放出来了一些不一样的东西。

书归正传，下面就来实测一把，看看集AI能力大成的钉钉，到底实力如何。

实测钉钉AI助理：实用玩家

钉钉功能这么丰富，AI助理入口在哪？

其实不用去找它，像平常一样把工作需要的文档、网页丢给同事或群里，AI会主动来找你的。

接下来轻轻一点，万字长文就被总结成了几个要点，缓解信息爆炸焦虑真是一绝。

除了网页、文档速读，多模态速听速看也是钉钉AI这次更新的一大重点。

先上最基础的图片。

一张投资机构整理的AI视频产业全景图，信息非常丰富。

如果想提取其中信息，先来看传统选手——OCR的效果：格式混乱不说，还容易把公司Logo识别成奇奇怪怪的符号。

把图发给钉钉AI助理，就省心很多了。

不用多余的解释，它不仅能识别其中的公司名称，还把分类给整理出来了。

视频也是同样的配方，同样的味道。

大神Andrej Karpathy在红杉的活动上讲了36分钟，钉钉AI助理看完只需要3分钟。

伴随着一声清脆的“钉”，大段听着头疼的英文演讲就变成中文总结了。

目前市面上的多模态AI产品，往往都在强调视觉能力。但是可别忘了，表格模态才是日常工作中更常用的。

钉钉AI助理对于表格的处理非常有主动性，无需额外交代，直接画出适合展现数据的图表，还有一些自己的见解，有智能体Agent那味儿了。

这些还都只是单点的AI模型能力产品化，更值得一试的还是自定义工作流。

可能很多用户不太理解什么是工作流，其实字节扣子的workflow方式也是这一逻辑。

这是一种执行编排方式，给AI提供灵活可组合的节点，甚至支持自定义代码，来实现复杂且可控的AI任务流需求。当任务场景包含较多的执行步骤，或者对输出的准确性或者格式有明确要求时，可以规划AI助理的工作流，来更好地保证输出符合期望的结果。

简单讲，本质上是把过去的RPA自动化执行流程，应用到了AI上，一定程度上人工做了AI的推理，一来让大模型有指向、有选择的执行任务，更准确，解决现在全球 AI 面临的意图识别问题；二来让大模型可以在工作流中，插入更丰富的行动能力。

一句话总结，就是让AI执行任务更准确，行动也更丰富了。

先看最终效果：只需提供一个话题，AI自动生成小红书文案不说，连发布都代劳了。

要制作这样一个自定义AI助理也非常简单，不会编程没关系，只需要点点鼠标，输入你的需求。

并且在钉钉AI助理市场，已经有不少制作好的现成助理，一般常见需求都覆盖了。

如果有更进阶的需求，也可以把他们当成示例模板，学习其中的提示词和流程编排技巧。

就这样，除了好用、实用之外，在钉钉上用AI还有一种特别的体验：顺滑。

特别是对于本来就在钉钉上办公的朋友来说，不用切换窗口到各路复杂的AI工具，复制粘贴文档了。

无论是同事、合作伙伴发来的文件还是钉钉文档里的内容，都可以一件转发给AI助理。

而AI的输出结果也可以再次转发给其他联系人，甚至传送到钉钉文档，借助“斜杠”的AI能力进一步加工处理。

甚至，只要你有开放API，不管是让钉钉AI用微信、Notion、腾讯会议，还是让AI打通公司原有的生产、销售、选题各类系统，都成！

总之，在已经成熟的办公平台使用AI能力，信息的流转更顺畅了。

大模型下一战场：实际落地、实用价值

2024年，AI战事转为应用爆发，瞄准百业千行进行落地，产生实际效益。

对于渴望AI进入工作、进入生活的普通人来说，亲手用上AI Native的应用比在新闻上见证技术的变革更有趣，体感上也好得多。

人们期待的不再是高大上的概念，而是切切实实的上手用起来。

在万众期待下，AI应用发展趋势愈发明显。

一方面，大模型的技术愈发完善，涌现出惊人的强大能力，尤其是多模态能力方面。

放眼当下，以GPT-4、Gemini、Claude 3为代表的大模型，不再局限于处理单一类型的数据或执行单一类型的任务，而是能够整合多种模态的数据，如文本、图像、声音等，提供更加丰富和深入的分析和理解。

搭建在这样日渐强大模型基础上的AI应用，也愈发着重多模态功能。

另一方面，那些以“皇帝的金锄头”为目标场景的AI应用，逐步被市场需求证伪，淹没在时代的浪潮里。

被冲刷留下的，都是那些更贴近实际需求、有应用场景的AI应用。

这些应用的共同特点，就是不仅仅是将大模型能力作为一项新颖的展示技术，而是以模型技术为基础，开始狂卷处理复杂任务的能力。

工作场景，大模型能力被用于编写代码、建立自定义工作流，省时提效，作为处理工作事宜的帮手；医疗领域，大模型能力被用于辅助诊断、制定个性化治疗方案、研发药物；金融行业，大模型能力被用于帮助分析市场趋势、管理风险、提供个性化的投资建议；而在制造业，AI大模型能力参与了从产品设计、供应链管理、预测性维护等关键环节。

类似的例子不胜枚举。

总而言之，AI应用展现的处理复杂任务方面的能力正在逐步得到认可和应用，已成为明显的行业趋势。

既然是行业趋势，大家都看得到，为什么钉钉在速度上又领先一步？

量子位调研总结，钉钉至少手里有三张王牌。

第一张，坚实的技术功底。

作为阿里巴巴的重要产品，钉钉能直接用上阿里在大模型领域的最新成果——通义千问。据介绍，通义千问不仅是国内首个千亿级中文大模型，在多模态理解、长文本处理等方面已是国内大模型佼佼者。

在图片理解上，钉钉AI助理基于通义千问Qwen-VL-Max视觉理解模型，在多个权威测评中获得佳绩，比肩OpenAI的GPT-4V和谷歌的Gemini Ultra。

而且钉钉对通义千问不是简单套用，反而是进一步打造了一套完整的AI框架，其AI助理构建在3个系统之上：

感知系统：负责感知，进行prompt的输入。特点是钉钉这个工作场景的上下文，如会议纪要、工作任务，授权后也可以被感知，而不只是对话的上下文。；

行动系统：低代码、钉钉的各个功能、SaaS应用，将成为Agent核心系统的手和脚，完成生成、问答、调用、分析等系列行为；

思考系统：接入通义千问模型，让Agent拥有快思考和慢思考的能力。

这种全栈式的技术架构，保证了钉钉AI从需求理解到任务完成的端到端闭环。

第二张，在大模型元年早期就洞察趋势，抢先入局，积累经验。

基于对AI发展趋势的精准判断，钉钉早在23年4月就率先推出AI产品“钉钉魔法棒”。

在国内办公平台之中动作最快，成为首个走向智能化的生产力工具。

抢先入局让钉钉积累了宝贵的实战经验，这次AI大升级很多功能设计其实就是不断迭代改进的结果。

如当初还需要使用文档资料提前训练的“问答机器人”，就进化成了随时把文档、网页链接丢到任何一个聊天或群聊，就能随时、随地调动AI能力。

这些功能还被放到AI Agent里，与行动能力相协同，相当于有了知识之后，又有了手和脚。

第三张，场景积累在我，过去还积累了无代码低代码平台。

据数据统计，钉钉在全球范围内已服务了2500万组织。

这意味着，各行各业海量的办公协同场景被钉钉收入囊中，为其AI应用提供了极其丰富的应用土壤。

而在平台能力上，钉钉此前发力的智能化OA、RPA、宜搭等产品，也都成为此次AI助手的有力补充。

所以在自定义AI工作流刚上线，不仅有官方预先制作好的常用模板，热心用户也能迅速把自己的个性化工作流搬上来，突出一个轻车熟路。

可以说，钉钉多年的战略性投入，借着AI这波AI新浪潮又开花结果了。

一年前这个时候，所谓AI应用还大多是“大模型技术演示”，远远称不上产品。

当时我们曾预言，只有准确把握AI时代的交互模式，应用于大量的应用场景，才能让AI能力在反馈中不断提升、应用层不断创新，形成新的增长飞轮。

如今看来，钉钉AI一年多来的实践正是沿这个方向给大家趟出一条更具体、更容易摸着走下去的路。

“AIGC一天，人间一年”，我们离真正的第一个AI超级应用，已经不远了。

AI助理多模态自定义工作流长文本

衡宇

让AI视频进入「全民GC」时代，这家中国公司刚刚真的做到了2024-07-24
百川智能回应200亿元估值：为B轮投前估值，A轮总融资额达50亿元2024-07-25
刚刚，中国IMO奥数憾失第一，五连冠统治被美国队终结2024-07-21
给iPhone背面贴个AI录音机，生意老好了2024-07-21

钉钉AI：好险，差点就被长文本卷到

实测钉钉AI助理：实用玩家

大模型下一战场：实际落地、实用价值

相关阅读

后GPT时代，多模态是最大的机会

北大&腾讯打造多模态15边形战士！语言作“纽带”，拳打脚踢各模态，超越Imagebind

开源多模态SOTA再易主，19B模型比肩GPT-4v，16G显存就能跑

Transformer一作来卷多模态！学术图表也能看懂，100毫秒极速响应｜免费试玩

首次引入视觉定位，实现细粒度多模态联合理解，已开源&demo可玩

LLaMA2上下文长度暴涨至100万tokens，只需调整1个超参数｜复旦邱锡鹏团队出品

热门文章

雷军：地表最强四门车，小米造！自曝造车起步估值超700亿

陶哲轩在IMO上给AI团队颁奖！他们要做AI数学的ImageNet

给iPhone背面贴个AI录音机，生意老好了

AI视频修复速度10倍提升，过曝变色也能逐帧搞定｜美图国科大新算法

微软蓝屏搞瘫全球，马斯克很生气，原因很尴尬