热搜词:

2025, 拼谁先找到场景

大模型虽在知识覆盖、内容生成等方面表现出色,但存在泛化能力有限、因果推理不足等短板,其落地难点在于能力边界与场景需求的错配,2025年的竞争关键在于找到适配场景并实现有效交付。

在致远互联AI-COP“让组织智能进化”现场。

复旦大学计算与智能创新学院教授、上海智能信息处理重点实验室副主任张齐,分享了他对“大模型”和“Agent”落地的最新思考。

我坐在台下听完,脑子里就一个念头:

这东西必须赶紧和你说说。因为他讲的,不只是技术细节,而是为什么这么多公司装上了大模型,最后还是用不起来。

首先,他提到一个问题:大模型强在哪?又弱在哪?

大模型确实很厉害。它能一次读几十万字而不忘前忘后,这在过去小模型时代想都不敢想;以前识别人名、情感分析、做分类得用不同的模型,现在一个全能模型全搞定。

它还能把不同语言“翻译”到统一的内部表示,所以用中文训练的能力,换到英文任务上也能用。

更重要的是,它已经不满足于“翻译”了,而是能直接生成内容:从写诗写剧本,到写新闻稿都不在话下。

难怪它在高考化学题上能考到七八十分,这要放在十年前,做梦都不敢想。

可问题来了,同样是这个模型,做一道高考化学满分没问题,换成小学二年级的简单应用题,稍微加一句无关紧要的描述,分数就能从九十多分掉到二十多。

听着是不是有点离谱?原因很简单:它并不是真的“理解”了题意,而是记住了题型和套路。一旦问题稍微出了它的“记忆圈”,它就容易懵。

张齐教授打了个比方:

模型能力像一个个孤立的圆圈:高考题是一个圈,小学应用题是另一个圈,英语拼写、合同生成、编程……都是各自的圈。

人类的学习能跨圈,学会数苹果,就会数梨子;而大模型多数时只能在圈里玩,出了圈就得重新学。

更致命的是推理。

它能通过统计发现“尿布和啤酒销量相关”,但问它“为什么”,它就没法像人一样推导出答案。这也是为什么它在很多常识推理、简单逻辑题上会翻车。

它的强,是见多识广的强;它的弱,是“缺乏真正思考”的弱。

我们会被它的强迷惑,因为它的回答太像人了。表面看,它似乎懂你,其实它只是用模式匹配,预测出最可能的下一个词,并不真的理解你想表达的意思。

所以,大模型强和弱,是一体两面。它强在知识覆盖面大、生成能力强、多任务通用;它弱在泛化能力有限、因果推理不足、跨圈迁移差。

张齐教授说得很直白,大模型不是万能的,它依然是基于统计学习的机器;明白了这一点,也就明白了为什么很多企业把大模型装进系统,最后却发现用不出理想效果。

既然看清了它的强弱,可为什么我们总以为它在理解?

其实,被它的“表现”骗了。

大模型底层逻辑,是在海量数据里学到一种统计规律:当你说了前半句话,它能预测出后面最可能出现的那几个词,然后不断叠加,直到拼成一段看起来很合理的内容。

这个过程非常像我们平时聊天,但本质上,它没有“意识”去琢磨你话背后的真实意图。

张齐教授举了个挺好玩的例子:

问它“Strawberry里面有几个R?”,这种题一般不会出现在训练数据里,所以能不能答对,就看它的泛化能力。

结果一开始,它根本数不清,甚至会在推理过程中卡壳。可当这种题被测试多了,模型公司就把它放进了训练数据,于是它突然就能数得很溜了。

你看,它不是突然开了窍,而是“见过了答案”。

这就是关键,它的所谓“理解”,是“记忆模式”的复用。它像一个见多识广的学生,背过成千上万道题,只要你问的题跟它背过的相似,它就能答得有模有样。

可一旦你的提问跨出了它的“背题库”,它就可能手足无措,甚至答非所问。

更麻烦的是,我们人类特别容易被这种“似懂非懂”的表现迷惑。就像一个人说话特别流利,你会下意识地觉得他很专业,即使他的话里可能漏洞百出。

本质上,它靠概率堆出来的答案,而不是靠真正的推理。它不具备像人一样的因果思维,不会因为“苹果掉下来”联想到“重力”,也不会在看到两个看似无关的事实时,去寻找它们之间的因果链。

所以,它的理解更像幻觉,是我们把自己的思维方式投射到它身上产生的错觉。

它没法像人那样举一反三,只能在已经画好的“圈子”里活动,而每一个圈子,都得靠人类事先用数据帮它画出来。

既然它的“理解”只是记住,那就不难明白,为什么很多公司把大模型搬进业务系统后,热热闹闹做了个Demo,结果一到真正交付时,就卡壳了?

其实,这背后,藏着大模型落地的根本症结,在现实世界的需求和它的能力边界之间,有着天然的缝隙。

第一个缝隙,是泛化边界太窄。

你让它做一类任务,可以做得很漂亮,一旦问题换个说法、场景稍微变形,它容易掉链子。现实业务里的需求,不可能永远是“干干净净的标准题”,很多时候输入是混乱的、不完整的,这就让模型暴露出短板。

第二个缝隙,是推理依赖高。

很多B端场景,比如:合同生成、技术审图,背后其实需要大量的判断、对比、归纳。

模型可以把文字拼出来,可它未必能理解条款的法律含义,或者在图纸上判断一条参数是否符合特定规范。它缺乏因果链条,所以,容易给出看似合理但逻辑错误的答案。

第三个缝隙,是成本和可控性。

大模型很大,推一次成本高,延迟长,而且结果有概率性——同样的问题,不同时间问,答案可能不一样。

对于需要稳定交付的业务,这种不可控性就是隐患。你不能指望一个法律文书生成系统,每次都碰运气。

第四个缝隙,是场景差异巨大。

模型在一个行业的定制优化,未必能迁移到另一个行业。比如:船厂审图,听上去是完美匹配大模型能力的任务:有几十万页规范文档,有固定格式的图纸,还有大量历史标注数据。

但即便如此,它也只能做到95%的准确率。问题是,这5%的错误没有人敢直接放行,所以,人工依然要全量复审。

这几个缝隙叠加起来,就解释了一个现象,大模型在实验室里是“985学霸”,到了企业场景却成了“见习生”,能干活,但干不好全活。

它是还没到那种“一上阵就能包办一切”的程度。

张齐教授的观点很务实:大模型落地的难,是能力边界和场景需求之间的错配。技术在一条轨道上飞,业务在另一条轨道上跑,中间没有做好衔接,就会出现“上不了线”或者“上线效果不佳”的情况。

所以,真正的难点在于怎么让它和具体场景贴合,让它的强项用在刀刃上,把弱项用其他方式补上。

那么,到底什么样的场景才适合用大模型和Agent?

张齐教授给了一个智远觉得特别好用的判断标准,两个条件:一,它能替代大量人工。二,它产出的结果,人类能快速判定对错。

听起来很朴素,但越想越对。

你会发现,最先被AI攻下的领域,是因为这两个条件都满足了;反过来,有些看似很适合AI的场景,其实并不符合条件。

比如:合同生成。如果是给完全不懂法律的人写,那产出的合同里有一堆术语,用户看不懂,也没法判断对错,结果只能求助别人。

如果是给律师写,律师当然看得懂,但他也有自己熟悉的合同模板,不会全盘用AI生成的新版本,这时,模型反而显得“多此一举”。

真正适配的场景,往往是那种数据量大、人工消耗高、判断门槛低的工作。

类似有医疗报告结构化,医生每天会产出大量非结构化的病历、化验结果,模型可以自动把里面的关键信息提取成表格,医生一扫就知道对不对。

再比如跨语言客服,对于出海企业来说,不可能每种语言都配齐客服人员,而模型可以把常见问题快速翻译、生成答案,只要达到九成准确率,就能直接节省大量人力成本。

还有一个很重要的经验,“场景越小、数据越多、效果越好”。

把“写作”当成一个大场景,要把它做好很难,但如果把它拆成“小学三年级作文”“四年级作文”这样的小块,分别用对应的数据训练,就能很快达到交付要求。

在线上教育领域,这种“年级+题型”的精细化训练已经很常见了。

所以,挑场景时,不要想着一口吃成胖子,而是要找那种模型能一锤子砸到钉子上的地方,让它的强项充分释放,同时结果又容易被人类快速验收。

这时,AI是来帮人把最费时、最机械的那部分工作先干掉。

当然,这也意味着企业需要非常清楚自己的业务流程,知道哪里是真正的瓶颈。否则就会陷入一个误区,看模型的能力很炫,就随便找个地方塞进去,结果费了钱,场景和能力不匹配,最后不了了之。

等你接受了这个判断标准,你就会发现,找到合适的场景只是第一步,真正的挑战是:在今年这样的关键窗口期,怎么把它做成可交付、能赚钱的产品。

所以,在2025年,企业该怎么突围?听张齐教授讲到最后,我脑子里冒出来的第一个词:窗口期。

第一,不要指望端到端一口气全自动完成。

模型再大,也不是万金油。很多时候,人机协同反而更高效,让模型先处理掉70%的重复性工作,再由人做最后30%的审核和决策。

这不光能提高准确率,还能让业务部门更容易接受。

第二,尽量减少对复杂推理的依赖。

高考数学能考高分,是因为有人在数据里塞了上亿道原题,几乎覆盖了所有题型。但大部分行业场景做不到这种数据密度,所以,如果一个任务需要大量的逻辑链条推演,模型可能就会掉链子。

要优先啃那些“低垂的果子”,能用模式识别、信息提取快速搞定的事。

三,该用小模型的时候就用小模型。

小模型虽然能力单一,却在特定场景更稳定、更可控,成本也低。很多时候,小模型就是更优解。

然后,必须盯着商业价值,做AI是为了赚钱。要么节省大量成本,要么创造新的收入渠道,否则就算技术再酷,也会因为ROI不够被砍掉。

要用“工作模拟法”,细化到每个岗位、每15分钟在干什么,从中找出可以标准化、规模化的部分,用模型替代。

最后,不要忽略组织层面的改造,AI不只是换一个工具,它会改变工作流,甚至会影响团队的结构和分工。如果企业的流程、考核、管理方式都还是老一套,AI落地的效果往往会大打折扣。

所以,这一年是机会年,但机会只留给两种企业:

一种,能找到刀刃场景,把模型打磨到90分交付水准的;

另一种,能在组织内部迅速适应AI工作方式变化的。

如果说过去两年,大模型的故事更多是技术人的狂欢,那2025年,就是商业人的战争。谁能在这个窗口期精准落子,谁就能在市场里抢到先手。

至于还在等技术“完美再上”的公司,等它完美时,牌桌上可能早就没了你的座位。