一个肯说“我可能错”的AI,会不会更可信?
定焦One(dingjiaoone)原创
作者 | 陈颐
编辑 | 方展博
2026年世界杯还没揭幕,几家AI公司先在场外较上了劲。
这届世界杯扩军到48支队、104场比赛,是史上规模最大的一届,也顺理成章成了各家大模型秀肌肉的舞台。
6月8日,Kimi正式下场,玩法跟别人不太一样。
它没有只发条预测、截张图就了事,而是用Agent集群调度300个子Agent,对104场比赛逐场做赛前预测、赛后复盘。在冠军的预测上,Kimi并没有否认西班牙、法国仍是热门候选,但提出德国队“可能被市场低估”,有可能“爆冷”夺冠。它甚至还公开喊话其他大模型,一起来预测、同场检验。
Kimi小组赛预测图
更加另类的是,预测文章里的第一句话就是:“我们的预测很可能是错的”。它认为,AI不该被包装成永远正确的系统,应当更透明地讲清自己的能力边界。
办这场活动,当然有商业上的考量,拉新、导流,给刚上线的Kimi Work攒一波声量。但Kimi这套又是公开预测、又是邀人挑错的操作,更像是在向“包装万能”的AI行业潜规则发起挑战,它想让更多人看清,今天的AI到底能做什么、又做不到什么。
这恰恰是很多人忽略的一点。如今我们已经习惯让AI查资料、写方案,甚至替我们拿主意,可真要依赖AI做判断,光有答案还不够,还得知道这个答案有几分靠谱。
于是问题来了:我们嘴上都说想要AI说实话,可它真说出“我没把握”时,我们究竟会更信它,还是掉头去找那个顺着你说、给你信心的AI?
诚实,对一家AI公司来说,到底是加分项,还是劝退项?Kimi想用104场世界杯球赛,把这个问题摆上台面。
01.Kimi为什么敢押德国队?
先说说用户能怎么参与这场活动。
从6月9日起,登录Kimi,选一支自己支持的主队,这支队每赢一场,参与的人就可以瓜分一个总额1万亿的Token奖池;德国队要是赢球,所有用户还有机会参与瓜分额外10亿Token池。这些Token能直接用于刚上线不久的Kimi Work。这是一个面向知识工作者的本地Agent,能帮用户建站、做PPT、查金融和法律资料等等。
活动一宣布,已经有球迷开始畅想今年夏天的生活:白天把一部分工作丢给Kimi Work;深夜凌晨熬夜看球,再让它陪着算哪支球队赢面更大。工作、看球两不误。
Kimi Work
福利之外,Kimi这次最让人意外的,是它押注德国队可能“爆冷”夺冠,认为它是被市场低估得最明显的强队之一。
按Kimi报告,西班牙、法国、阿根廷都处在热门区间,但德国的特殊之处在于:按博彩市场的赔率倒推,它的夺冠概率约为7.4%;但Kimi模型校准后给到11.3%,两者相差3.9个百分点。
Kimi为什么认为德国被低估?它的判断来自几条分析链路的交叉验证。
最直接的线索,是市场共识和球队基础实力指标之间存在错位。按转会市场的阵容身价算,德国排世界第四;但按市场隐含概率看,德国只排第七。拿巴西做个对照就清楚了:它的阵容身价比德国低(世界第六),市场给出夺冠排序却是世界第四。
按照这个逻辑,市场对巴西偏宽容,对德国偏苛刻。报告把原因归结为“近因偏差”:人对最近发生的坏事,总是记得格外清楚。德国连续两届世界杯小组出局,球迷和庄家都有“心理阴影”了,导致市场可能没有充分考虑一些新变量。比如,教练纳格尔斯曼接手后,高位逼抢的打法回来了;穆西亚拉和维尔茨这条年轻轴线,也解决了“控球多威胁少”的老毛病。
Kimi在报告里也承认,德国这3.6个百分点的正向偏差,可能是市场低估,也可能是模型高估,真正答案要等比赛验证。
Kimi的活动宣布以后,有人叫好,评论区有人说:“敢预测就是一种勇气,无论最后结果是否正确”。也有人等着看笑话,留言说:“德国队夺冠我把球吃了”。更多人则在边上等着数它猜中了几场。猜砸了就是“AI果然不懂球”,偶尔押中,又会被说成“蒙的”。
但用“德国是否夺冠”来评价Kimi的预测能力,并不准确。它押的不是“德国一定能夺冠”,而是“市场低估了德国队”,这是两码事。Kimi的判断是否成立,不能只看德国有没有捧杯,还要看它在淘汰赛走到哪里、面对强队的表现如何,以及赛后复盘中,模型给出的11.3%是否比市场隐含的7.4%更接近真实表现。
Kimi的这种做法,在AI圈里并不常见。平时AI展示能力,要么是在发布会上放段demo,演示永远一气呵成,要么从案例库里挑几个成功的摆出来,个个无懈可击。这些事后都能修饰、能筛选,外人根本无从证伪,它没拿出来的那些失败,我们永远看不到。
而Kimi选了世界杯这个谁也无法作弊的场子,104场预测结果,对了错了都摆在明面上,想赖也赖不掉。它甘愿冒着“当众出丑”的风险,到底图什么?
02.AI为什么集体“装神”,又为什么有人开始“认怂”
要回答这个问题,得先看清楚整个行业的默认玩法。
AI预测赛事,最安全的做法是随大流。足球充满偶然,跟着主流押西班牙、法国是最稳的,猜中是意料之中,押错也是大家一起错,没有哪家会被单独苛责。
可正是这套“随大流”的做法,多年来已经把AI预测做成了一门娱乐性大于实用性的营销生意。
回看历史就知道:2018年俄罗斯世界杯,主流AI集体看走眼,微软、百度、多家投行与学术AI普遍把西班牙、德国、巴西,列为夺冠前三热门,结果冠军是法国。
2022年卡塔尔世界杯,几家机构的AI看好阿根廷夺冠并押中,但也有押错的,比如半岛电视台AI看好法国,且全场次命中率都不算高:半岛电视台58.7%,538(FiveThirtyEight)为57.1%,比乱猜强些,但离“神准”差得远。
战绩如此一般,为什么各家还抢着预测?这背后有多层原因。
最表层,预测不需要担责,赛前抛出预测赚波关注,猜错了也没什么代价。
其次是用户在用脚投票。我们嘴上说想要诚实的AI,可真到用的时候,多半会下意识选那个“听起来更自信”的AI。
而最深层,藏在模型被训练出来的方式里。如今的大模型,是靠人类一条一条打分调教出来的。人对“肯定、完整、好听”的回答打高分,对“我不知道”打低分;连给模型测分的榜单,也大多是答错扣分、空着零分。这样反复训练下来,模型就被喂出了一种本能:宁可编一个像模像样的答案,也不愿承认“我没把握”。甚至有研究发现,AI比人更爱顺着用户、附和一句“你说得对”,它被调教出的首要目标是让你满意,而不是对你诚实。
放到公司层面,这就成了一个典型的“囚徒困境”:单看每一家,把话说满、多拉用户是理性选择;可当所有人都这么做,整个行业的可信度就被一点点透支了。从ChatGPT刚火时“AI无所不能”的论调,到后来幻觉频出、翻车不断,公众的信任度一路下滑。过去五年,全球公众对AI的信任度从61%降到53%;凯捷研究院今年初调研了15个行业、约1500名高管,超过七成担心AI的安全性、可解释性与可靠性尚未得到充分验证。
面对这个困境,Kimi换了一套衡量预测好坏的标准。它给出的不只是预测结果,还给每场比赛标了高、中、低三档置信度,并且交代得很清楚:高置信度那批,它历史上能对85%到90%;中等的掉到55%到65%;低置信度的,准确率不高。
它这么做,是想把用户的注意力从“它单次有没有命中”,转向“它报出来的置信度和实际正确率是否匹配”。这在统计学里叫“校准”(calibration)。
拿天气预报来类比,更容易理解。预报说今天70%下雨,结果没下,你能说它预报错误吗?不能,单独一天说明不了什么,概率描述的是长期频率。真正的检验方法是,把它说过“70%下雨”的所有日子汇总,如果实际降雨占比接近70%,概率校准就是良好的。
AI也是同样的道理。模型一味输出绝对化结论,属于置信度失准、高估了自身能力。它每“猜中”一次,都是在给“AI可信度”埋雷,因为长期会误导用户全盘信任,一旦模型失误,无论是实际影响还是口碑信誉,都会付出更大的代价。
明白了概率校准的逻辑,再来看Kimi的做法就更容易理解。它没有回避自身短板,还在报告里公开展示了过往赛事的预测成绩:2018、2022两届世界杯,论单场胜负的命中率,它的模型不但没赢过博彩市场,还略低一点(2018年是58.4%对60.1%,2022年差距更大);几场最著名的冷门,沙特赢阿根廷、日本接连赢德国和西班牙,它都没押中。需要说明的是,这是全部场次的命中率,和前面高置信度那批85%以上的准确率,并不是一个口径。
Kimi甚至承认:受模型误差所限,它报出的西班牙基准概率16.5%也不精确,按历史回测中的平均误差来粗略理解,真实概率甚至可能在6.5%-26.5%这样更宽泛的区间。报告里还有句提醒:任何号称能给出比这更精确数字的模型,要么是过度自信,要么是在藏着掖着自己的不确定性。别家比的是精确,Kimi却反过来提醒你“要警惕”。
不仅如此,Kimi还试图推动整个行业改变现状,公开邀请其他大模型下场预测。行业陷入“囚徒困境”,根源在于各家互不参照。可要是大家都在同一批比赛中同步公开预测结果,高下自然一目了然。104场下来,谁更靠谱、谁夸大其词,用户自有判断。长此以往,“诚实”不再是劣势,反而会成为行业的基本准则。
当然,这暂时只是Kimi的一厢情愿,有没有同行响应还不确定。但Kimi传递出的态度很明确:AI不是万能的,AI公司也没必要装成万能。坦然讲清自身能力的边界,才是AI企业应有的担当。
03.拿万亿Token,考一场作不了弊的试
话说回来,第一个把“AI可能会错”摆上台面,需要勇气,也得承担风险。对于Kimi来说,主动自曝短板、公开不确定性,会不会把用户“吓跑”?如果104场赛事预测的整体准确率不高,会不会被扣上“AI不懂球”的帽子?明知存在用户认知和舆论的风险,Kimi还是这么做了,背后大概有两点考量。
一方面,是技术上有底。
kimi展示的Agent集群过程
不同于传统大模型只是输出结论、模糊推理过程的预测,Kimi这300个Agent各管一个维度:有的看球队基础实力,用Elo评分(一种按历史战绩动态计算的实力分)和FIFA(国际足联)排名打底;有的算进攻和防守质量,靠xG(预期进球)这类指标;有的专门研究战术之间怎么相互克制;有的盯赛程、天气、长途奔波这些场外因素;还有的紧盯赔率变化,从市场和模型的偏差里找线索。
每个Agent都会给出判断、佐证数据、置信程度,还会附上“反方意见”,最后由模型融合校验,生成最终预测概率。关键在于,它摒弃了“少数服从多数”的投票逻辑,反而将模型内部的分歧本身当作重要的决策信息,最大化还原赛事预测的不确定性。
就拿德国这个重点案例来说,模型专门派了五个Agent从不同角度研判,其中一个的任务就是“唱反调”,专门推演德国的翻车风险:比如,回归的门将诺伊尔已经40岁高龄、德国队的高压逼抢战术在高温环境下可能拖垮体能。
与此同时,Kimi不只挑球迷爱听的说。对眼下被市场热捧的英格兰队,它判断“被高估了”;对所有模型一致看好的热门球队,它也特意提醒,热门共识也不等于确定性结论。
为了做到坦诚,Kimi甚至把“自己可能猜错的原因”做了归类,包括数据滞后、假设失效、临场意外等,同时明确了赛后复盘迭代的标准化流程。
种种细节看下来,这场赛事预测,并非随意输出的娱乐性推演,而是一次准备充分、逻辑完整的专业建模实践。
另一重考量,是它对用户需求变化的一次押注。
AI正越来越多地替人做决定:帮你看体检报告、审核合同、判断钱往哪儿投。这些场景容错率极低,错一次的代价可能是真金白银,甚至是健康。
这时候,一味顺着你说、主打“让你满意”的AI,恰恰需要警惕,因为它一旦出错,你可能连提前防备的机会都没有。反过来,敢说“不确定”、“不知道”的AI,至少给你留出了自己判断和兜底的余地。
AI用得越深入,“诚实”就越是刚需。
这也和它一直以来的定位保持一致,比起陪聊娱乐,Kimi更多被用在写代码、做研究、处理复杂任务上。越是这种较真的场景,用户越需要一个肯交底的工具。不靠“装神”,AI照样有价值。
Kimi网站首页截图
除此之外,本次活动里还有一个有意思的设计:每进一球,Kimi就向中国足球捐10亿Token,用来支持基层、校园和青训的教练用上AI工具,预计覆盖一万多人。
这一笔捐赠,其实和它看好的德国队遥相呼应。德国主帅纳格尔斯曼今年38岁,靠数据和建模重新武装这支老牌强队。这种数据能力,过去是职业顶级球队才用起的奢侈品。Kimi想做的,是把数据能力输送到中国校园和基层的球场中去。
这些Token能不能真帮上中国足球,是另一回事。但它给出了一个行业方向:AI的终极价值,不是制造精准预测的噱头,而是过去属于少数人的数据和技术,让更多人用得起。
04.结语
足球是世界上最难预测的运动,没有之一。一张红牌、一次VAR改判、门将一个神扑、一场突如其来的暴雨,都可能改写比分。
正因为算不准,世界杯才成了检验“诚实”最好的考场。在这里,AI可以假装胸有成竹,然后被打脸;也可以从一开始就坦承自己有几分把握、可能错在哪儿,再把每一步推理展示出来。Kimi选了后一种。
德国队到底是否被低估,7月自有分晓;可“AI该不该更诚实”这个问题,没那么容易有答案。Kimi至少先迈出一步,用一种能被验证、甚至可能被打脸的方式,告诉更多人:AI并非万能。这个问题的答案,其实不在AI,而在我们。我们最终会使用怎样的AI,取决于今天的我们更愿意为哪一种买单。