Kimi赌上万亿Token预测世界杯：AI不是万能，AI公司也别装,kimi entertainment

一个肯说“我可能错”的AI，会不会更可信？

定焦One（dingjiaoone）原创

作者 | 陈颐

编辑 | 方展博

2026年世界杯还没揭幕，几家AI公司先在场外较上了劲。

这届世界杯扩军到48支队、104场比赛，是史上规模最大的一届，也顺理成章成了各家大模型秀肌肉的舞台。

6月8日，Kimi正式下场，玩法跟别人不太一样。

它没有只发条预测、截张图就了事，而是用Agent集群调度300个子Agent，对104场比赛逐场做赛前预测、赛后复盘。在冠军的预测上，Kimi并没有否认西班牙、法国仍是热门候选，但提出德国队“可能被市场低估”，有可能“爆冷”夺冠。它甚至还公开喊话其他大模型，一起来预测、同场检验。

Kimi小组赛预测图

更加另类的是，预测文章里的第一句话就是：“我们的预测很可能是错的”。它认为，AI不该被包装成永远正确的系统，应当更透明地讲清自己的能力边界。

办这场活动，当然有商业上的考量，拉新、导流，给刚上线的Kimi Work攒一波声量。但Kimi这套又是公开预测、又是邀人挑错的操作，更像是在向“包装万能”的AI行业潜规则发起挑战，它想让更多人看清，今天的AI到底能做什么、又做不到什么。

这恰恰是很多人忽略的一点。如今我们已经习惯让AI查资料、写方案，甚至替我们拿主意，可真要依赖AI做判断，光有答案还不够，还得知道这个答案有几分靠谱。

于是问题来了：我们嘴上都说想要AI说实话，可它真说出“我没把握”时，我们究竟会更信它，还是掉头去找那个顺着你说、给你信心的AI？

诚实，对一家AI公司来说，到底是加分项，还是劝退项？Kimi想用104场世界杯球赛，把这个问题摆上台面。

01.Kimi为什么敢押德国队？

先说说用户能怎么参与这场活动。

从6月9日起，登录Kimi，选一支自己支持的主队，这支队每赢一场，参与的人就可以瓜分一个总额1万亿的Token奖池；德国队要是赢球，所有用户还有机会参与瓜分额外10亿Token池。这些Token能直接用于刚上线不久的Kimi Work。这是一个面向知识工作者的本地Agent，能帮用户建站、做PPT、查金融和法律资料等等。

活动一宣布，已经有球迷开始畅想今年夏天的生活：白天把一部分工作丢给Kimi Work；深夜凌晨熬夜看球，再让它陪着算哪支球队赢面更大。工作、看球两不误。

Kimi Work

福利之外，Kimi这次最让人意外的，是它押注德国队可能“爆冷”夺冠，认为它是被市场低估得最明显的强队之一。

按Kimi报告，西班牙、法国、阿根廷都处在热门区间，但德国的特殊之处在于：按博彩市场的赔率倒推，它的夺冠概率约为7.4%；但Kimi模型校准后给到11.3%，两者相差3.9个百分点。

Kimi为什么认为德国被低估？它的判断来自几条分析链路的交叉验证。

最直接的线索，是市场共识和球队基础实力指标之间存在错位。按转会市场的阵容身价算，德国排世界第四；但按市场隐含概率看，德国只排第七。拿巴西做个对照就清楚了：它的阵容身价比德国低（世界第六），市场给出夺冠排序却是世界第四。

按照这个逻辑，市场对巴西偏宽容，对德国偏苛刻。报告把原因归结为“近因偏差”：人对最近发生的坏事，总是记得格外清楚。德国连续两届世界杯小组出局，球迷和庄家都有“心理阴影”了，导致市场可能没有充分考虑一些新变量。比如，教练纳格尔斯曼接手后，高位逼抢的打法回来了；穆西亚拉和维尔茨这条年轻轴线，也解决了“控球多威胁少”的老毛病。

Kimi在报告里也承认，德国这3.6个百分点的正向偏差，可能是市场低估，也可能是模型高估，真正答案要等比赛验证。

Kimi的活动宣布以后，有人叫好，评论区有人说：“敢预测就是一种勇气，无论最后结果是否正确”。也有人等着看笑话，留言说：“德国队夺冠我把球吃了”。更多人则在边上等着数它猜中了几场。猜砸了就是“AI果然不懂球”，偶尔押中，又会被说成“蒙的”。

但用“德国是否夺冠”来评价Kimi的预测能力，并不准确。它押的不是“德国一定能夺冠”，而是“市场低估了德国队”，这是两码事。Kimi的判断是否成立，不能只看德国有没有捧杯，还要看它在淘汰赛走到哪里、面对强队的表现如何，以及赛后复盘中，模型给出的11.3%是否比市场隐含的7.4%更接近真实表现。

Kimi的这种做法，在AI圈里并不常见。平时AI展示能力，要么是在发布会上放段demo，演示永远一气呵成，要么从案例库里挑几个成功的摆出来，个个无懈可击。这些事后都能修饰、能筛选，外人根本无从证伪，它没拿出来的那些失败，我们永远看不到。

而Kimi选了世界杯这个谁也无法作弊的场子，104场预测结果，对了错了都摆在明面上，想赖也赖不掉。它甘愿冒着“当众出丑”的风险，到底图什么？

02.AI为什么集体“装神”，又为什么有人开始“认怂”

要回答这个问题，得先看清楚整个行业的默认玩法。

AI预测赛事，最安全的做法是随大流。足球充满偶然，跟着主流押西班牙、法国是最稳的，猜中是意料之中，押错也是大家一起错，没有哪家会被单独苛责。

可正是这套“随大流”的做法，多年来已经把AI预测做成了一门娱乐性大于实用性的营销生意。

回看历史就知道：2018年俄罗斯世界杯，主流AI集体看走眼，微软、百度、多家投行与学术AI普遍把西班牙、德国、巴西，列为夺冠前三热门，结果冠军是法国。

2022年卡塔尔世界杯，几家机构的AI看好阿根廷夺冠并押中，但也有押错的，比如半岛电视台AI看好法国，且全场次命中率都不算高：半岛电视台58.7%，538（FiveThirtyEight）为57.1%，比乱猜强些，但离“神准”差得远。

战绩如此一般，为什么各家还抢着预测？这背后有多层原因。

最表层，预测不需要担责，赛前抛出预测赚波关注，猜错了也没什么代价。

其次是用户在用脚投票。我们嘴上说想要诚实的AI，可真到用的时候，多半会下意识选那个“听起来更自信”的AI。

而最深层，藏在模型被训练出来的方式里。如今的大模型，是靠人类一条一条打分调教出来的。人对“肯定、完整、好听”的回答打高分，对“我不知道”打低分；连给模型测分的榜单，也大多是答错扣分、空着零分。这样反复训练下来，模型就被喂出了一种本能：宁可编一个像模像样的答案，也不愿承认“我没把握”。甚至有研究发现，AI比人更爱顺着用户、附和一句“你说得对”，它被调教出的首要目标是让你满意，而不是对你诚实。

放到公司层面，这就成了一个典型的“囚徒困境”：单看每一家，把话说满、多拉用户是理性选择；可当所有人都这么做，整个行业的可信度就被一点点透支了。从ChatGPT刚火时“AI无所不能”的论调，到后来幻觉频出、翻车不断，公众的信任度一路下滑。过去五年，全球公众对AI的信任度从61%降到53%；凯捷研究院今年初调研了15个行业、约1500名高管，超过七成担心AI的安全性、可解释性与可靠性尚未得到充分验证。

面对这个困境，Kimi换了一套衡量预测好坏的标准。它给出的不只是预测结果，还给每场比赛标了高、中、低三档置信度，并且交代得很清楚：高置信度那批，它历史上能对85%到90%；中等的掉到55%到65%；低置信度的，准确率不高。

它这么做，是想把用户的注意力从“它单次有没有命中”，转向“它报出来的置信度和实际正确率是否匹配”。这在统计学里叫“校准”（calibration）。

拿天气预报来类比，更容易理解。预报说今天70%下雨，结果没下，你能说它预报错误吗？不能，单独一天说明不了什么，概率描述的是长期频率。真正的检验方法是，把它说过“70%下雨”的所有日子汇总，如果实际降雨占比接近70%，概率校准就是良好的。

AI也是同样的道理。模型一味输出绝对化结论，属于置信度失准、高估了自身能力。它每“猜中”一次，都是在给“AI可信度”埋雷，因为长期会误导用户全盘信任，一旦模型失误，无论是实际影响还是口碑信誉，都会付出更大的代价。

明白了概率校准的逻辑，再来看Kimi的做法就更容易理解。它没有回避自身短板，还在报告里公开展示了过往赛事的预测成绩：2018、2022两届世界杯，论单场胜负的命中率，它的模型不但没赢过博彩市场，还略低一点（2018年是58.4%对60.1%，2022年差距更大）；几场最著名的冷门，沙特赢阿根廷、日本接连赢德国和西班牙，它都没押中。需要说明的是，这是全部场次的命中率，和前面高置信度那批85%以上的准确率，并不是一个口径。

Kimi甚至承认：受模型误差所限，它报出的西班牙基准概率16.5%也不精确，按历史回测中的平均误差来粗略理解，真实概率甚至可能在6.5%-26.5%这样更宽泛的区间。报告里还有句提醒：任何号称能给出比这更精确数字的模型，要么是过度自信，要么是在藏着掖着自己的不确定性。别家比的是精确，Kimi却反过来提醒你“要警惕”。

不仅如此，Kimi还试图推动整个行业改变现状，公开邀请其他大模型下场预测。行业陷入“囚徒困境”，根源在于各家互不参照。可要是大家都在同一批比赛中同步公开预测结果，高下自然一目了然。104场下来，谁更靠谱、谁夸大其词，用户自有判断。长此以往，“诚实”不再是劣势，反而会成为行业的基本准则。

当然，这暂时只是Kimi的一厢情愿，有没有同行响应还不确定。但Kimi传递出的态度很明确：AI不是万能的，AI公司也没必要装成万能。坦然讲清自身能力的边界，才是AI企业应有的担当。

03.拿万亿Token，考一场作不了弊的试

话说回来，第一个把“AI可能会错”摆上台面，需要勇气，也得承担风险。对于Kimi来说，主动自曝短板、公开不确定性，会不会把用户“吓跑”？如果104场赛事预测的整体准确率不高，会不会被扣上“AI不懂球”的帽子？明知存在用户认知和舆论的风险，Kimi还是这么做了，背后大概有两点考量。

一方面，是技术上有底。

kimi展示的Agent集群过程

不同于传统大模型只是输出结论、模糊推理过程的预测，Kimi这300个Agent各管一个维度：有的看球队基础实力，用Elo评分（一种按历史战绩动态计算的实力分）和FIFA（国际足联）排名打底；有的算进攻和防守质量，靠xG（预期进球）这类指标；有的专门研究战术之间怎么相互克制；有的盯赛程、天气、长途奔波这些场外因素；还有的紧盯赔率变化，从市场和模型的偏差里找线索。

每个Agent都会给出判断、佐证数据、置信程度，还会附上“反方意见”，最后由模型融合校验，生成最终预测概率。关键在于，它摒弃了“少数服从多数”的投票逻辑，反而将模型内部的分歧本身当作重要的决策信息，最大化还原赛事预测的不确定性。

就拿德国这个重点案例来说，模型专门派了五个Agent从不同角度研判，其中一个的任务就是“唱反调”，专门推演德国的翻车风险：比如，回归的门将诺伊尔已经40岁高龄、德国队的高压逼抢战术在高温环境下可能拖垮体能。

与此同时，Kimi不只挑球迷爱听的说。对眼下被市场热捧的英格兰队，它判断“被高估了”；对所有模型一致看好的热门球队，它也特意提醒，热门共识也不等于确定性结论。

为了做到坦诚，Kimi甚至把“自己可能猜错的原因”做了归类，包括数据滞后、假设失效、临场意外等，同时明确了赛后复盘迭代的标准化流程。

种种细节看下来，这场赛事预测，并非随意输出的娱乐性推演，而是一次准备充分、逻辑完整的专业建模实践。

另一重考量，是它对用户需求变化的一次押注。

AI正越来越多地替人做决定：帮你看体检报告、审核合同、判断钱往哪儿投。这些场景容错率极低，错一次的代价可能是真金白银，甚至是健康。

这时候，一味顺着你说、主打“让你满意”的AI，恰恰需要警惕，因为它一旦出错，你可能连提前防备的机会都没有。反过来，敢说“不确定”、“不知道”的AI，至少给你留出了自己判断和兜底的余地。

AI用得越深入，“诚实”就越是刚需。

这也和它一直以来的定位保持一致，比起陪聊娱乐，Kimi更多被用在写代码、做研究、处理复杂任务上。越是这种较真的场景，用户越需要一个肯交底的工具。不靠“装神”，AI照样有价值。

Kimi网站首页截图

除此之外，本次活动里还有一个有意思的设计：每进一球，Kimi就向中国足球捐10亿Token，用来支持基层、校园和青训的教练用上AI工具，预计覆盖一万多人。

这一笔捐赠，其实和它看好的德国队遥相呼应。德国主帅纳格尔斯曼今年38岁，靠数据和建模重新武装这支老牌强队。这种数据能力，过去是职业顶级球队才用起的奢侈品。Kimi想做的，是把数据能力输送到中国校园和基层的球场中去。

这些Token能不能真帮上中国足球，是另一回事。但它给出了一个行业方向：AI的终极价值，不是制造精准预测的噱头，而是过去属于少数人的数据和技术，让更多人用得起。

04.结语

足球是世界上最难预测的运动，没有之一。一张红牌、一次VAR改判、门将一个神扑、一场突如其来的暴雨，都可能改写比分。

正因为算不准，世界杯才成了检验“诚实”最好的考场。在这里，AI可以假装胸有成竹，然后被打脸；也可以从一开始就坦承自己有几分把握、可能错在哪儿，再把每一步推理展示出来。Kimi选了后一种。

德国队到底是否被低估，7月自有分晓；可“AI该不该更诚实”这个问题，没那么容易有答案。Kimi至少先迈出一步，用一种能被验证、甚至可能被打脸的方式，告诉更多人：AI并非万能。这个问题的答案，其实不在AI，而在我们。我们最终会使用怎样的AI，取决于今天的我们更愿意为哪一种买单。