Llama 4陷"作弊"丑闻：AI竞赛下的技术诚信危机

　　4月5日，Meta发布了新一代多模态大模型Llama 4系列，包括Scout、Maverick和Behemoth三款模型，主打混合专家架构(MoE)、长上下文支持和多模态能力。

　　然而，开源仅数日，该系列即陷入“训练作弊”争议。多名内部员工爆料称，Meta为提升模型基准测试成绩，在训练中混入测试集数据，且存在“特供版本刷榜”行为。

　　尽管Meta高管公开否认，但实测表现与官方宣传的差距引发行业广泛质疑。

　　据内部员工在论坛“一亩三分地”爆料，Meta因Llama 4未达预期性能，在训练后期将基准测试的测试集数据加入训练或微调数据中，人为提升指标。此举被指为“背题式作弊”，导致模型在标准测试中表现虚高，但实际应用效果平庸。

　　争议期间，Meta AI研究主管Joelle Pineau宣布离职(虽未直接关联Llama 4，但时间点敏感)，另有匿名员工因不满“作弊”行为愤然辞职。

　　对此，Meta生成式AI副总裁Ahmad Al-Dahle在社交媒体两度回应：

　　明确表示“测试集训练”传言不属实，强调模型表现差异源于“发布仓促”，不同云服务商的部署优化尚未完成，承诺将修复漏洞。

　　承认LM Arena上使用的Maverick是“实验性聊天优化版本”，但称这是探索不同应用场景的常规操作，并非针对评测的定制行为。

　　在LM Arena(大模型竞技场)中，Llama 4 Maverick以第二名的高分引发关注。但用户实测发现，Meta提交的版本(标注为“实验性聊天优化版”)与公开下载版本存在显著差异：前者回复冗长、频繁使用表情符号，且代码生成能力优于后者。LM Arena团队公开2000余组对战数据后，证实Meta未明确标注版本差异，导致评测结果被质疑“误导开发者”。

　　尽管Meta宣称Llama 4在多项任务中超越GPT-4o和Gemini，但用户实测结果普遍低于预期：

　　编码能力崩盘：在生成旋转多边形动画、网页游戏等任务中，Llama 4生成的代码存在逻辑错误(如小球穿墙、计分失效)，表现远逊于GPT-4o。

　　长上下文处理乏力：Scout号称支持1000万token上下文，但实际召回率未达宣传水平。

　　多语言与推理短板：部分用户指出，模型在多语言任务和复杂推理中的表现甚至不及前代Llama 3。

　　LM Arena团队公开数据并更新政策，要求模型提供商明确标注优化细节，但事件暴露了“人类偏好评测”的局限性——模型可通过风格调整(如亲和力语言)而非能力提升获得高分。

　　开发者批评Meta“特供版本”策略损害了开源透明度，使模型实际表现难以预测。专家指出，若MoE架构的专家模型参数过小(如Scout仅170亿活跃参数)，可能先天限制性能，迫使团队依赖“指标优化”。

　　扎克伯格此前下达“4月底交付”死命令，被指导致团队为赶工期牺牲质量。此外，Meta还面临数据版权诉讼(被控使用盗版书籍训练模型)，进一步削弱公众信任。

　　此次风波可能影响投资者对Meta AI研发能力的评估，甚至波及股价。行业分析师指出，Meta需通过透明化训练流程、加强第三方验证重建信任。

　　Llama 4的“作弊”争议不仅是Meta的公关危机，更折射出AI行业在高速竞争下的深层问题：技术透明度的缺失、评测机制的局限性，以及商业压力对科研伦理的冲击。若Meta无法以更开放的姿态回应质疑，其“开源领袖”形象或将难以维系。

本文链接：https://www.7gw.net/10_33937.html
转载请注明文章出处