4月5日,Meta发布了新一代多模态大模型Llama 4系列,包括Scout、Maverick和Behemoth三款模型,主打混合专家架构(MoE)、长上下文支持和多模态能力。
然而,开源仅数日,该系列即陷入“训练作弊”争议。多名内部员工爆料称,Meta为提升模型基准测试成绩,在训练中混入测试集数据,且存在“特供版本刷榜”行为。
尽管Meta高管公开否认,但实测表现与官方宣传的差距引发行业广泛质疑。
据内部员工在论坛“一亩三分地”爆料,Meta因Llama 4未达预期性能,在训练后期将基准测试的测试集数据加入训练或微调数据中,人为提升指标。此举被指为“背题式作弊”,导致模型在标准测试中表现虚高,但实际应用效果平庸。
争议期间,Meta AI研究主管Joelle Pineau宣布离职(虽未直接关联Llama 4,但时间点敏感),另有匿名员工因不满“作弊”行为愤然辞职。
对此,Meta生成式AI副总裁Ahmad Al-Dahle在社交媒体两度回应:
明确表示“测试集训练”传言不属实,强调模型表现差异源于“发布仓促”,不同云服务商的部署优化尚未完成,承诺将修复漏洞。
承认LM Arena上使用的Maverick是“实验性聊天优化版本”,但称这是探索不同应用场景的常规操作,并非针对评测的定制行为。
在LM Arena(大模型竞技场)中,Llama 4 Maverick以第二名的高分引发关注。但用户实测发现,Meta提交的版本(标注为“实验性聊天优化版”)与公开下载版本存在显著差异:前者回复冗长、频繁使用表情符号,且代码生成能力优于后者。LM Arena团队公开2000余组对战数据后,证实Meta未明确标注版本差异,导致评测结果被质疑“误导开发者”。
尽管Meta宣称Llama 4在多项任务中超越GPT-4o和Gemini,但用户实测结果普遍低于预期:
编码能力崩盘:在生成旋转多边形动画、网页游戏等任务中,Llama 4生成的代码存在逻辑错误(如小球穿墙、计分失效),表现远逊于GPT-4o。
长上下文处理乏力:Scout号称支持1000万token上下文,但实际召回率未达宣传水平。
多语言与推理短板:部分用户指出,模型在多语言任务和复杂推理中的表现甚至不及前代Llama 3。
LM Arena团队公开数据并更新政策,要求模型提供商明确标注优化细节,但事件暴露了“人类偏好评测”的局限性——模型可通过风格调整(如亲和力语言)而非能力提升获得高分。
开发者批评Meta“特供版本”策略损害了开源透明度,使模型实际表现难以预测。专家指出,若MoE架构的专家模型参数过小(如Scout仅170亿活跃参数),可能先天限制性能,迫使团队依赖“指标优化”。
扎克伯格此前下达“4月底交付”死命令,被指导致团队为赶工期牺牲质量。此外,Meta还面临数据版权诉讼(被控使用盗版书籍训练模型),进一步削弱公众信任。
此次风波可能影响投资者对Meta AI研发能力的评估,甚至波及股价。行业分析师指出,Meta需通过透明化训练流程、加强第三方验证重建信任。
Llama 4的“作弊”争议不仅是Meta的公关危机,更折射出AI行业在高速竞争下的深层问题:技术透明度的缺失、评测机制的局限性,以及商业压力对科研伦理的冲击。若Meta无法以更开放的姿态回应质疑,其“开源领袖”形象或将难以维系。
本文链接:https://www.7gw.net/10_33937.html
转载请注明文章出处