刷榜跑分？AI评测不应走偏路线

2024-03-22 09:54:55

北京来源: 中国网-财经

　　来源：新华每日电讯作者：周琳董雪

　　“百模大战”以来，AI大模型的部分榜单上出现了一个奇怪现象：长期盘踞在榜单前列的，经常是一些名不见经传的国产大模型，它们竟然以接近满分的优势碾压了ChatGPT、Gemini和其他知名的AI大模型。

　　之所以令人大跌眼镜，是因为这与大众的实际体验严重不符。不少AI大模型分数名列前茅，实力却不及格。如果说“听不懂答不对、动不动就崩溃”司空见惯，那么更讽刺的是，有的大模型根本没对业界开放，就算大家想感受一下“第一名”的风采都找不到门路。

　　有人可能会好奇：一些AI大模型“高分低能”是怎么做到的？原因其实很简单，那就是评测中出现了数据污染和泄露。简单来说，榜单排名类似于有第三方“考官”出了一个题库，题库中大量考题针对性测评大模型各个方面的能力，而有的“考生”提前拿到题库，并把答案逐一背了下来。

　　“考高分”的目的也很明确，那就是投机取巧、炒作包装。业内人士告诉记者，在国内众多大模型激烈竞争、良莠不齐的当下，许多大模型还未在用户之间形成过硬的口碑，离产生世界级影响还有较远的一段路。而评测是直观体现大模型能力的关键方式之一，学术化榜单和市场化榜单都得到了广泛重视，刷榜跑分因此成为一些企业快速吸引眼球的手段。

　　当然，榜单失真的背后，不只有作弊的“考生”，也可能有徇私的“考官”。业界需要客观、公正、高水准的优质榜单帮助大家慧眼识珠、去伪存真，“考官”如果协助“考生”作弊，无疑会扰乱AI大模型的评测环境。所幸我们看到，部分榜单在遇到刷榜跑分问题后，及时推出补救措施，例如将公开大模型和非公开大模型区分为两张榜单，成功挤出大量非公开大模型的水分。

　　是金非金焰烈而晓，部分大模型企业一心扑在刷榜跑分上显然走偏了路线。说到底AI大模型的发展还是那句老话，关键核心技术要不来、买不来、讨不来，更包装不来，唯有一步一个脚印，扎扎实实地向前走。

(责任编辑：王晨曦)

猜你喜欢：

四部门联合开展“精康融合行动” 增强精神障碍患

全国艺考培训机构专项治理行动取得进展依法取缔

中国残联召开残疾人社保座谈会积极有序探索多层

将文博单位纳入消防监管重点对象

嘉士伯天目湖拉罐车间获“江苏省智能示范车间”认

天宝营养IPO：报告期净利润波动大短期偿债压力大“

科峰传动吴俊峰当选全国工商联第十三届执委

雅培捐赠价值超1680万元医学营养品为一线医务工

2025年开奶茶店，为什么建议你小成本投资？

孩子总感冒？试试瑞士PhytoKids的“植物免疫盾”

酒糟变肥料、AI助力农场防灾减灾、废品变时尚产品

实力比拼才见真章，瑞虎7 PLUS对比卡罗拉锐放全面解

孕产妇专用营养总是补了不吸收？试试美好蕴育润康

达索系统携手FondaMental基金会，在法国推出面向精

HPE推出零信任网络与私有云运维解决方案，重新定义

Covation Biomaterials瑞讯生物材料在中国国际