• 首页 > 新闻
  • 刷榜跑分?AI评测不应走偏路线

  • 2024-03-22 09:54:55 北京 来源: 中国网-财经
  •   来源:新华每日电讯 作者:周琳 董雪

      “百模大战”以来,AI大模型的部分榜单上出现了一个奇怪现象:长期盘踞在榜单前列的,经常是一些名不见经传的国产大模型,它们竟然以接近满分的优势碾压了ChatGPT、Gemini和其他知名的AI大模型。

      之所以令人大跌眼镜,是因为这与大众的实际体验严重不符。不少AI大模型分数名列前茅,实力却不及格。如果说“听不懂答不对、动不动就崩溃”司空见惯,那么更讽刺的是,有的大模型根本没对业界开放,就算大家想感受一下“第一名”的风采都找不到门路。

      有人可能会好奇:一些AI大模型“高分低能”是怎么做到的?原因其实很简单,那就是评测中出现了数据污染和泄露。简单来说,榜单排名类似于有第三方“考官”出了一个题库,题库中大量考题针对性测评大模型各个方面的能力,而有的“考生”提前拿到题库,并把答案逐一背了下来。

      “考高分”的目的也很明确,那就是投机取巧、炒作包装。业内人士告诉记者,在国内众多大模型激烈竞争、良莠不齐的当下,许多大模型还未在用户之间形成过硬的口碑,离产生世界级影响还有较远的一段路。而评测是直观体现大模型能力的关键方式之一,学术化榜单和市场化榜单都得到了广泛重视,刷榜跑分因此成为一些企业快速吸引眼球的手段。

      当然,榜单失真的背后,不只有作弊的“考生”,也可能有徇私的“考官”。业界需要客观、公正、高水准的优质榜单帮助大家慧眼识珠、去伪存真,“考官”如果协助“考生”作弊,无疑会扰乱AI大模型的评测环境。所幸我们看到,部分榜单在遇到刷榜跑分问题后,及时推出补救措施,例如将公开大模型和非公开大模型区分为两张榜单,成功挤出大量非公开大模型的水分。

      是金非金焰烈而晓,部分大模型企业一心扑在刷榜跑分上显然走偏了路线。说到底AI大模型的发展还是那句老话,关键核心技术要不来、买不来、讨不来,更包装不来,唯有一步一个脚印,扎扎实实地向前走。

     

    (责任编辑:王晨曦)

    猜你喜欢:

  • 四部门联合开展“精康融合行动” 增强精神障碍患
  • 全国艺考培训机构专项治理行动取得进展 依法取缔
  • 中国残联召开残疾人社保座谈会 积极有序探索多层
  • 将文博单位纳入消防监管重点对象
  • 嘉士伯天目湖拉罐车间获“江苏省智能示范车间”认
  • 天宝营养IPO:报告期净利润波动大 短期偿债压力大“
  • 科峰传动吴俊峰当选全国工商联第十三届执委
  • 雅培捐赠价值超1680万元医学营养品 为一线医务工
  • HPE推出零信任网络与私有云运维解决方案,重新定义
  • ​Covation Biomaterials瑞讯生物材料在中国国际
  • F5《2025年应用战略现状》报告:AI 落地加速,企业战
  • 达索系统:用数字技术讲好中国故事
  • 《和·国粹流芳》京剧文化艺术展暨《和合·国粹·
  • 来自Arburg(阿博格)的线性机械手系统 专为亚洲市场:
  • HPE Aruba Networking Central推出全新虚拟私有云
  • 2025达索系统企业转型智造论坛系列活动全国巡回开
  • 凡本网注明“来源:XXX(非中国财经消费)”的内容,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。

    如有侵权等问题,请及时联系本网,本网将在第一时间删除:gkjnet@qq.com

    中国财经消费网   |    合作:gkjnet@qq.com
    Copyright © 2019-2025 CJ18.COM.CN All Rights Reserved 中国财经消费网 版权所有