观澜Media

AI技术 · 深度资讯 · 前沿观察

人工智能基准被打破。这就是我们所需要的。

几十年来，人们一直通过机器是否优于人类的问题来评估..

作者

1 分

阅读时间

几十年来，人们一直通过机器是否优于人类的问题来评估人工智能。

从国际象棋到高等数学，从编码到论文写作，人工智能模型和应用程序的性能都是根据人类完成任务的性能进行测试的。

这个框架很诱人：人工智能与人类对具有明确正确或错误答案的孤立问题进行比较很容易标准化、比较和优化。

但有一个问题：人工智能几乎从未以基准测试的方式使用。

尽管研究人员和业界已经开始通过超越静态测试转向更动态的评估方法来改进基准测试，但这些创新只能解决部分问题。

它的性能（或缺乏性能）只有在长期使用后才会显现出来。

来源：MIT Tech Review

关于作者

See author's post

上一篇

下一篇

发表回复取消回复

关于我们

观澜Media

AI技术 · 深度资讯 · 前沿观察。专注科技、AI、互联网领域的深度报道与前沿资讯。

最新资讯

互联网

时隔 5 年的大更新：AirPods Max 2 首发体验

2026-04-01
财经

安踏“慢跑”，FILA重回轨道

2026-04-01
科技

营收三年增16倍，壁仞科技迎来业绩兑现期

2026-04-01
财经

碧桂园：连亏三年终盈利

2026-04-01
科技

vivo发布X300系列两款机型，主打专业影像和均衡参数丨最前线

2026-04-01

关注我们

分类

标签

搜索归档

Access over the years of investigative journalism and breaking reports

你可能错过了

AI

派早报：英文维基百科正式禁止 AI 参与编写

观澜Media

2026-04-01
互联网

从保鲜逻辑到外观设计，一份冰箱落地选购指南

观澜Media

2026-04-01
AI

派评 | 近期值得关注的 App

观澜Media

2026-04-01
科技

派早报：vivo 举办 vivo X 系列春季新品发布会等

观澜Media

2026-04-01
科技

一日一技 | 如何正确进行 vivo Log 的色彩空间转换

观澜Media

2026-04-01
AI

装了啥特别篇：编辑部近期 AI 用法拼盘

观澜Media

2026-04-01