观澜Media

AI技术 · 深度资讯 · 前沿观察

人工智能基准被打破。这就是我们所需要的。

几十年来,人们一直通过机器是否优于人类的问题来评估..

几十年来,人们一直通过机器是否优于人类的问题来评估人工智能。

从国际象棋到高等数学,从编码到论文写作,人工智能模型和应用程序的性能都是根据人类完成任务的性能进行测试的。

这个框架很诱人:人工智能与人类对具有明确正确或错误答案的孤立问题进行比较很容易标准化、比较和优化。

但有一个问题:人工智能几乎从未以基准测试的方式使用。

尽管研究人员和业界已经开始通过超越静态测试转向更动态的评估方法来改进基准测试,但这些创新只能解决部分问题。

它的性能(或缺乏性能)只有在长期使用后才会显现出来。

来源:MIT Tech Review

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关于我们

观澜Media

AI技术 · 深度资讯 · 前沿观察。专注科技、AI、互联网领域的深度报道与前沿资讯。

搜索归档

Access over the years of investigative journalism and breaking reports