几十年来,人们一直通过机器是否优于人类的问题来评估人工智能。
从国际象棋到高等数学,从编码到论文写作,人工智能模型和应用程序的性能都是根据人类完成任务的性能进行测试的。
这个框架很诱人:人工智能与人类对具有明确正确或错误答案的孤立问题进行比较很容易标准化、比较和优化。
但有一个问题:人工智能几乎从未以基准测试的方式使用。
尽管研究人员和业界已经开始通过超越静态测试转向更动态的评估方法来改进基准测试,但这些创新只能解决部分问题。
它的性能(或缺乏性能)只有在长期使用后才会显现出来。
来源:MIT Tech Review
