观澜Media

AI技术 · 深度资讯 · 前沿观察

基于模拟时钟的视觉推理基准

视觉推理基准 Clock Bench ClockB..

作者

1 分

阅读时间

视觉推理基准 Clock Bench ClockBench 评估模型是否可以读取模拟时钟——这项任务对人类来说是微不足道的，但当前的前沿模型却在努力解决。

钟面 36 个时钟 180 个问题 720 人类准确度 90。

6 % 阅读论文排行榜排名模型准确度实验室人类基线 90。

6% OpenAI 2 Qwen 3-VL 235B Instruct 39。

4% 阿里巴巴 3 Gemini 3。

9% Google 6 GPT-5。

来源：HackerNews New

关于作者

See author's post

上一篇

下一篇

发表回复取消回复

关于我们

观澜Media

AI技术 · 深度资讯 · 前沿观察。专注科技、AI、互联网领域的深度报道与前沿资讯。

最新资讯

互联网

复古演示场景图形的奇怪案例

2026-03-30
AI

人工智能和机器人已经正式接管互联网

2026-03-30
AI

我绝对怀念前人工智能写作时代

2026-03-30
AI

Hamilton-Jacobi-Bellman 方程：强化学习和扩散模型

2026-03-30
AI

一点对饺子的迷思｜机事本3.21-3.27

2026-03-30

关注我们

分类

标签

搜索归档

Access over the years of investigative journalism and breaking reports

你可能错过了

互联网

我的 MacBook 键盘坏了，修理费用高得离谱

观澜Media

2026-03-30
国际

从佐治亚州出发的午夜火车：从铁轨上看美国机场的困境

观澜Media

2026-03-30
科技

向游客介绍法国的路标

观澜Media

2026-03-30
互联网

编码代理可以让自由软件再次变得重要

观澜Media

2026-03-30
社会

费城法院将从下周开始禁止所有智能眼镜

观澜Media

2026-03-30
互联网

VHDL’s Crown Jewel

观澜Media

2026-03-30