视觉推理基准 Clock Bench ClockBench 评估模型是否可以读取模拟时钟——这项任务对人类来说是微不足道的,但当前的前沿模型却在努力解决。
钟面 36 个时钟 180 个问题 720 人类准确度 90。
6 % 阅读论文 排行榜排名 模型准确度实验室人类基线 90。
6% OpenAI 2 Qwen 3-VL 235B Instruct 39。
4% 阿里巴巴 3 Gemini 3。
9% Google 6 GPT-5。
来源:HackerNews New

AI技术 · 深度资讯 · 前沿观察
视觉推理基准 Clock Bench ClockBench 评估模型是否可以读取模拟时钟——这项任务对人类来说是微不足道的,但当前的前沿模型却在努力解决。
钟面 36 个时钟 180 个问题 720 人类准确度 90。
6 % 阅读论文 排行榜排名 模型准确度实验室人类基线 90。
6% OpenAI 2 Qwen 3-VL 235B Instruct 39。
4% 阿里巴巴 3 Gemini 3。
9% Google 6 GPT-5。
来源:HackerNews New
上一篇
下一篇
AI技术 · 深度资讯 · 前沿观察。专注科技、AI、互联网领域的深度报道与前沿资讯。
Access over the years of investigative journalism and breaking reports