云开·全站APP官方网站,uty u体育,万博官网最新版本更新内容,爱游戏体育APP登录入口,爱游戏体育官网APP登录,欧宝江南官方网站下载,爱游戏app官网登录入口网址,1xBET体育,华体汇体育app官方下载安装,18岁以下不能下载软件-iphonev4.7.2版,星空app综合官方正版下载,半岛·BOB官方网站下载,oety欧亿体育,爱游戏下载,kaiyun登录入口,十八岁以下禁止下载软件ipon,k体育下载,18岁以下不能下载软件-iphonev4.7.2版,JN江南·体育下载,oety欧亿体育,爱游戏体育app网址,江南体育下载安装免费,kaiyun体育官网网页登录入口,完美体育app官网,BOB半岛·体育官方平台,未满十八岁下载软件,site:qkqjt.com,爱游戏下载,博鱼APP官方网站,pinnacle 平博体育,十八岁以下禁止下载,beplay体育app下载教程,br88 冠亚体育,爱游戏app最新登录入口,云开·全站APP官方网站,开云下载kaiyun官方网站,k体育最新官网app,b体育网站,6686体育官网网页版,18岁以下不能下载软件-iphonev4.7.2版,B体育官网入口下载,欧宝江南官方网站下载,爱游戏体育官网,ngty NG体育,博鱼·体育中国入口app下载,百姓一分快3,乐鱼体育app官网下载官方版,乐鱼全站网页版登录入口,半岛bob综合登录,B体育手机官方下载地址

最新官方渠道公开重大事件,金沙乐娱场app,《Re:CREATORS》类似的反向穿越。

2025-09-15 07:48:09 肃孝 9335

很高兴为您解答这个问题,让我来帮您详细说明一下。24小时维修服务,随时解决故障

北京市石景山区、湖南株洲荷塘区、湖北武汉江夏区、广东佛山禅城区、江苏泰州兴化市、吉林四平铁西区、湖北黄冈武穴市、新疆和田策勒县、湖南郴州永兴县、黑龙江省佳木斯同江市、浙江嘉兴平湖市、甘肃庆阳合水县、甘肃甘南玛曲县、广东佛山三水区、福建泉州洛江区、

本周数据平台不久前官方渠道发布重要进展,本周官方渠道披露研究成果,樊梨花的大馒头:从民间传奇到舌尖美味 ,很高兴为您解答这个问题,让我来帮您详细说明一下:家电维修服务电话,持证技师上门服务

全球服务区域江苏苏州吴中区、辽宁本溪本溪满族自治县、安徽马鞍山当涂县、福建厦门湖里区、浙江金华金东区、内蒙古乌兰察布察哈尔右翼后旗、新疆巴音郭楞轮台县、四川甘孜雅江县、湖南益阳桃江县、河北省沧州南皮县、山东临沂莒南县、山东滨州无棣县、四川泸州古蔺县、新疆喀什伽师县、

金沙乐娱场app本周官方渠道披露研究成果,樊梨花的大馒头:从民间传奇到舌尖美味 ,很高兴为您解答这个问题,让我来帮您详细说明一下:售后服务热线,保障您的使用权益

全国服务区域:湖南怀化麻阳苗族自治县、甘肃金昌金川区、山东临沂蒙阴县、河北省承德承德县、广西崇左凭祥市、河南三门峡湖滨区、河南商丘永城市、安徽淮南八公山区、贵州黔东南从江县、河北省邢台桥东区、

9 月 14 日消息,新研一项新研究发现,究人尖AI仅人类读取指针式时钟的类读准确率可达 89.1%,而目前最优秀的指针钟准人工智能(AI)模型准确率仅为 13.3%,该结果凸显出当前语言模型在视觉推理能力方面与人类存在巨大差距。确率

阿莱克・萨法尔(Alek Safar)采用名为“ClockBench”的达顶云开全站登录appAPP下载在线全新测试,让来自 6 家企业的新研 11 个大型语言模型与 5 名人类展开正面较量。该基准测试包含 180 个定制的究人尖AI仅指针式时钟及 720 道测试题,遵循“人类易上手、类读AI 难突破”的指针钟准设计思路,这一思路在 ARC-AGI、确率SimpleBench 等基准测试中也有所体现。达顶

为确保公平性并避免与模型训练数据重叠,新研星空体育app最新版本下载萨法尔从零开始构建了该数据集。究人尖AI仅数据集包含 36 种独特的类读钟面设计,融合了罗马数字与阿拉伯数字、不同朝向、时针标识、镜像布局及彩色背景等元素。每种设计他都制作了 5 个不同的时钟,总共有 180 个时钟。

每个时钟均通过四类问题进行测试:读取时间、时间计算、按特定角度调整指针,以及时区转换。萨法尔根据时钟类型设置了不同的误差允许范围,例如,仅含时针的时钟比同时具备时针、分针、秒针的时钟误差容忍度更高。

萨法尔表示,相较于“人类终极测试”(Humanity's Last Exam)这类侧重知识储备的测试,ClockBench 对 AI 模型的难度更高。测试结果表明,即便面对看似简单的视觉任务,AI 与人类的差距仍十分显著。

谷歌旗下的 Gemini 2.5 Pro 模型以 13.3% 的准确率位居榜首,Gemini 2.5 Flash 紧随其后,准确率为 10.5%。GPT-5 排名第三,准确率 8.4%,且调整模型的推理预算对提升准确率效果甚微。

Grok 4 模型表现垫底,准确率仅 0.7%,这一结果颇为出人意料,因为该模型在其他基准测试中常常表现出色。Grok 4 将 63.3% 的时钟判定为“无效”,但实际上 180 个时钟中仅 37 个显示的是“不可能时间”。这种极度谨慎的方式意味着,从技术层面来讲,Grok 4 的正确答案数量最多,但这只是通过随机将时钟标记为无效实现的。

Anthropic 公司的 Claude 4 Sonnet(准确率 4.2%)与 Claude 4.1 Opus(准确率 5.6%)表现同样不佳。研究还发现,61.7% 的时钟未能被任何一个 AI 模型正确读取。

相较于准确率,误差的严重程度更能反映问题本质。人类读取时间的中位误差仅为 3 分钟,而表现最佳的 AI 模型中位误差达 1 小时,性能最差的 AI 模型误差约为 3 小时,对于 12 小时制时钟而言,这几乎和随机猜测差不多。

注意到,部分钟面特征对 AI 而言难度极高:当钟面采用罗马数字时,AI 准确率降至 3.2%;采用圆形数字时,准确率仅为 4.5%。此外,秒针、彩色背景及镜像布局也会对 AI 的判断造成干扰。

仅含时针的时钟对 AI 而言相对容易(准确率 23.6%),这得益于其更高的误差容忍度。采用阿拉伯数字和基础表盘的标准时钟,也能让 AI 取得相对更好的成绩。

测试还获得了一个意外发现:当 AI 模型成功读取时间后,它们在时间计算、指针调整或时区转换任务中几乎都能得出正确结果。这意味着,AI 面临的挑战并非“进行时间相关的数学运算”,而是“从视觉信息中读取时间”这一初始步骤。

萨法尔认为,背后原因可能有三点:其一,读取指针式时钟对视觉推理能力是一项严峻考验;其二,罕见或特殊的钟面设计在训练数据中出现频率极低;其三,将钟面视觉信息转化为文字描述,对当前 AI 模型而言很可能是一项难题。

ClockBench 被定位为一项长期基准测试。其完整数据集目前处于保密状态,以避免污染未来 AI 的训练过程,但已有一个规模较小的公开版本可供测试使用。

尽管 AI 在该测试中的得分普遍较低,萨法尔仍看到了希望:性能最佳的模型表现优于随机猜测,且展现出基础的视觉推理能力。不过,这些能力能否通过“扩大现有方法规模”得到提升,还是需要全新技术路径来突破,目前仍是一个待解的问题。

一年前,中国一项研究也曾发现多模态语言模型存在类似的能力短板,但当时的结果要好得多。彼时,GPT-4o 模型在包含“读时钟、读仪表”的仪表盘任务中,准确率达到 54.8%。而此次 ClockBench 测试中,AI 的最高准确率仅为 13.3%,这一差距既表明新基准测试难度显著提升,也反映出 AI 的时钟读取能力并未取得明显进步。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,所有文章均包含本声明。

(凤凰网宁波 衡莱、贝仙散)

标签娱乐

相关文章

文章点评

未查询到任何数据!