
和会物理知识的大型视频讲话模子PhysVLM欧洲杯体育,开源了!
它不仅在 PhysGame 基准上展现出最先进的性能,还在通用视频领路基准上(Video-MME, VCG)推崇出跳动的性能。
在这项征询之前,念念让 AI 像东谈主类儿童雷同,通过不雅察天下领路基本的物理学问,是一个主要挑战。

关于现实天下的视频来说,全面狡饰和讲明所有泛泛的物理气候既清贫又无谓要。
比拟之下,游戏视频(gameplay videos)频繁包含违犯物理学问的"故障气候"(glitches),这有助于简化物理学问领路的界说和评估,即专注于讲明物理学问的违犯气候,而不是试图列举所有存在的泛泛物理气候。
为此,PhysVLM 在挑升整理的一套数据集上正经,包括用于评估的 PhysGame benchmark、用于监督微调的 PhysInstruct 数据集和用于偏好对皆的 PhysDPO 数据集。
PhysGame benchmark 野心
如图所示, PhysGame包含 880 个含有故障气候的游戏视频,每个视频都配有一个高质地的多项选拔题,挑升针对故障气候的性质进行标注。

△PhysGame 类别分散
PhysGame 涵盖了四个关节的物理限制(即力学、畅通学、光学和材料属性),并细分为 12 个具体类别(如重力和速率)。
力学(Mechanics):该类别触及力与力矩偏执对畅通的影响,提供了讲明和分析视频中物体畅通的基础旨趣。典型案例包括重力、弹性和摩擦力。
畅通学(Kinematics):该限制征询不筹商力的情况下的畅通,触及精湛分类,如随时辰变化的速率和加快度。
光学(Optics):该限制情切光的行径与特色偏执与物资的互相作用,包括反射、折射以及经受与透射。
材料属性(Material properties):该限制指的是物资固有的特色,包括神采、刚性、物体时事以及东谈主体姿态。
PhysGame benchmark 构建
视频荟萃和过滤 :
PhysGame 中的视频主要从 Reddit 页面捏取,该页面包含带有绝顶事件和故障气候的游戏视频。为了均衡不同的类别,团队还通过关节词搜索从 YouTube 增强视频数据。团队凭据以下两项法度进行东谈主工筛查:
选项生成 :
本文以多项选拔题的时事创建问答对。具体来说,正确选项形色了视频中违犯物理学问原则的特定故障气候。为了增强干预选项的简直度,本文条目干预选项中的故障气候应与视频中不雅察到的个体或动作高度联系,这使视频 LLM 领路故障现实,而不单是通过识别包含的物体或动作来选拔谜底。
质地铁心 :
为了保证数据集的质地,本文进行了一项包括东谈主工查验和自动 LLM 援助查验在内的双重质地铁心过程:
东谈主工查验:所有初步标注的问答对都经过不同东谈主工标注东谈主员的严格交叉查验。关于正确选项,查验东谈主员必须评估它们是否全面准确地形色了所有存在的物理学问违犯实例。关于干预选项,查验东谈主员需评估它们是否实足具有迷惑性;
LLM 援助查验 : 团队去除那些仅凭问题和选项,不需要搜检视频就能由 GPT-4o 正确回答的问答对。

△PhysGame 示例 PhysInstruct&PhysDPO 数据集构建
PhysInstruct:
为了晋升视频 LLM 的物理学问领路才能,团队诞生了 PhysInstruct 数据集用于监督微调。视频荟萃过程与 PhysGame 中的过程疏导。为了细心数据显露,团队严格排斥任何已包含在 PhysGame 中的视频。团队征服 Self-instruct 范式通过提醒 GPT-4o 来构建 PhysInstruct。
PhysDPO:
团队构建了偏好对皆数据集 PhysDPO,以提供更简直和可靠的回答。如图 3 所示,团队将 PhysInstruct 数据汇聚生成的谜底视为 preferred 回答,而 dis-preferred 回答则通过元信息批改(meta-information hacking)、时辰批改(temporal hacking)和空间批改(spatial hacking)生成。团队用误导性的元信息以及减少帧数和裁汰帧分辨率的视频帧来提醒 GPT-4o。
以下是 PhysDPO 数据集构建过程图:

模子评估与分析
PhysGame benchmark 实验后果 :
在所有额外模子中,GPT-4o 和 Gemini-1.5-pro 推崇最好,差别达到了 56.1% 和 55.2% 的平均准确率。在所有细分限制中,GPT-4o 在摩擦和加快度方面推崇优胜。比拟之下,Gemini-1.5-pro 在领路与重力、弹性、反射、经受与透射、神采和刚性联系的物理学问方面推崇更强。
现存的开源模子远远过时于额外模子。即等于推崇最好的开源模子 LLaVA-OneVision,其平均准确率仅为 47.7%。比拟之下,本文提倡的 PhysVLM 在所有额外和开源模子中都达到了最先进的性能。与开源要领比拟,本文的 PhysVLM 在 12 个评估限制中的 6 个限制达到了最高性能。值得留意的是,PhysVLM-DPO 在平均准确率这一观点上比最好推崇的额外模子 GPT-4o 超出了 3.4%。

△PhysGame benchmark 实验后果
Video-MME benchmark 实验后果 :
本文的 PhysVLM 模子在所有 7B 模子中推崇优胜。令东谈主惊诧的是,当作 7B 模子,PhysVLM-SFT 和 PhysVLM-DPO 在举座推崇上差别比 34B 模子 LLaVA-NeXT-Video 提高了 3.2% 和 3.8% 的完全值。通过比较 PhysVLM-SFT 和 PhysVLM-DPO,团队发现,使用所提倡的 PhysDPO 数据进行 DPO 正经在短视频和长视频上的推崇都有所晋升,而在中等长度的视频上的推崇略有下落。

△Video-MME benchmark 实验后果
VCG benchmark 实验后果 :
在仅使用 SFT 的模子中,本文的 PhysVLM-SFT 在平均得分方面推崇最好。在四个子类别的评估中,PhysVLM-SFT 在信息正确性和一致性类别上推崇尤为出色。与使用 DPO 或 PPO 正经的 PPLLaVA 和 LLaVA-Next-Video 比拟,本文的 PhysVLM-DPO 也展现出不凡的性能,进一步考证了所提倡的 PhysVLM 模子在通用视频领路中的出色才能。

△VCG benchmark 实验后果
PhysVLM 联系论文、代码、数据均已开源 :
pre-prints: https://arxiv.org/abs/2412.01800
代码相连 : https://github.com/PhysGame/PhysGame
leaderboard: https://physgame.github.io/#leaderboard
— 完 —
投稿请发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿现实
附上论文 / 样式主页相连,以及有计划样式哦
咱们会(尽量)实时复兴你

点这里� � 情切我,谨记标星哦~
一键三连「共享」、「点赞」和「在看」
科技前沿进展日日再会 ~
XINWEN
o1 满血版此次不搞灰度了体育游戏app平台,发布仅 4 个小时后,已推送给悉数(付费)用户! 手快的网友还是耍起来了~ 不外此次推出了更高档的 Pro 模式,每月 200 好意思元的订价也的确让东谈主楚楚喜欢。 Pro 模式和郑再版 o1 究竟有啥分别,快要 1500 元的价钱到底值不值? 好多好心东谈主还是交钱帮宇宙测了。 若是让它完成一个数独,足足能想考5 分 30 秒。 AI 在想考经由中依然会犯好多造作,但此次分别在于它有了自我转换的才调,直到得出正确谜底为止。 花了这样多钱,那对它
和会物理知识的大型视频讲话模子PhysVLM欧洲杯体育,开源了! 它不仅在 PhysGame 基准上展现出最先进的性能,还在通用视频领路基准上(Video-MME, VCG)推崇出跳动的性能。 在这项征询之前,念念让 AI 像东谈主类儿童雷同,通过不雅察天下领路基本的物理学问,是一个主要挑战。 关于现实天下的视频来说,全面狡饰和讲明所有泛泛的物理气候既清贫又无谓要。 比拟之下,游戏视频(gameplay videos)频繁包含违犯物理学问的"故障气候"(glitches),这有助于简化物理学问
荒凉开云体育,简直荒凉。 一场近 2 小时的举止,CTO 尽然全程莫得发布任何新品! 这便是亚马逊云科技的 CTO ——Werner Vogels,刚刚在自家年度盛宴re:Invent24演出的一幕。 但有一说一,即便如斯,诺大的现场,险些无东谈主离席。 为什么? 因为比起新址品,Werner 终点于是把他入职亚马逊20 年背后更珍稀的履历给公开出来了。 而且剑指生成式 AI,统统六大 Lesson: Lesson1:有恃毋恐Make evolvability a requirement. L
5日交代部发言东谈主林剑主合手例行记者会,针对赖清德与好意思国国会众议长约翰逊通话,林剑暗意,近日,中方已屡次就好意思方订立安排赖清德“过境”和好意思台官方往复标明严正态度。我要再次强调,台湾问题是中国中枢利益中的中枢,是中好意思探讨第一条不行朝上的红线。咱们敦促好意思方认清“台独”阔别动作对台海和平踏实的严重危害,切实信守一个中国原则和中好意思三个王人集公报,已毕好意思国带领东谈主不赞助“台独”等应许,住手干预中国内务,住手向“台独”阔别势力发出无理信号。中方将接管坚决有劲要领,坚忍捍卫国度
中新网北京12月5日电 北京市鼓励世界文化中心开发指挥小组近日出台《对于汲引新式文化业态 淘气发展文化新质坐褥力的多少秩序》(简称“多少秩序”)。按照该秩序的野心,北京市过程5年驾御的勤快,文化和科技会通的灵验机制基本酿成开云体育,科技创新带动文化产业创新才智彰着增强。 多少秩序涵盖十个方面。在促进文化范围时间创新和效果调治方面,积极鼓励东说念主工智能、区块链、大数据等新一代信息时间、数字时间赋能文化新场景新业态。支执文化科技企业享受科技创新相干扶执战术,推动大型文化科技企业牵头加强产学研深度