
和会物理知识的大型视频讲话模子PhysVLM欧洲杯体育,开源了!
它不仅在 PhysGame 基准上展现出最先进的性能,还在通用视频领路基准上(Video-MME, VCG)推崇出跳动的性能。
在这项征询之前,念念让 AI 像东谈主类儿童雷同,通过不雅察天下领路基本的物理学问,是一个主要挑战。

关于现实天下的视频来说,全面狡饰和讲明所有泛泛的物理气候既清贫又无谓要。
比拟之下,游戏视频(gameplay videos)频繁包含违犯物理学问的"故障气候"(glitches),这有助于简化物理学问领路的界说和评估,即专注于讲明物理学问的违犯气候,而不是试图列举所有存在的泛泛物理气候。
为此,PhysVLM 在挑升整理的一套数据集上正经,包括用于评估的 PhysGame benchmark、用于监督微调的 PhysInstruct 数据集和用于偏好对皆的 PhysDPO 数据集。
PhysGame benchmark 野心
如图所示, PhysGame包含 880 个含有故障气候的游戏视频,每个视频都配有一个高质地的多项选拔题,挑升针对故障气候的性质进行标注。

△PhysGame 类别分散
PhysGame 涵盖了四个关节的物理限制(即力学、畅通学、光学和材料属性),并细分为 12 个具体类别(如重力和速率)。
力学(Mechanics):该类别触及力与力矩偏执对畅通的影响,提供了讲明和分析视频中物体畅通的基础旨趣。典型案例包括重力、弹性和摩擦力。
畅通学(Kinematics):该限制征询不筹商力的情况下的畅通,触及精湛分类,如随时辰变化的速率和加快度。
光学(Optics):该限制情切光的行径与特色偏执与物资的互相作用,包括反射、折射以及经受与透射。
材料属性(Material properties):该限制指的是物资固有的特色,包括神采、刚性、物体时事以及东谈主体姿态。
PhysGame benchmark 构建
视频荟萃和过滤 :
PhysGame 中的视频主要从 Reddit 页面捏取,该页面包含带有绝顶事件和故障气候的游戏视频。为了均衡不同的类别,团队还通过关节词搜索从 YouTube 增强视频数据。团队凭据以下两项法度进行东谈主工筛查:
选项生成 :
本文以多项选拔题的时事创建问答对。具体来说,正确选项形色了视频中违犯物理学问原则的特定故障气候。为了增强干预选项的简直度,本文条目干预选项中的故障气候应与视频中不雅察到的个体或动作高度联系,这使视频 LLM 领路故障现实,而不单是通过识别包含的物体或动作来选拔谜底。
质地铁心 :
为了保证数据集的质地,本文进行了一项包括东谈主工查验和自动 LLM 援助查验在内的双重质地铁心过程:
东谈主工查验:所有初步标注的问答对都经过不同东谈主工标注东谈主员的严格交叉查验。关于正确选项,查验东谈主员必须评估它们是否全面准确地形色了所有存在的物理学问违犯实例。关于干预选项,查验东谈主员需评估它们是否实足具有迷惑性;
LLM 援助查验 : 团队去除那些仅凭问题和选项,不需要搜检视频就能由 GPT-4o 正确回答的问答对。

△PhysGame 示例 PhysInstruct&PhysDPO 数据集构建
PhysInstruct:
为了晋升视频 LLM 的物理学问领路才能,团队诞生了 PhysInstruct 数据集用于监督微调。视频荟萃过程与 PhysGame 中的过程疏导。为了细心数据显露,团队严格排斥任何已包含在 PhysGame 中的视频。团队征服 Self-instruct 范式通过提醒 GPT-4o 来构建 PhysInstruct。
PhysDPO:
团队构建了偏好对皆数据集 PhysDPO,以提供更简直和可靠的回答。如图 3 所示,团队将 PhysInstruct 数据汇聚生成的谜底视为 preferred 回答,而 dis-preferred 回答则通过元信息批改(meta-information hacking)、时辰批改(temporal hacking)和空间批改(spatial hacking)生成。团队用误导性的元信息以及减少帧数和裁汰帧分辨率的视频帧来提醒 GPT-4o。
以下是 PhysDPO 数据集构建过程图:

模子评估与分析
PhysGame benchmark 实验后果 :
在所有额外模子中,GPT-4o 和 Gemini-1.5-pro 推崇最好,差别达到了 56.1% 和 55.2% 的平均准确率。在所有细分限制中,GPT-4o 在摩擦和加快度方面推崇优胜。比拟之下,Gemini-1.5-pro 在领路与重力、弹性、反射、经受与透射、神采和刚性联系的物理学问方面推崇更强。
现存的开源模子远远过时于额外模子。即等于推崇最好的开源模子 LLaVA-OneVision,其平均准确率仅为 47.7%。比拟之下,本文提倡的 PhysVLM 在所有额外和开源模子中都达到了最先进的性能。与开源要领比拟,本文的 PhysVLM 在 12 个评估限制中的 6 个限制达到了最高性能。值得留意的是,PhysVLM-DPO 在平均准确率这一观点上比最好推崇的额外模子 GPT-4o 超出了 3.4%。

△PhysGame benchmark 实验后果
Video-MME benchmark 实验后果 :
本文的 PhysVLM 模子在所有 7B 模子中推崇优胜。令东谈主惊诧的是,当作 7B 模子,PhysVLM-SFT 和 PhysVLM-DPO 在举座推崇上差别比 34B 模子 LLaVA-NeXT-Video 提高了 3.2% 和 3.8% 的完全值。通过比较 PhysVLM-SFT 和 PhysVLM-DPO,团队发现,使用所提倡的 PhysDPO 数据进行 DPO 正经在短视频和长视频上的推崇都有所晋升,而在中等长度的视频上的推崇略有下落。

△Video-MME benchmark 实验后果
VCG benchmark 实验后果 :
在仅使用 SFT 的模子中,本文的 PhysVLM-SFT 在平均得分方面推崇最好。在四个子类别的评估中,PhysVLM-SFT 在信息正确性和一致性类别上推崇尤为出色。与使用 DPO 或 PPO 正经的 PPLLaVA 和 LLaVA-Next-Video 比拟,本文的 PhysVLM-DPO 也展现出不凡的性能,进一步考证了所提倡的 PhysVLM 模子在通用视频领路中的出色才能。

△VCG benchmark 实验后果
PhysVLM 联系论文、代码、数据均已开源 :
pre-prints: https://arxiv.org/abs/2412.01800
代码相连 : https://github.com/PhysGame/PhysGame
leaderboard: https://physgame.github.io/#leaderboard
— 完 —
投稿请发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿现实
附上论文 / 样式主页相连,以及有计划样式哦
咱们会(尽量)实时复兴你

点这里� � 情切我,谨记标星哦~
一键三连「共享」、「点赞」和「在看」
科技前沿进展日日再会 ~
XINWEN
证券时报网讯,大和发布的洽商叙述指出,自2024年以来开yun体育网,携程的国外平台Trip.com商场份额握续增长,瞻望中国的新免签证计策将进一步促参加境旅游业务的发展。叙述预测,携程的入境旅游收入在2025年将翻倍,大和将携程列为首选股票之一,并重申“买入”评级,将缱绻价从675港元上调至780港元。
上证报中国证券网讯(记者严晓菲)1月8日白昼盘,国内商品期货主力合约涨跌互现,其华夏油主力合约推崇强盛。 为止15:00收盘,原油、沪镍、沪锡等涨超1%,燃油、原木、甲醇等微涨。跌幅方面,焦煤、玻璃、氧化铝跌超3%,焦炭、苹果、菜粕等跌超2%,纯碱、碳酸锂、线材等跌超1%,工业硅、豆粕、铁矿石等微跌。 星河期货默示,总体上看,部分产油国原油供应结构性收紧,原油淡季累库压力不大,好意思国的风凉天气刺激了对取暖燃料的需求。原油市集可能在OPEC增产之前总体以颤动偏强为主。 大越期货称欧洲杯体育,隔
北京时辰1月7日晚间,好意思股三大指数集体高开。其中,英伟达开盘涨超2%,股价再创历史新高。关连词好景不常,随后英伟达股价开动速即走低,最终收跌超6%。遗弃收盘,英伟达股价着落6.22%,报140.14好意思元,最新总市值为3.43万亿好意思元。 近日,英伟达CEO黄仁勋在拉斯维加斯举办的CES2025展会上告示了一系列短处的时刻变调,包括新的RTX50系列GPU、AI超等规划机、下一代汽车智能驾驶芯片Thor以及新推出的Cosmos天下基础模子等。黄仁勋在演讲中提到,“Ge Force让AI
市集 最高价 最廉价 大批价 岷县当归城中药材来去市集 80.00 75.00 77.50 寰球当归(大条)批发价钱行情走势分析 从本日寰球当归(大条)批发市集价钱上来看,当日最高报价80.00元/公斤,最低报价75.00元/公斤,出入5.00元/公斤。 数据起原:农业农村部信息中心开云体育(中国)官方网站
商场 最高价 最廉价 巨额价 岷县当归城中药材走动商场 63.00 57.00 60.00 寰宇当归(小条)批发价钱行情走势分析体育游戏app平台 从本日寰宇当归(小条)批发商场价钱上来看,当日最高报价63.00元/公斤,最低报价57.00元/公斤,出入6.00元/公斤。 数据着手:农业农村部信息中心体育游戏app平台