方才ICCV最佳论文出炉朱俊彦团队用砖块积木摘得-U乐国际官网登录入口

方才ICCV最佳论文出炉朱俊彦团队用砖块积木摘得

　　具体而言，RayZer 可以或许处置来自未标定相机、位姿未知的图像调集，并从中恢复相机参数、沉建场景的 3D 暗示，以及合成全新的视角。其立异之处正在于，模子正在锻炼过程中完全依赖预测的相机位姿来衬着方针视图进行进修，从而脱节了对实正在位姿标注的依赖，仅需 2D 图像即可完成锻炼。

　　这条间接径实现了更低的传输成本，这意味着正在编纂过程中可以或许最大程度地保留原始图像的布局和内容，从而实现更高保实度的编纂。

　　将该论文方式取多种基线模子进行对比评估，评价目标包罗：无效性（validity）：能否存正在超出积木库、越界或彼此碰撞的积木；不变性（stability）；基于 CLIP 的文本类似度以及基于 DINOv2 的图像类似度。此中，不变性、CLIP 类似度和 DINO 类似度的计较仅针对无效布局进行。对于 LLaMA-Mesh ，无效性要求其生成的 OBJ 文件格局准确。

　　该项是计较机视觉范畴极具荣誉的「终身成绩」之一，特地用于表扬那些不只正在其研究生活生计中取得严沉，并且其正在学术界取 / 或工业界都具有持续影响、鞭策整个范畴成长的研究者，颁给了 Rama Chellappa。

　　朱俊彦，大学校友，卡耐基梅隆大学计较机科学学院帮理传授，前 Adobe 研究科学家。次要研究标的目的是计较机视觉、图形学、计较摄影和生成模子。

　　该项旨正在表扬那些其研究贡献「显著地鞭策了计较机视觉范畴进展」的研究人员，颁给了 David Forsyth 和 Michal lrani。

　　来自卡耐基梅隆大学（CMU）的研究获得了最佳论文，以色列理工学院（Technion）的研究获得最佳学生论文。

　　尝试成果表白，该论文的方式正在采用采样（rejection sampling）取回滚机制（rollback）后，正在无效性取不变性上全面优于所有基线模子及其消融设置？。

　　FlowEdit 立异地绕开了「图像 → 噪声 → 编纂后图像」的保守径。它通过建立一个常微分方程（ODE），间接正在源图像分布（由源提醒词定义）取方针图像分布（由方针提醒词定义）之间成立了一条间接映照径。

　　研究团队正在 Stable Diffusion 3 和 FLUX 这两个先辈的 T2I 流模子上对 FlowEdit 进行了普遍的尝试验证。成果表白，该方式正在各类复杂的编纂使命中均取得了 SOTA 结果，证了然其高效性和优胜性。

　　一篇是 Ross Girshick 的《Fast R-CNN》，该论文提出了一种用于方针检测的快速区域卷积收集 (Fast R-CNN)。该方式正在前人研究根本上，操纵深度卷积收集高效分类候域，并通过多项立异显著提拔了锻炼、测试速度和检测精度。

　　尝试成果表白，RayZer 正在新视角合成使命上的表示，取那些正在锻炼和测试中都依赖切确位姿标注的「神谕」方式比拟，机能相当以至更优，充实证了然该方式的无效性和潜力。

　　本研究切磋了这种具备空间选择性聚焦能力（spatially-selective focusing）的计较镜头的设想取实现。研究者采用了一种由 Lohmann 镜头取仅相位空间光调制器（phase-only SLM）构成的光学布局，使得每个像素都能聚焦正在分歧的深度平面上。正在此根本上，我们将典范的从动对焦方式扩展到空间可变聚焦场景中，通过对比度取视差线索迭代估量深度图，从而使相机可以或许逐渐调整景深外形以婚配场景深度分布。

　　随后，研究者们建立了一个指令数据集，将积木序列取响应的文本描述配对，用于对 LLaMA-3。2-Instruct-1B 进行微调。

　　一个是人体 3D 模子 SMPL 的团队。SMPL 是一种由人体扫描数据锻炼的三维可变形人体模子，它以参数化体例精准暗示人体姿势取外形，被普遍使用于动画、虚拟人、动做捕获、AR/VR 及生成式 AI 中，对计较机视觉取数字人范畴的前进具有里程碑式影响。

　　为实现这一方针，研究团队建立了一个大规模、物理不变的积木布局数据集，随后，研究团队锻炼了一个自回归大型言语模子，通过「预测下一个 token」的体例来预测应添加的下一块积木。

　　研究人员提出了一个名为RayZer的自监视多视图 3D 视觉模子。该模子最焦点的特点是，它正在锻炼时无需任何 3D 监视消息（如相机位姿或场景几何），便能进修并展示出出现的 3D 能力。

　　起首，系统将一个积木布局离散化为一串文本 token 序列，按自下而上、逐行扫描（raster-scan）的挨次陈列。

　　Michal Irani 是出名计较机视觉学者，她开创了「图像内部自类似性」取「空间 - 时间视频外形」研究范式，通过无监视或单样本方决超分辩、盲去恍惚、视频布局阐发等焦点问题，从而丰硕了视觉揣度取进修的理论根本。

　　ICCV 是全球计较机视觉三大顶会之一，每两年举办一次，本年的会议正在美国夏威夷举行。数据显示，本年大会共收到了 11239 份无效，法式委员会保举录用 2699 篇论文，最终录用率为 24%，比拟上一届论文数量又有大幅增加。

　　正在完成全体设想后，研究者们会对其物理不变性进行验证。若检测到布局不不变，系统会回滚至比来的不变形态，即删除所有不不变的积木及其后续部门，并从该继续生成。

　　另一个是 VQA 数据集团队。VQA 数据集是一种将图像理解取天然言语问答连系的大规模基准数据集，它鞭策了多模态 AI 正在视觉理解、言语推理和跨模态语义对齐等标的目的的研究取冲破。

　　尝试成果表白，BrickGPT 可以或许生成不变、多样且美妙的积木布局，而且取输入的文本提醒高度契合。我们还开辟了一种基于文本的积木贴图方式，用于生成带有颜色和纹理的设想。

　　此外，这些设想既能够由人类手动拆卸，也能够由机械臂从动拆卸。同时，研究者公开了新的数据集 StableText2Brick，跨越 28，000 个奇特的三维对象及其细致描述文本。

　　为了提高生成设想的不变性，研究者正在自回归推理过程中引入了高效的无效性查抄（validity check）和基于物理束缚的回滚机制（physics-aware rollback），操纵物理定律取拆卸束缚来剪枝不成行的 token 预测。

　　David Forsyth 是计较机视觉范畴的领甲士物，他晚期提出颜色恒常性方式、外形变化不变丈量，并鞭策人体动做识别取逃踪手艺的成长，从而正在物体识别、动做阐发取图像–言语交叉研究方面发生了深远影响。

　　成果展现取基线对比。生成高质量、多样化且具有新鲜性的积木布局。此中，黑色积木暗示发生碰撞的部门。

　　这篇论文提出了BrickGPT，是首个可以或许按照文本提醒生成物理不变的彼此毗连的积木拆卸模子的方式。

　　保守镜头只能正在单一平面上成像清晰；因而，位于该焦平面之外的场景部门会因离焦而恍惚。那么，可否打破这一成像纪律，建立一种可以或许肆意调整景深的「镜头」？

　　研究者指出，利用预锻炼的文本到图像（T2I）扩散或流模子编纂实正在图像时，凡是需要将图像「反演」为其对应的噪声图。然而，零丁的反演往往无法很好地保留原图的布局取细节，因而很多现无方正在采样过程中额外进行干涉。虽然这些方式提拔告终果，但却无法正在分歧模子架构之间无缝迁徙。

机械资讯

新闻中心

热门关键词

联系我们

方才ICCV最佳论文出炉朱俊彦团队用砖块积木摘得

发布日期：2026-01-31 13:23 作者：U乐国际官网登录点击：

本文网址：http://www.dghaoyi.com/jixiezixun/868.html

相关标签：

最近浏览：

相关产品：

相关新闻：

首页

产品

新闻