NVIDIA Research 在 CVPR 2024 展示视觉生成式 AI 重大突破

NVIDIA 研究人员在快速发展的视觉生成式 AI 领域处于领先地位，正在开发用于创建和解读图像、视频与 3D 环境的新技术。NVIDIA 在西雅图举办的国际计算机视觉与模式识别会议(CVPR)上展示了 50 多个研究项目成果，其中两篇论文（关于扩散模型训练动态和自动驾驶汽车高清地图）入围最佳论文奖。此外，NVIDIA 在 CVPR 自动驾驶挑战赛中获得大规模端到端驾驶类别第一名，并获得创新奖。

此次展示的研究成果包括：一种可轻松定制的文本转图像模型、新的物体姿态估计模型、神经辐射场（NeRF）编辑技术以及能够理解流行语的视觉语言模型。这些研究成果不仅帮助创作者更快实现艺术构想，还加快了制造业自主机器人的训练速度，并为医疗专业人员提供支持。

在 CVPR 上，NVIDIA 发布了 NVIDIA Omniverse Cloud Sensor RTX，这套微服务能够实现物理级精确传感器仿真，从而加速各类自主机器的开发。JeDi 扩散模型无需微调即可定制图像输出结果，大大简化了创作者的工作流程。而 FoundationPose 则提供了无需微调即可应用于新物体的姿态估计和跟踪技术，适用于工业和增强现实应用。

NeRFDeformer 是另一项亮点技术，利用单张 RGB-D 图像成功转换现有的 NeRF，实现 3D 场景渲染的简化操作。NVIDIA 与 MIT 联合开发的 VILA 视觉语言模型在处理图像和文本生成方面表现出色，支持多图像间推理，并可通过 NVIDIA TensorRT-LLM 在多种设备上部署。

此外，NVIDIA 在自动驾驶和智慧城市研究方面也取得了重大进展，其自动驾驶汽车研究论文赢得了 CVPR 自动驾驶挑战赛冠军，并展示了多项关键技术。NVIDIA Research 通过这些突破性研究，继续拓宽技术边界，为各领域的发展提供强大支持。

NVIDIA Research 在 CVPR 2024 展示视觉生成式 AI 重大突破

数智资讯订阅