NVIDIA 研究人员在快速发展的视觉生成式 AI 领域处于领先地位,正在开发用于创建和解读图像、视频与 3D 环境的新技术。NVIDIA 在西雅图举办的国际计算机视觉与模式识别会议(CVPR)上展示了 50 多个研究项目成果,其中两篇论文(关于扩散模型训练动态和自动驾驶汽车高清地图)入围最佳论文奖。此外,NVIDIA 在 CVPR 自动驾驶挑战赛中获得大规模端到端驾驶类别第一名,并获得创新奖。
此次展示的研究成果包括:一种可轻松定制的文本转图像模型、新的物体姿态估计模型、神经辐射场(NeRF)编辑技术以及能够理解流行语的视觉语言模型。这些研究成果不仅帮助创作者更快实现艺术构想,还加快了制造业自主机器人的训练速度,并为医疗专业人员提供支持。
在 CVPR 上,NVIDIA 发布了 NVIDIA Omniverse Cloud Sensor RTX,这套微服务能够实现物理级精确传感器仿真,从而加速各类自主机器的开发。JeDi 扩散模型无需微调即可定制图像输出结果,大大简化了创作者的工作流程。而 FoundationPose 则提供了无需微调即可应用于新物体的姿态估计和跟踪技术,适用于工业和增强现实应用。
NeRFDeformer 是另一项亮点技术,利用单张 RGB-D 图像成功转换现有的 NeRF,实现 3D 场景渲染的简化操作。NVIDIA 与 MIT 联合开发的 VILA 视觉语言模型在处理图像和文本生成方面表现出色,支持多图像间推理,并可通过 NVIDIA TensorRT-LLM 在多种设备上部署。
此外,NVIDIA 在自动驾驶和智慧城市研究方面也取得了重大进展,其自动驾驶汽车研究论文赢得了 CVPR 自动驾驶挑战赛冠军,并展示了多项关键技术。NVIDIA Research 通过这些突破性研究,继续拓宽技术边界,为各领域的发展提供强大支持。