٩(◕‿◕。)۶ 嗨,探险家!
还没拿到探险许可吗?
加入数字探险
欢迎回到数智世界!
用户名
密码
同意
《用户服务协议》
《隐私政策》
开启
密码掉进黑洞了?
微信公众号
抖音视频
微信视频号
小红书
数智朋克
DIGIPUNK
快讯
智选
创新
探索
欢迎进群
来自
去投稿
网创工坊
Meta发布了MovieGen,一款基于生成式AI的多模态模型,能通过文本输入生成高质量视频和音频。MovieGen不仅支持个性化视频生成,还能对现有视频进行精准编辑,提供高保真的音效生成能力。这一技术旨在为创作者提供更便捷的工具,打破传统创作门槛,释放更大的创意潜力。
Meta推出MovieGen:生成式AI助力视频内容创作创新
开源创新
MIMO 是一个基于空间分解建模的可控角色视频合成模型,可以通过简单的用户输入,在复杂的现实场景中生成可动画化的角色视频。该模型不仅实现了多种复杂动作、3D场景互动,还能灵活控制角色的动作和外观。这使得 MIMO 成为动画制作、游戏设计等领域的潜在利器。
体验虚拟角色的全新维度:MIMO阿里巴巴达摩院出品可控视频合成模型
网创工坊
NVIDIA推出MaskedMimic技术,打造了一种基于物理的统一控制器。该系统通过“掩码运动补全”,使虚拟角色能从部分输入(如关节位置、文本命令等)生成复杂动作,适应多种场景。无论是VR跟踪、路径导航,还是物体互动,MaskedMimic都能实现无缝过渡,为虚拟角色带来极高的交互和适应性。
重塑虚拟世界的物理控制:探索NVIDIA的MaskedMimic
开源创新
随着各行业对高质量3D资产需求的增加,3DTopia-XL 通过全新的Primitive Diffusion技术,大幅提升了几何细节与材质渲染的能力。该模型引入了PrimX表示形式和Diffusion Transformer框架,使得生成速度与质量远超当前主流模型,并支持从文本或视觉输入生成3D资产。
3DTopia-XL:下一代高质量3D资产生成的变革
开源创新
OmniGen是一种全新的扩散模型,专为统一的图像生成而设计。它无需额外的模块如ControlNet或IP-Adapter,能够处理多种控制条件。OmniGen不仅支持文本生成图像,还能用于图像编辑、基于对象的生成和视觉条件生成。它通过简化的架构和高效的知识迁移,突破了许多现有模型的局限,展现了广泛的应用潜力。
OmniGen:打破图像生成的边界
网创工坊
Seed Music 是 Doubao 团队推出的一套音乐生成系统,能够生成高质量的多语言人声音乐,支持用户通过精细的音符级别调整创作音乐,还能整合用户自有声音进行个性化演唱。系统采用了自回归和扩散式方法结合的框架,兼具风格控制与编辑能力,并支持零样本唱歌转换,用户仅需提供10秒的声音即可实现个性化演唱。
Seed Music: 打造音乐生成的全新可能
网创工坊
GameGen-O是由腾讯和香港等地的科研团队共同开发的首个专为开放世界游戏生成设计的扩散变换模型。模型展示了AI在游戏开发中的巨大潜力,能够生成动态复杂的游戏场景,并提供多模态的交互控制。
AI驱动的游戏未来:GameGen-O打造动态复杂的游戏场景
开源创新
MeshAnything V2 是一种创新的自动网格生成模型,使用全新开发的**邻近网格标记化(AMT)**方法,大幅提升了3D艺术网格的生成效率和性能。相比于传统方法,AMT将网格标记序列长度缩减了近一半,使得模型在保持高精度的同时,极大地降低了计算和内存需求。MeshAnything V2 的推出为3D资产的高效生成和应用开辟了新的可能性。
MeshAnything V2:重新定义3D艺术网格生成的效率与精度
开源创新
"Screenshot-to-Code" 是一款利用AI将截图直接转换为HTML、React、Vue代码的开源工具,支持GPT-4等多种模型,助力开发者将设计稿轻松转换为功能代码。该工具通过简单配置即可使用,适合前端开发和设计师团队。项目在GitHub上获得了55.9k星,展现出广泛的关注度和应用潜力。
截图即代码:AI驱动的Screenshot-to-Code代码生成工具探索
网创工坊
Ref-AVS 是一项全新提出的任务,旨在通过自然语言中包含的多模态线索(如音频、视觉等)对视频中的目标进行精准分割。这种任务模仿了人类在现实世界中基于多模态信息识别和定位物体的能力,并通过创建首个Ref-AVS基准数据集进行实验验证,标志着音视场景理解的新进展。
Ref-AVS:多模态音视场景的精准目标分割革命
DIGIPUNK
AIGC社群
联系我们
加入我们
商务合作
我要投稿
解决方案
媒体矩阵
Copyright © 2023-2024 DIGIPUNK LTD.