٩(◕‿◕。)۶ 嗨,探险家!
还没拿到探险许可吗?
加入数字探险
欢迎回到数智世界!
用户名
密码
同意
《用户服务协议》
《隐私政策》
开启
密码掉进黑洞了?
微信公众号
抖音视频
微信视频号
小红书
数智朋克
DIGIPUNK
快讯
智选
创新
探索
欢迎进群
来自
去投稿
网创工坊
NVIDIA推出MaskedMimic技术,打造了一种基于物理的统一控制器。该系统通过“掩码运动补全”,使虚拟角色能从部分输入(如关节位置、文本命令等)生成复杂动作,适应多种场景。无论是VR跟踪、路径导航,还是物体互动,MaskedMimic都能实现无缝过渡,为虚拟角色带来极高的交互和适应性。
重塑虚拟世界的物理控制:探索NVIDIA的MaskedMimic
网创工坊
Seed Music 是 Doubao 团队推出的一套音乐生成系统,能够生成高质量的多语言人声音乐,支持用户通过精细的音符级别调整创作音乐,还能整合用户自有声音进行个性化演唱。系统采用了自回归和扩散式方法结合的框架,兼具风格控制与编辑能力,并支持零样本唱歌转换,用户仅需提供10秒的声音即可实现个性化演唱。
Seed Music: 打造音乐生成的全新可能
网创工坊
GameGen-O是由腾讯和香港等地的科研团队共同开发的首个专为开放世界游戏生成设计的扩散变换模型。模型展示了AI在游戏开发中的巨大潜力,能够生成动态复杂的游戏场景,并提供多模态的交互控制。
AI驱动的游戏未来:GameGen-O打造动态复杂的游戏场景
网创工坊
Ref-AVS 是一项全新提出的任务,旨在通过自然语言中包含的多模态线索(如音频、视觉等)对视频中的目标进行精准分割。这种任务模仿了人类在现实世界中基于多模态信息识别和定位物体的能力,并通过创建首个Ref-AVS基准数据集进行实验验证,标志着音视场景理解的新进展。
Ref-AVS:多模态音视场景的精准目标分割革命
网创工坊
AWPortrait-FL 是 Shakker Labs 推出的一个先进的AI图像生成模型,专注于高品质的肖像创作,结合了细腻的细节处理和丰富的文化元素。它不仅优化了面部特征的生成,还通过添加东方服饰等独特元素,提升了生成图像的艺术性和真实性。
基于FLUX.1-dev精调的AWPortrait-FL:超现实AI肖像写真生成模型
网创工坊
Still-Moving开创了在没有定制视频数据的情况下进行定制视频生成的新时代。通过结合文本到图像(T2I)模型和文本到视频(T2V)模型,该方法利用少量静止图像参考,实现了个性化和风格化的视频生成。
Still-Moving GitHub:从静态图像到动态视频的定制化生成创新
网创工坊
NVIDIA的ChatRTX是一个强大的平台,旨在让定制大型语言模型的开发变得更加普及。通过利用RTX GPU的性能,ChatRTX提供了一个可扩展、高效和具有成本效益的解决方案,帮助企业充分利用AI的力量。无论是提升客户服务、改善医疗结果还是推动金融洞察,ChatRTX都提供了构建复杂AI模型所需的工具,适应特定行业需求。
NVIDIA ChatRTX:利用Chat with RTX定制你的AI助手
网创工坊
字节跳动推出的SEED-TTS项目包括一系列大规模自回归文本到语音模型,这些模型能够生成几乎与人类语音无异的语音。在语音上下文学习方面,SEED-TTS表现尤为出色。通过微调,模型在主观评分中获得了更高的分数,表现出色。
SEED-TTS:字节跳动高质量语音合成模型的创新
网创工坊
GPT自己写出来的才是最有效果的,只需告诉它你的需求就能为你输出提示词模版的GPTs应用。
AI提示词编写大师,小白也能写GPTs应用
网创工坊
微软亚洲研究院最近推出了一个名为VASA-1的创新工具,VASA-1能够将单张静态图片与音频文件结合,生成具有动态面部表情和头部动作的视频,让图片中的人物仿佛“活”了起来,能够说话甚至唱歌。
微软亚洲研究院推出VASA-1:一个创新的AI工具,将静态图像与音频合成动态面部表情
DIGIPUNK
AIGC社群
联系我们
加入我们
商务合作
我要投稿
解决方案
媒体矩阵
Copyright © 2023-2024 DIGIPUNK LTD.