٩(◕‿◕。)۶ 嗨,探险家!
还没拿到探险许可吗?
加入数字探险
欢迎回到数智世界!
用户名
密码
同意
《用户服务协议》
《隐私政策》
开启
密码掉进黑洞了?
微信公众号
抖音视频
微信视频号
小红书
数智朋克
DIGIPUNK
快讯
智选
创新
探索
欢迎进群
来自
去投稿
开源创新
MIMO 是一个基于空间分解建模的可控角色视频合成模型,可以通过简单的用户输入,在复杂的现实场景中生成可动画化的角色视频。该模型不仅实现了多种复杂动作、3D场景互动,还能灵活控制角色的动作和外观。这使得 MIMO 成为动画制作、游戏设计等领域的潜在利器。
体验虚拟角色的全新维度:MIMO阿里巴巴达摩院出品可控视频合成模型
开源创新
随着各行业对高质量3D资产需求的增加,3DTopia-XL 通过全新的Primitive Diffusion技术,大幅提升了几何细节与材质渲染的能力。该模型引入了PrimX表示形式和Diffusion Transformer框架,使得生成速度与质量远超当前主流模型,并支持从文本或视觉输入生成3D资产。
3DTopia-XL:下一代高质量3D资产生成的变革
开源创新
OmniGen是一种全新的扩散模型,专为统一的图像生成而设计。它无需额外的模块如ControlNet或IP-Adapter,能够处理多种控制条件。OmniGen不仅支持文本生成图像,还能用于图像编辑、基于对象的生成和视觉条件生成。它通过简化的架构和高效的知识迁移,突破了许多现有模型的局限,展现了广泛的应用潜力。
OmniGen:打破图像生成的边界
开源创新
MeshAnything V2 是一种创新的自动网格生成模型,使用全新开发的**邻近网格标记化(AMT)**方法,大幅提升了3D艺术网格的生成效率和性能。相比于传统方法,AMT将网格标记序列长度缩减了近一半,使得模型在保持高精度的同时,极大地降低了计算和内存需求。MeshAnything V2 的推出为3D资产的高效生成和应用开辟了新的可能性。
MeshAnything V2:重新定义3D艺术网格生成的效率与精度
开源创新
"Screenshot-to-Code" 是一款利用AI将截图直接转换为HTML、React、Vue代码的开源工具,支持GPT-4等多种模型,助力开发者将设计稿轻松转换为功能代码。该工具通过简单配置即可使用,适合前端开发和设计师团队。项目在GitHub上获得了55.9k星,展现出广泛的关注度和应用潜力。
截图即代码:AI驱动的Screenshot-to-Code代码生成工具探索
开源创新
LivePortrait 是一款基于隐式关键点的肖像动画框架,通过独特的缝合与重定向模块,实现了从单张图片生成高质量视频的功能。相比主流方法,LivePortrait 提供了更好的泛化性与可控性,并显著提高了计算效率,使其在实际应用中具有广泛前景。
LivePortrait AI:高效AI图生肖像视频技术与精准控制
开源创新
在当前长文本生成的技术领域,LongWriter 以其突破性的万字生成能力备受瞩目。工具基于增强版的大模型,特别适合生成超过1万字的长篇内容,其卓越的上下文保持能力为创作者提供了新的可能性。
清华THUDM团队推出LongWriter:突破性万字级文本生成工具
开源创新
VFusion3D通过使用视频扩散模型作为数据生成引擎,突破了3D数据稀缺的限制。通过生成大量合成多视角数据,该模型实现了高效的3D生成,从单张图像生成3D模型,并在性能上超越现有的同类技术。该方法展示了如何通过扩展数据和模型规模来提升3D生成的效果和应用潜力。
牛津大学与Meta联手推出VFusion3D,从视频到3D的高效生成引擎
开源创新
DressCode是一种创新的3D服装生成框架,通过自然语言交互生成高度自定义的数字服装。该系统结合了GPT架构和Stable Diffusion模型,支持用户以文本提示创建独特的缝纫图案和材质纹理,为数字人类和虚拟试穿等应用提供了强大支持。
AI与时尚的完美碰撞:DressCode如何引领3D服装设计
开源创新
MiniCPM-V 2.6是OpenBMB推出的最新版本,针对中文自然语言处理进行了进一步优化。它在减少参数量的同时,保持了高效的文本生成和理解能力,为开发者提供了更加灵活的部署选择。该版本特别适合在计算资源有限的环境中应用,进一步推动了中文预训练模型的普及和发展。
OpenBMB发布MiniCPM-V 2.6:面壁智能领航的端侧大模型
DIGIPUNK
AIGC社群
联系我们
加入我们
商务合作
我要投稿
解决方案
媒体矩阵
Copyright © 2023-2024 DIGIPUNK LTD.