开源创新
MagicQuill 是一个基于 AI 的互动图像编辑工具,致力于为创作者提供精准的图像修改能力。通过该平台,用户可以利用智能提示和实时编辑功能,轻松生成个性化的图像创作。该项目的 GitHub 仓库为开发者提供了详细的实现代码和模型文件,让开发者能够进一步定制和扩展工具的功能。
谷歌DeepMind正式推出Gemini 2.5 Flash Image图像模型,优化了速度与上下文理解,支持基于文本提示的精准编辑。该模型在LMArena基准测试中表现领先,提供安全机制,开发者可通过Gemini API等访问,输出定价为每百万token 30美元。
阿里通义千问团队推出基于20B参数的Qwen-Image-Edit模型,通过双通道架构实现语义与外观双重控制,在公开基准测试中展现当前最优性能。尽管国内厂商加速布局多模态领域,但技术仍面临表征复杂度与空间推理能力等关键挑战。
Midjourney创始人David Holz近日在Discord活动中透露,7.0版本将在未来1-2个月内发布,此外公司正在开发新图像编辑器与3D系统。Holz还表示,Midjourney正致力于提升现有技术的易用性,并计划涉足视频生成领域。