核心要点👉
- 🚀 速度与上下文理解优化
- ✏️ 基于文本提示的精准编辑
- 🧩 模型融合能力创作新内容
- ✂️ 精准局部编辑无需手动圈选
- ⚡ LMArena测试表现领先
数智朋克讯,谷歌DeepMind正式推出Gemini 2.5 Flash Image图像模型,这款原生图像生成工具在速度与上下文理解方面经过优化,支持基于文本提示的精准编辑。用户通过自然语言指令即可改变角色服装或场景,维持角色外观的连贯性,即便姿势或背景发生变化。
模型融合能力允许合并最多三张图像创作新内容,同时实现风格迁移,将纹理或图案应用到物体上而不破坏细节。
精准局部编辑功能无需手动圈选,便能完成背景虚化、瑕疵去除或物体移除。
现实推理模块模拟简单因果,如生成气球碰撞仙人掌的后续画面。
在LMArena基准测试中,Gemini 2.5 Flash Image表现领先,延迟更低,优于GPT-4o模型。
安全机制通过过滤减少有害内容,生成图像附带可见水印和SynthID数字水印。
开发者现可通过Gemini API、Google AI Studio及Vertex AI访问该模型,输出定价为每百万token 30美元,单张1024x1024像素图像成本约0.039美元。