Microsoft近日发布了第二代AI图像模型MAI-Image-2,声称在”增强版写实主义”和图像内文字生成可靠性方面取得显著提升。该模型已开始在Copilot和Bing Image Creator中上线。

AI图像生成领域的竞争正日趋白热化。OpenAI的DALL-E 3、Midjourney V6、Adobe Firefly、Stability AI的Stable Diffusion 3,再加上Google的Imagen 2和现在的Microsoft MAI-Image-2,主流玩家已达六家之多。

Microsoft选择将MAI-Image-2集成到Copilot和Bing生态中,意味着用户无需切换平台即可在日常工作流程中使用AI图像生成。这一策略与OpenAI将DALL-E 3整合进ChatGPT如出一辙。

“增强版写实主义”的卖点值得关注。第一代AI图像模型普遍存在”AI感”过重的问题——光线过于完美、皮肤质感失真、背景细节诡异。新一代模型正努力突破这一瓶颈,让AI图像更接近真实照片。

更可靠的图像内文字生成则是另一个痛点突破。早期模型生成的图像中,文字通常是乱码或无法识别的字符;MAI-Image-2如果能稳定生成正确的文字,将为广告设计、海报制作等场景带来实质价值。

对于普通用户而言,这意味着:在Copilot里说一句”帮我生成一张包含’开业大酬宾’文字的宣传海报”,将不再需要花时间修复错别字。