
4月1日,阿里正式推出图像生成与编辑模型Wan2.7-Image,目前已在通义万相官网和阿里云百炼上线。
在视频生成模型密集发布的当下,阿里选择在图像生成领域落子,主打的方向是精确控制。
这款模型主要回应了AI生图领域两个常见的痛点,人脸同质化和色彩不可控。以往用Midjourney或Stable Diffusion生成亚洲面孔时,用户常常需要反复调整提示词才能避免“网红脸”的趋同感。
Wan2.7-Image允许用户在提示词中细化到骨相特征,比如鹅蛋脸、方脸、杏仁眼或丹凤眼,同一组参数下能生成五张五官特征有明显差异但光照构图保持一致的图像。这种做法降低了角色一致性设计中的试错成本。
色彩控制方面,Wan2.7-Image引入了调色盘功能,支持直接输入HEX色号,也可以上传参考图让系统提取色系比例。
例如将一幅经典画作的主色应用到现代城市夜景上,输出的画面能够保留原作的色调构成。
对于需要严格遵循品牌视觉识别系统的商业设计来说,这种级别的色准控制解决了此前AI生图“暖色调”难以精确传达的问题。
文字渲染能力是另一个技术看点。目前大多数生图模型在生成超过十个汉字时容易出现缺笔划或乱码。
Wan2.7-Image支持最高3K Tokens的长文本输入,官方示例中可以完整生成包含积分符号、极限公式和表格的数学试卷,排版与文字准确率达到了可用的程度。
这项能力在学术图表、教材配图以及需要大量文字信息的海报设计中有实际应用价值。
从技术架构来看,Wan2.7-Image采用了生成与理解的统一模型设计,在共享隐空间中建立语义映射。
与传统扩散模型相比,这种方式试图让模型对文字与画面的对应关系有更准确的认知,从而提升文本渲染和多元素组合的稳定性。
根据官方公布的人类偏好盲测数据,Wan2.7-Image在文生图任务上的综合表现超过了GPT-Image1.5和国内主流模型,在文本渲染、照片级成像和世界知识指标上接近Nano Banana Pro。
这些数据来自阿里自身的测试结果,实际表现仍需更多第三方评测和用户使用反馈来验证。
除了作为独立生图工具,Wan2.7-Image还可以作为Skill接入OpenClaw智能体,开发者能够直接调用其生图能力。
这意味着在Agent工作流中,图像生成不再依赖大模型自带的图文生成接口,而是可以嵌入更精细的图像模型。
相比Midjourney在审美风格上的长期积累和Stable Diffusion在开源生态中的普及度,阿里这款模型选择了一条强调控制能力的路线。
当用户能够在色号、脸型、文字排列等维度上获得越来越精确的操作权时,AI生图工具的定位正在从“启发式生成”向“确定性产出”过渡。
这种转变是否会让创意过程失去部分偶然性,也成了留给使用者的问题。
