Google DeepMind

Nano Banana：最先进的AI图像编辑模型

Adobe的定价策略让它在中国市场一败涂地，现在Adobe生产力工具即将被这款图片生成式AI慢慢取代。

王圆圆

29 Aug 2025 — 7 min read

图像处理领域又迎来了一位新星——Google DeepMind推出的Nano Banana模型。这个模型一经亮相，就迅速登顶LMArena的图像编辑模型排行榜，成为全球最顶尖的AI图像编辑工具。

它不仅仅是一个简单的图像生成器，更是一个专注于保持主体一致性、支持多轮迭代编辑的强大引擎。本文将从Nano Banana的起源、核心技术、实际应用到未来影响，进行全面深入的剖析，帮助你了解这个让人们“疯狂”（going bananas）的创新工具。

Nano Banana的起源与背景

Nano Banana最初作为一个神秘模型出现在LMArena排行榜上，没有人知道它的开发者是谁，但它以惊人的性能迅速攀升至榜首。

直到最近，Google DeepMind正式承认这是他们的作品，并将其集成到Gemini应用中。

这个名字听起来有些俏皮——“Nano”可能源于Gemini Nano的轻量级设计，而“Banana”则是一个有趣的代号，或许是为了突出其“香蕉般”的顺滑编辑体验。

Google DeepMind作为AI领域的领军者，一直致力于多模态AI的开发。Gemini系列模型是他们的 flagship 产品，支持文本、图像和视频等多种输入输出。Nano Banana实际上是Gemini 2.5 Flash Image模型的代号，专注于图像编辑和生成。它继承了Gemini的多模态理解能力，能够通过自然语言提示处理复杂的图像任务。与传统的图像生成模型如Stable Diffusion或DALL·E不同，Nano Banana更强调“编辑”而非从零生成，特别擅长在保持主体（人、宠物或物体）一致性的前提下进行修改。

这个模型的推出标志着AI图像工具从“一次性生成”向“迭代式编辑”的转变。它解决了以往AI在多次编辑中容易丢失主体特征的问题，让用户能够像专业设计师一样逐步完善图像。

核心技术与工作原理

Nano Banana的核心在于其先进的图像编辑架构，它基于深度学习模型，结合了多模态理解和上下文记忆机制。简单来说，用户上传一张或多张图像（最多三张），然后通过文本提示描述想要的修改，模型会生成新的图像版本。

关键特性：

主体一致性（Character Consistency）：这是Nano Banana的杀手锏。它能确保在编辑过程中，主体的外貌（如人脸、宠物毛色）保持不变，即使改变发型、服装或姿势。例如，你可以上传一张自拍，然后提示“把我变成60年代的蜂窝头发型”，模型会精确保留你的面部特征。
图像合并与混合（Prompt, Combine, Create）：支持合并多张图像，创建超现实艺术或混合元素。比如，将一张人像和一张宠物照合并，生成他们在篮球场上的合影。它还能应用一种图像的纹理到另一张上，如用花瓣纹理装饰雨靴。
多轮编辑（Multi-Turn Editing）：模型支持迭代交互，用户可以上传编辑后的图像，继续添加提示。例如，先为房间添加书架，再添加沙发，它会记住上下文，避免前后不一致。
细节控制（Control the Details）：通过自然语言调整背景、恢复褪色图像或改变物体颜色。它利用Gemini的现实世界知识，确保生成的图像符合逻辑（如物理光影效果）。
安全与水印：所有生成的图像都带有可见水印和不可见的SynthID数字水印，以标识AI生成内容，防止滥用。

从技术角度看，Nano Banana基于Transformer架构，优化了延迟，使其比其他领先模型更快。它通过大规模数据集训练，专注于图像编辑的细粒度任务，如小脸处理和纹理融合。不过，它在拼写准确性和极细细节上仍有局限，例如生成文字时可能出错。

实际用例与示例

Nano Banana的实用性极强，适用于从个人娱乐到专业设计的各种场景。以下是基于实际教程的步步指南和示例：

步骤指南：

打开Gemini应用，上传图像。
输入提示，如“让我看起来像拉玛雅那中的公主，手持鲜花”。
查看结果，如果不满意，上传新图像继续提示，如“移除裤子，让腿部可见”。
保存或进一步使用。

示例：

虚拟试衣：上传自拍和一件黑色连衣裙照片。提示：“让这个女人穿上这件黑色连衣裙。” 结果：主体穿上裙子，面部保持一致，但多次编辑可能导致轻微失真。
宠物合影：上传人像和狗狗照片。提示：“让这个女人抚摸这只狗，生成他们的合影。” 结果：自然客厅场景，细节如地毯和沙发栩栩如生。
室内设计：上传空房间照片。提示：“在空白墙上添加从地板到天花板的书架。” 然后添加沙发。结果：高质量装修效果，即使免费版也能实现。
创意设计：合并三张图像，生成超现实艺术，如将蝴蝶翅膀图案应用到连衣裙上。

这些用例展示了Nano Banana在时尚、电商和内容创作中的潜力。

性能基准与比较

在LMArena排行榜上，Nano Banana以压倒性优势位居首位，超越了其他AI模型，这个排行基于头对头测试，评估编辑准确性和一致性。相比Midjourney或Adobe Firefly，Nano Banana在主体保持和多轮编辑上更胜一筹。用户测试显示，它在编辑狗狗姿势和背景时表现出色，但毛发纹理可能过于光滑。

局限性包括：小细节不准、多次编辑可能失真，以及对敏感内容（如移除衣物）的处理不完美。Google DeepMind通过红队测试和过滤机制，确保安全。

访问与展望

Nano Banana已免费集成到Gemini应用中，无需专业订阅即可使用。只需访问gemini.google.com，上传图像开始编辑。API版本也可用，但可能收费。

展望未来，Nano Banana可能扩展到视频编辑或更高级的多模态交互，推动AI在创意产业的革命。它也引发了对AI伦理的讨论，如水印的重要性和内容真实性。

Nano Banana代表了AI图像编辑的未来方向——更智能、更一致、更易用。无论设计师、内容创作者还是普通用户，都值得一试。Google DeepMind的这一创新，正悄然改变我们与图像互动的方式。如果你有使用经验，欢迎在评论区分享！

快一点慢一点

前两年还被说安全的岗位，正在消失。一切似乎早已注定。但我停不下来。

間

春节回家，我又见到了我干爹家的三儿子。他生下来就带着残疾，不能说话，手脚不协调，走路一瘸一拐，嘴角总是挂着口水。小时候干爹干娘怕别人欺负他，教他见人就笑。所以这么多年，不管走到哪，他都是笑着的。左脚脚尖点地，左手弯着伸不直，走路习惯性靠在路的最右边，紧贴着路沿。我有时候担心他会踩进沟里，想想又觉得，也许他自己知道，这样不容易被人撞到。那天下午我一个人在村东边路上走，他跟了上来。脸上沾着灰，鼻子里有一团鼻垢，我下意识想帮他弄掉，他偏过头，自己扣了下来，然后转过脸，把手里点着的烟举了举，冲我笑。他的手指黄黄的，染得很深。后来我知道，小时候有人逗他，教他抽烟，就这么上了瘾，又没有能力自己戒。烟瘾越来越大，有烟就一口气抽完，多的时候一天三包。这两年逢年过节，大家口袋里都装着烟，见面互让，他也学会了凑过去。村里谁家办红白喜事，他都去帮着搬凳子搬椅子，人家给他几根烟，他就高兴。我那半包苏烟，后来进了他的口袋。

折叠时间

上次坐地铁的时候，我盯着手机看了一眼时间：20:37。等反应过来抬起头，已经是20:52了。十五分钟，就这么没了。但1月牙疼去看牙医，在椅子上躺着等医生准备器械，那三分钟感觉比一个小时还长。同样是时间，为什么有时候像沙子一样从指缝溜走，有时候又像琥珀一样凝固住每一秒？不同的星球，不同的时钟物理学告诉我们，引力会让时间变慢。在靠近黑洞的地方过一小时，地球上可能已经过了好几年。就像不同重量的球压在一张网上，越重的球把网面压得越深，时间在那里流逝得就越慢。这个画面一直让我着迷。后来我想，其实我们每个人的内心世界也像是不同的星球。有些事情对你来说很重要，它就像一颗大质量的星球，把你的时间网压出很深的凹陷。你围绕着它打转，时间在那里变得又浓又稠。恋爱的时候，一天能想对方好几百次。每一次心跳都被放大，每一个眼神都值得回味。楼下等她的那段时间好像特别"漫长"。但也有些日子，你就是在重复。起床、上班、吃饭、睡觉。一天天像复制粘贴一样过去了，回头看，好像什么都没留下。大象和蚂蚁的一秒钟

思考

在你阅读这篇文章之前，先问自己一个问题：你上一次真正深度思考是什么时候？我所说的"深度思考"，是指遇到一个具体而困难的问题，然后花费好几天时间专注于解决它的那种状态。你的答案是什么？ * a) 经常如此 * b) 从来没有 * c) 介于两者之间如果你的答案是 (a) 或 (b)，这篇文章可能不适合你。但如果像我一样，你的答案是 (c)，那么这篇文章或许能引起你的共鸣，至少让你知道，你并不孤单。首先声明：这篇文章没有答案，甚至没有建议。它只是我最近几个月内心感受的一次宣泄。建造者与思考者我相信我的性格建立在两个主要特质之上： 1. 建造者（渴望创造、交付和务实） 2. 思考者（需要深度、持久的智力挑战）建造者这一面很容易理解，它追求速度和实用性。这是我渴望将"想法"转化为"现实&