智猩猩AI整理
编辑:汐汐
凌晨两点,实验室灯还亮着。你盯着屏幕,方法部分写完了,实验结果也跑出来了,可一想到要用PPT、Draw.io或者LaTeX的TikZ去画那个复杂的流程图、模块架构图,就瞬间头秃。箭头对不齐、颜色不统一、字体还得手动调大小…这明明是科研的最后一公里,却成了最耗神的一环。
就在2026年2月4日,Google Cloud AI Research联合北京大学的研究团队正式发布了PaperBanana——一个真正意义上的“学术插图Agent框架”。它的目标非常直白:把“自主AI科学家”工作流里最后一个还得靠人肉硬扛的环节——画图,给彻底自动化掉。

这根“香蕉”看起来甜,但咬下去才知道有多硬核。

论文标题:PaperBanana: Automating Academic Illustration for AI Scientists
论文链接:https://arxiv.org/pdf/2601.23265
01 五大智能体齐上阵:PaperBanana的“香蕉戏法”
PaperBanana本质上是一个Agentic Framework(多智能体协作框架),它把画图这个原本由人类设计师+研究者共同完成的活儿,拆解成了五个高度专业化的AI角色,像一个默契的团队一样协作办事,最终为你生成一个精美的学术论文配图!
底层驱动靠的是目前最强的视觉-语言模型组合:Gemini 3 Pro(负责理解和推理)+ Nano-Banana-Pro(专为学术风格微调的图像生成模型)。
五大Agent分别是:
1、Retriever(检索者)
像个学术界的“Pinterest”猎手。它会从 NeurIPS/ICLR/CVPR 等顶会论文中搜寻视觉结构相似的参考图。神奇的是,实验发现不需要主题完全匹配,只要是“好图”的结构和排版风格,就能大幅提升最终效果。
2、Planner(规划师)
把你扔过去的Methodology文字+期望的Caption,转化成一份极其详细的“视觉脚本”。它会把复杂的技术流程拆解成节点、连接、层级关系,甚至标注哪些部分需要突出。
3、Stylist(造型师)
负责学术界的“高级审美”。它从海量顶会论文里提炼出配色规范、字体偏好、留白习惯、箭头样式等“NeurIPS风”美学规则,然后强行套用到规划脚本上,让图看起来“就是那种味儿”。
4、Visualizer(可视化师)
真正下笔(生成)的那个。它既能直接输出像素级图像,也能生成可执行的Python/Matplotlib代码(特别适合需要精确数值的统计图表)。生成的图可以直接扔进论文pdf。
5、Critic(批评家)
最狠的角色。它会像最毒舌的审稿人一样,逐像素检查:忠实度够不够?有没有hallucination?字体是不是歪了?箭头有没有指向错误?然后把反馈给Visualizer,循环迭代3轮以上,直到它自己都挑不出大毛病。

这个“检索→规划→造型→生成→批判→再生成”的闭环,也就是说它可以在绘图的时候进行多次反复迭代,某种程度上可以理解成大模型中的“生成对抗网络”,而这就是PaperBanana能打败基线模型的关键。
为了公平评测,作者还专门构建了PaperBananaBench基准——从NeurIPS 2025论文中精心挑选了292个方法流程图案例(覆盖Agent、视觉、推理、优化等多个领域)。在忠实度(faithfulness)、简洁度(conciseness)、可读性(readability)和审美度(aesthetics)四个维度上,PaperBanana全面超越了当时最好的单模型/简单多轮生成基线,盲测人类偏好率接近75%。
02 一键生成NeurIPS级别的论文插图,还能润色人工绘图!
PaperBanana一经发布,X平台(Twitter)上就炸开了锅,因为大量科研人员、技术人员还有学生党聚集讨论,其中很多人面临着论文发表的压力,不管是公司也好还是学生也好,有科研产出很有可能就需要发表论文,其中绘图当然会是一个大麻烦。
其中,项目一作、北大在读博士生Dawei Zhu本人兴奋安利,称“我们经常花太多时间在画图而不是想法上……PaperBanana可以自动生成NeurIPS级别的论文插图!支持diagram和统计plot,还能润色已有的人工绘图。”





而粉丝量高达41万的博主,AI教育专家Hasan Toor发帖称,PaperBanana随机参考示例的效果与完美匹配的示例一样好,盲测中人类75%倾向PaperBanana!

由用户实际上使用后,光是第一次迭代就发现其效果出乎意料的好。

03 香蕉革命:科研人学生党的春天真的要来了
PaperBanana可以生成多种尺寸的图像,从常见的1:1、16:9、4:3到适合手机尺寸的9:16和3:4等,以及多种分辨率1K、2K到4K都有。
其中1K和2K的价格都是8 Credits。

而购买分了3个档次,分别是按月、按年和单次购买,其中又细分了Starter、Pro和Premium,其实并不算特别贵,科研人学生党的春天真的要来了!



PaperBanana的意义远不止“省时间画图”这么简单。
它实际上填补了当前“AI Scientist”闭环里最致命的一块短板——从逻辑推理到视觉表达的最后一环。现在的AI可以写论文草稿、设计实验、分析结果,但一到可视化环节就卡壳。PaperBanana第一次让“全自动科学发现”在视觉呈现上也变得可行。
试想一下:未来你写完方法描述,按下“Run”,AI不仅给出结论,还顺手把所有核心图表、消融实验图、架构图、流程图全部生成完毕,直接导出LaTeX-ready的格式……投稿前的“美化地狱”真的有可能成为历史。
当然,现在它还在waitlist阶段,模型也还有边界(极端复杂场景、极度定制化的图例等仍需人工介入)。但方向已经非常明确了:
未来不久,也许我们真的只需要点一下“Run”,就能从idea到投稿了。
你准备好迎接这个“香蕉革命”了吗?🍌
04 关于PaperBanana一作:北大博士Dawei Zhu

第一作者Dawei Zhu现为北京大学在读博士,PaperBanana是其在Google Cloud作为学生研究员的实习期间主导完成的一项工作。
Dawei Zhu的研究方向集中在长上下文建模(Long Context Modeling)、智能体(Agents)、模型对齐(Alignment)与大模型能力扩展等前沿领域,其多篇论文已在 ACL、ICLR、EMNLP、COLING、AAAI 等顶级会议发表或收录,部分论文引用量已达数百次。
其主要研究方向如下:
1、长上下文语言模型,成果包括:PoSE:Positional Skip-wise Training(ICLR 2024)、LongEmbed(EMNLP 2024)等;
2、智能体与工具调用,成果包括:AgentBank(EMNLP 2024);
3、模型对齐与评估,成果包括:Large Language Models are not Fair Evaluators(ACL 2024)、Long Context Alignment with Short Instructions(2024)。