MGIE是苹果团队近日开源的一款AI图像编辑工具,将多模态大模型用于解决指令引导不足的问题,拍张照片、输入文字指令就能让手机开始自动修图。
MGIE由多模态大模型和扩散模型组成,通过学习获得简明的表达指令,并提供明确的视觉相关引导。通过端到端训练,扩散模型会同步更新,并利用预期目标的潜在想象力执行图像编辑。这样MGIE就能从固有的视觉推导中获益,并解决模糊的人类指令,从而实现合理的编辑。
MGIE相关资源地址:
- 体验地址:https://huggingface.co/spaces/tsujuifu/ml-mgie
- 项目主页:https://mllm-ie.github.io/
- GitHub地址:https://github.com/apple/ml-mgie
- 论文地址:https://openreview.net/pdf?id=S1RKWSyZ2Y
效果对比: