混元DiT是什么?
混元DiT是腾讯最新开源的文生图AI模型,采用了与Sora、Stable Diffusion 3相同的DiT(Diffusion With Transformer)架构,支持中英文双语输入及理解,参数量达到15亿。它是业界首个中文原生的DiT架构文生图开源模型,可以作为视频等多模态视觉生成的基础。
混元DiT的主要特点
- 中英双语DiT架构:混元DiT采用了与Sora和Stable Diffusion 3相同的DiT架构,这是一种结合了扩散模型和Transformer架构的技术。扩散模型是一种生成模型,能够生成高保真度的图像,而Transformer架构则是一种在自然语言处理(NLP)领域非常成功的模型结构。
- 中文元素理解:混元DiT支持中文和英文的输入及理解,尤其对中文语言和文化元素有更好的理解和生成能力。
- 长文本理解:混元DiT能分析和理解长篇文本中的信息并生成相应艺术作品。
- 细粒度语义理解:混元DiT能捕捉文本中的细微之处,从而生成完美符合用户需要的图片。
- 多轮对话文生图:混元DiT可以在多轮对话中通过与用户持续协作,精炼并完善的创意构想。
- 开源和免费商用:模型已在Hugging Face平台及Github上发布,包含模型权重、推理代码、模型算法等,可供免费商用。
混元DiT的性能表现
为了全面比较HunyuanDiT与其他模型的生成能力,研究团队构建了4个维度的测试集,包括文本图像一致性、排除AI伪影、主题清晰度、审美。超过50名专业评估人员进行评估。
评测数据显示,其效果超过现有的开源Stable Diffusion模型,属于国际领先水平。
混元DiT的技术架构
混元DiT使用预训练的变分自编码器(VAE)将图像压缩到低维潜在空间中,并训练扩散模型以学习扩散模型的数据分布。混元DiT的扩散模型是用Transformer参数化的。为了对文本提示进行编码,混元DiT利用了预先训练的双语(英文和中文)CLIP和多语言T5编码器的组合。
如何使用混元DiT?
目前,混元DiT已在 Hugging Face 平台及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。
?混元DiT已上线到吐司AI绘画平台,欢迎使用:https://www.tusi.cn/
- 官方项目地址:https://dit.hunyuan.tencent.com/
- Hugging Face模型:https://huggingface.co/Tencent-Hunyuan/HunyuanDiT
- Github源码:https://github.com/Tencent/HunyuanDiT
- 技术报告:https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf
另外,腾讯也基于混元DiT开发了一个AI生图产品:腾讯混元生图,感兴趣的话,可以去体验下。