混元DiT-腾讯最新开源的文生图AI模型

混元DiT是什么？

混元DiT是腾讯最新开源的文生图AI模型，采用了与Sora、Stable Diffusion 3相同的DiT（Diffusion With Transformer）架构，支持中英文双语输入及理解，参数量达到15亿。它是业界首个中文原生的DiT架构文生图开源模型，可以作为视频等多模态视觉生成的基础。

混元DiT的主要特点

中英双语DiT架构：混元DiT采用了与Sora和Stable Diffusion 3相同的DiT架构，这是一种结合了扩散模型和Transformer架构的技术。扩散模型是一种生成模型，能够生成高保真度的图像，而Transformer架构则是一种在自然语言处理（NLP）领域非常成功的模型结构。
中文元素理解：混元DiT支持中文和英文的输入及理解，尤其对中文语言和文化元素有更好的理解和生成能力。
长文本理解：混元DiT能分析和理解长篇文本中的信息并生成相应艺术作品。
细粒度语义理解：混元DiT能捕捉文本中的细微之处，从而生成完美符合用户需要的图片。
多轮对话文生图：混元DiT可以在多轮对话中通过与用户持续协作，精炼并完善的创意构想。
开源和免费商用：模型已在Hugging Face平台及Github上发布，包含模型权重、推理代码、模型算法等，可供免费商用。

混元DiT中文元素理解

混元DiT长文本理解

混元DiT的性能表现

为了全面比较HunyuanDiT与其他模型的生成能力，研究团队构建了4个维度的测试集，包括文本图像一致性、排除AI伪影、主题清晰度、审美。超过50名专业评估人员进行评估。

评测数据显示，其效果超过现有的开源Stable Diffusion模型，属于国际领先水平。

混元DiT的技术架构

混元DiT使用预训练的变分自编码器（VAE）将图像压缩到低维潜在空间中，并训练扩散模型以学习扩散模型的数据分布。混元DiT的扩散模型是用Transformer参数化的。为了对文本提示进行编码，混元DiT利用了预先训练的双语（英文和中文）CLIP和多语言T5编码器的组合。

如何使用混元DiT？

目前，混元DiT已在 Hugging Face 平台及 Github 上发布，包含模型权重、推理代码、模型算法等完整模型，可供企业与个人开发者免费商用。

?混元DiT已上线到吐司AI绘画平台，欢迎使用：https://www.tusi.cn/

官方项目地址：https://dit.hunyuan.tencent.com/
Hugging Face模型：https://huggingface.co/Tencent-Hunyuan/HunyuanDiT
Github源码：https://github.com/Tencent/HunyuanDiT
技术报告：https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf

另外，腾讯也基于混元DiT开发了一个AI生图产品：腾讯混元生图，感兴趣的话，可以去体验下。

温馨提示：

文章标题：混元DiT-腾讯最新开源的文生图AI模型

文章链接：https://yuntunft.cn/39814.html

更新时间：2024年08月11日

{{userData.name}}已认证

混元DiT-腾讯最新开源的文生图AI模型

混元DiT是什么？

混元DiT的主要特点

混元DiT的性能表现

混元DiT的技术架构

如何使用混元DiT？

AIGC研究中心

阿铎

AI工具

AI咨询

A联系我们

微信公众号最新资讯

微信公众号最新资讯

云图NFT导航站