智谱AI的CogView4开源文生图模型:多项能力领先 CogView4:首个能生成汉字且遵循Apache 2.0协议的开源文生图模型

2025-03-04 16:13:52 20观看

智谱AI于3月4日宣布发布CogView4这一开源文生图模型。该模型在DPG - Bench基准测试综合评分排名第一,达到SOTA,且是首个遵循Apache 2.0协议的图像生成模型。文章详细介绍了CogView4的能力、技术特点、案例展示以及未来规划等内容。dyQ壹木网-日常常见问题解答

智谱AI在3月4日发布了一个令人瞩目的开源文生图模型,名为CogView4。dyQ壹木网-日常常见问题解答

智谱AI的CogView4开源文生图模型:多项能力领先 CogView4:首个能生成汉字且遵循Apache 2.0协议的开源文生图模型dyQ壹木网-日常常见问题解答

这个CogView4可不简单,它在DPG - Bench基准测试中的综合评分位居榜首,在开源文生图模型里达到了SOTA(当前最优水平),而且它还是首个遵循Apache 2.0协议的图像生成模型呢。dyQ壹木网-日常常见问题解答

CogView4有着很强的能力。它具备强大的复杂语义对齐和指令跟随能力,无论是中文还是英文,它都能接受任意长度的输入,然后生成在给定范围内任意分辨率的图像,同时它的文字生成能力也不容小觑。dyQ壹木网-日常常见问题解答

DPG - Bench(Dense Prompt Graph Benchmark)可是专门用来评估文本到图像生成模型的基准测试,重点关注模型在复杂语义对齐和指令跟随能力方面的表现,而CogView4能在这个测试里拔得头筹,足以证明它的优秀。dyQ壹木网-日常常见问题解答

CogView4有两大关键的技术特性。dyQ壹木网-日常常见问题解答

首先呢,它支持中英双语提示词输入。它尤其擅长理解和遵循中文提示词,是第一个能够在画面里生成汉字的开源文生图模型。这在广告、短视频等领域可太有用了,能够很好地满足创意需求。在技术实现上,它把文本编码器从纯英文的T5 encoder换成了具备双语能力的GLM - 4 encoder,并且通过中英双语图文对进行训练,才具备了这样的双语提示词输入能力。dyQ壹木网-日常常见问题解答

给大家举两个例子吧。案例1:CogView4能够非常自然地把中英文字符融入画面,这让海报、文案配图的创作变得更加方便快捷。dyQ壹木网-日常常见问题解答

智谱AI的CogView4开源文生图模型:多项能力领先 CogView4:首个能生成汉字且遵循Apache 2.0协议的开源文生图模型dyQ壹木网-日常常见问题解答

智谱AI的CogView4开源文生图模型:多项能力领先 CogView4:首个能生成汉字且遵循Apache 2.0协议的开源文生图模型dyQ壹木网-日常常见问题解答

案例2:它很擅长理解和遵循中文提示词,比如说能画出古诗文中的那种意境。dyQ壹木网-日常常见问题解答

智谱AI的CogView4开源文生图模型:多项能力领先 CogView4:首个能生成汉字且遵循Apache 2.0协议的开源文生图模型dyQ壹木网-日常常见问题解答

其次,CogView4支持输入任意长度的提示词,还能够生成在范围内任意分辨率的图像。这不仅让用户在创作的时候更加自由,而且还提高了训练的效率。CogView4模型实现了任意长度的文本描述(caption)和任意分辨率图像的混合训练范式。dyQ壹木网-日常常见问题解答

这里面又有很多具体的技术内容哦。dyQ壹木网-日常常见问题解答

1、图像位置编码:CogView4采用二维旋转位置编码(2D RoPE)来构建图像的位置信息,并且通过内插位置编码的方式来支持不同分辨率的图像生成任务。dyQ壹木网-日常常见问题解答

2、扩散生成建模:模型采用Flow - matching方案进行扩散生成建模,并且结合参数化的线性动态噪声规划,这样就能适应不同分辨率图像的信噪比需求。dyQ壹木网-日常常见问题解答

3、架构设计:在DiT模型架构上,CogView4延续了上一代的Share - param DiT架构,还为文本和图像模态分别设计独立的自适应LayerNorm层,以此来实现模态间的高效适配。dyQ壹木网-日常常见问题解答

4、多阶段训练:CogView4采用多阶段训练策略,包括基础分辨率训练、泛分辨率训练、高质量数据微调以及人类偏好对齐训练。这种分阶段的训练方式不仅覆盖了广泛的图像分布,还能保证生成的图像有很高的美感,并且符合人类的喜好。dyQ壹木网-日常常见问题解答

5、训练框架优化:从文本角度来看,CogView4突破了传统固定token长度的限制,允许更高的token上限,还大大减少了训练过程中的文本token冗余。当训练caption的平均长度在200 - 300 token时,和固定512 token的传统方案相比,CogView4减少了大概50%的token冗余,并且在模型递进训练阶段实现了5% - 30%的效率提升。dyQ壹木网-日常常见问题解答

混合分辨率训练让这个模型能够支持很大范围内的任意分辨率生成,这极大地提高了创作的自由度。目标分辨率只要满足下面的条件就行:dyQ壹木网-日常常见问题解答

- $$512leq H,Wleq 2048, Htimes W leq 2times1024^2$$dyQ壹木网-日常常见问题解答

- $$H, W == 0 (mod 32)$$dyQ壹木网-日常常见问题解答

再给大家举两个例子说明一下。案例1:用故事作为超长提示词,就能生成四格漫画。dyQ壹木网-日常常见问题解答

智谱AI的CogView4开源文生图模型:多项能力领先 CogView4:首个能生成汉字且遵循Apache 2.0协议的开源文生图模型dyQ壹木网-日常常见问题解答

案例2:就算是超复杂的提示词,也能生成精细的画面。dyQ壹木网-日常常见问题解答

智谱AI的CogView4开源文生图模型:多项能力领先 CogView4:首个能生成汉字且遵循Apache 2.0协议的开源文生图模型dyQ壹木网-日常常见问题解答

CogView4模型支持Apache2.0协议,后续还会逐渐增加ControlNet、ComfyUI等生态支持,一整套的微调工具包也会推出呢。而且最新的CogView4 - 6B - 0304版本会在3月13日上线智谱清言(chatglm.cn)。dyQ壹木网-日常常见问题解答

智谱AI表示,作为国内最早的开源大模型公司,一直都在努力推动AI的普惠。2025年是智谱开源年,还会陆续开源基础模型、推理模型、多模态模型、Agent模型等。dyQ壹木网-日常常见问题解答

智谱AI发布的CogView4开源文生图模型在多个方面表现卓越,在基准测试中排名第一且达到SOTA,具有双语输入、生成汉字、任意分辨率图像生成等能力,其技术包含多种创新点,还有丰富的案例展示其功能强大之处,同时该模型支持Apache2.0协议且后续有一系列发展规划,智谱AI也将在2025年持续推动开源工作。dyQ壹木网-日常常见问题解答

本文链接:http://www.lverk.com/news5260.html智谱AI的CogView4开源文生图模型:多项能力领先 CogView4:首个能生成汉字且遵循Apache 2.0协议的开源文生图模型

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com。天上从来不会掉馅饼,请大家时刻谨防诈骗