Kolors是一个基于潜扩散的大规模文本转图像生成模型,由快手Kolors团队开发。
📖 介绍
经过数十亿对文本-图像对的训练,Kolors 在视觉质量、复杂语义准确性和中英文字符的文本渲染方面与开源和闭源模型相比都表现出显着优势。
此外,Kolors支持中文和英文输入,在理解和生成中文特定内容方面表现出强大的表现。有关详细信息,请参阅此技术报告。
📊 评估
我们收集了一个名为 KolorsPrompts 的综合文本到图像评估数据集,用于将 Kolors 与其他最先进的开放模型和闭源模型进行比较。KolorsPrompts 包括 1,000 多个提示,涵盖 14 个类别和 12 个评估维度。评估过程包括人工评估和机器评估。在相关的基准评估中,Kolors表现出极具竞争力的表现,达到了行业领先的标准。
人工评估
在人体评估方面,我们邀请了 50 位影像专家对不同模型生成的结果进行比较评估。专家们根据三个标准对生成的图像进行评分:视觉吸引力、文本忠实度和总体满意度。在评估中,Kolors取得了最高的总体满意度得分,与其他模型相比,在视觉吸引力方面显着领先。
Model | Average Overall Satisfaction | Average Visual Appeal | Average Text Faithfulness |
---|---|---|---|
Adobe-Firefly | 3.03 | 3.46 | 3.84 |
Stable Diffusion 3 | 3.26 | 3.50 | 4.20 |
DALL-E 3 | 3.32 | 3.54 | 4.22 |
Midjourney-v5 | 3.32 | 3.68 | 4.02 |
Playground-v2.5 | 3.37 | 3.73 | 4.04 |
Midjourney-v6 | 3.58 | 3.92 | 4.18 |
Kolors | 3.59 | 3.99 | 4.17 |
机器评估
我们在 KolorsPrompts 上使用 MPS(多维人类偏好评分)作为机器评估的评估指标。Kolors 获得了最高的 MPS 分数,这与人类评估的结果一致。
Models | Overall MPS |
---|---|
Adobe-Firefly | 8.5 |
Stable Diffusion 3 | 8.9 |
DALL-E 3 | 9.0 |
Midjourney-v5 | 9.4 |
Playground-v2.5 | 9.8 |
Midjourney-v6 | 10.2 |
Kolors | 10.3 |
🛠️ 用法
要求
- Python 3.8 或更高版本
- PyTorch 1.13.1 或更高版本
- Transformers 4.26.1 或更高版本
- 推荐:CUDA 11.7 或更高版本
- 仓库克隆和依赖项安装
apt-get install git-lfs
git clone https://github.com/Kwai-Kolors/Kolors
cd Kolors
conda create --name kolors python=3.8
conda activate kolors
pip install -r requirements.txt
python3 setup.py install
- Weights下载(链接):
huggingface-cli download --resume-download Kwai-Kolors/Kolors --local-dir weights/Kolors
或
git lfs clone https://huggingface.co/Kwai-Kolors/Kolors weights/Kolors
- 推理:
python3 scripts/sample.py "一张瓢虫的照片,微距,变焦,高质量,电影,拿着一个牌子,写着“可图”"
# The image will be saved to "scripts/outputs/sample_text.jpg"
- 网络演示:
python3 scripts/sampleui.py
与扩散器一起使用
确保升级到扩散器的最新版本(0.30.0.dev0):
git clone https://github.com/huggingface/diffusers
cd diffusers
python3 setup.py install
笔记:
- 默认情况下,管道使用 。我们建议将此调度程序与 一起使用。
EulerDiscreteScheduler
guidance scale=5.0
num_inference_steps=50
- 该管道还支持 . 并且是此调度程序的良好默认值。
EDMDPMSolverMultistepScheduler
guidance scale=5.0
num_inference_steps=25
- 除了 Text-to-Image,还支持 Image-to-Image。
KolorsImg2ImgPipeline
然后你可以运行:
import torch
from diffusers import KolorsPipeline
pipe = KolorsPipeline.from_pretrained(
"Kwai-Kolors/Kolors-diffusers",
torch_dtype=torch.float16,
variant="fp16"
).to("cuda")
prompt = '一张瓢虫的照片,微距,变焦,高质量,电影,拿着一个牌子,写着"可图"'
image = pipe(
prompt=prompt,
negative_prompt="",
guidance_scale=5.0,
num_inference_steps=50,
generator=torch.Generator(pipe.device).manual_seed(66),
).images[0]
image.show()
IP 适配器 Plus
# Weights download
huggingface-cli download --resume-download Kwai-Kolors/Kolors-IP-Adapter-Plus --local-dir weights/Kolors-IP-Adapter-Plus
# Inference:
python3 ipadapter/sample_ipadapter_plus.py ./ipadapter/asset/test_ip.jpg "穿着黑色T恤衫,上面中文绿色大字写着“可图”"
python3 ipadapter/sample_ipadapter_plus.py ./ipadapter/asset/test_ip2.png "一只可爱的小狗在奔跑"
# The image will be saved to "scripts/outputs/"
我们提供 IP-Adapter-Plus 权重和推理代码,详见 ipadapter。
🎥 可视化
本文中使用的图片提示词:
1、视觉质量:
一对年轻的中国情侣,皮肤白皙,穿着时尚的运动装,背景是现代的北京城市天际线。面部细节,清晰的毛孔,使用最新款的相机拍摄,特写镜头,超高画质,8K,视觉盛宴
2、中国元素
万里长城,蜿蜒
一张北京国家体育场(俗称“鸟巢”)的高度细节图片。图片应展示体育场复杂的钢结构,强调其独特的建筑设计。场景设定在白天,天空晴朗,突显出体育场的宏伟规模和现代感。包括周围的奥林匹克公园和一些游客,以增加场景的背景和生气。
上海外滩
3、复杂语义理解
满月下的街道,熙熙攘攘的行人正在享受繁华夜生活。街角摊位上,一位有着火红头发、穿着标志性天鹅绒斗篷的年轻女子,正在和脾气暴躁的老小贩讨价还价。这个脾气暴躁的小贩身材高大、老道,身着一套整洁西装,留着小胡子,用他那部蒸汽朋克式的电话兴致勃勃地交谈
画面有四只神兽:朱雀、玄武、青龙、白虎。朱雀位于画面上方,羽毛鲜红如火,尾羽如凤凰般绚丽,翅膀展开时似燃烧的火焰。玄武居于下方,是龟蛇相缠的形象,巨龟背上盘绕着一条黑色巨蛇,龟甲上有古老的符文,蛇眼冰冷锐利。青龙位于右方,长身盘旋在天际,龙鳞碧绿如翡翠,龙须飘逸,龙角如鹿,口吐云雾。白虎居于左方,体态威猛,白色的皮毛上有黑色斑纹,双眼炯炯有神,尖牙利爪,周围是苍茫的群山和草原。
一张高对比度的照片,熊猫骑在马上,戴着巫师帽,正在看书,马站在土墙旁的街道上,有绿草从街道的裂缝中长出来。
4、文字绘制
一张瓢虫的照片,微距,变焦,高质量,电影,瓢虫拿着一个木牌,上面写着“我爱世界” 的文字
一只小橘猫在弹钢琴,钢琴是黑色的牌子是“KOLORS”,猫的身影清晰的映照在钢琴上
街边的路牌,上面写着“天道酬勤”
AI绘图常用工具
💡如有问题或建议,🥳请在社区或评论告诉我们。🎨享受精彩的AI绘画乐趣!| 使用Qpipi读图提示功能,获取图片TAG Prompt提示 | Stable Diffusion AI绘图软件常见问题解答 | AI绘画新人必备工具指南
⭕ 注意:请勿使用浏览器的"阅读模式",会导致无法显示下载等内容。
- 最新
- 最热
只看作者