天天看热讯:重磅!Stability AI发布全新扩散模型DeepFloyd IF!
特别说明:本篇为翻译
原文来自:https://stability.ai/blog/deepfloyd-if-text-to-image-model
中文翻译:-Zho-
(资料图片仅供参考)
Stability AI发布了全新扩散模型DeepFloyd IF,这是一款由文本生成图像的强大模型,并且可以智能地将文本集成到图像中
今天,Stability AI与其多模态人工智能研究实验室DeepFloyd宣布发布DeepFloyd IF,这是一款强大的文本到图像级联像素扩散模型。
DeepFloyd IF是一种最先进的文本到图像模型,基于非商业、研究许可的许可发布,为研究实验室提供了检查和实验先进文本到图像生成方法的机会。与其他Stability AI模型一样,Stability AI打算在未来发布一个完全开源的DeepFloyd IF模型。
特征
• 深度文本理解能力:
生成过程使用了T5-XXL-1.1大型语言模型作为文本编码器。同时,大量的文本-图像交叉注意层也大大优化了提示词与图像的结合。
• 文本描述嵌入图像:
结合T5模型的智能,DeepFloyd IF可以将连贯清晰的文本与不同空间关系中出现的不同属性的对象一起生成。到目前为止,这对大多数文本-图像模型来说都是一个挑战。
• 更加完美的写实主义:
这一特性体现在COCO数据集上优秀的的FID零样本迁移能力得分——6.66分。 (FID是用于评估文本到图像模型性能的主要指标;分数越低越好)。
• 纵横比转换:
具有生成与标准方形宽高比图像相同的非标准宽高比(垂直或水平)能力。
• 零样本迁移能力实现图像到图像的转换:
图像的修改/转换通过以下三步实现:
(1)将原始图像调整为64像素
(2)通过前向扩散加入噪声
(3)使用新的提示符进行后向扩散,对图像进行去噪(在inpainting模式下,该过程发生在图像的局部区域)。
可以通过超分辨率模块通过提示文本描述进一步更改样式。这种方法提供了在保持源图像的基本形式的同时修改输出中的样式、模式和细节的机会——所有这些都不需要微调。
提示词示例
DeepFloyd IF可以通过提示词将文本、风格和空间关系创造为不同的融合概念,以适应用户的需求。
定义和过程
DeepFloyd IF是一个模块化、级联的像素扩散模型。我们将分别介绍每一个描述词的定义:
模块化:
DeepFloyd IF由几个神经模块(可以解决独立任务的神经网络,比如从文本提示词生成图像的神经网络以及用于图像放大的神经网络)组成,它们在一个架构中的交互产生协同作用。
级联:
DeepFloyd IF以级联方式对高分辨率数据进行建模,使用一系列不同分辨率的单独训练模型。该过程从产生独特的低分辨率样本(“播放器”)的基本模型开始,然后通过连续在超分辨率模型(“放大器”)上进行采样来产生高分辨率图像。
扩散:
DeepFloyd IF的基础模型和超分辨率模型都是扩散模型,其中使用马尔可夫链将随机噪声注入数据,然后将该过程反转以从噪声中生成新的数据样本。
像素:
DeepFloyd IF在像素空间中工作。扩散是在像素级上实现的,不像潜空间扩散模型(如Stable Diffusion),后者使用潜在表示。
这个生成流程图代表了三个阶段的表现:
文本提示词通过T5-XXL语言模型进行转换,以将其转换为定性文本表示。
阶段1:
基本扩散模型将定性文本转换为64x64图像。这个过程就像见证黑胶唱片的凹槽变成音乐一样神奇。DeepFloyd团队已经训练了三个版本的基础模型,每个版本都有不同的参数:IF-I 400M、IF-I 900M和IF-I 4.3B。
阶段2:
“放大”图像,将两个文本条件超分辨率模型(Efficient U-Net)应用于基础模型的输出。第一种方法将64x64图像升级为256x256图像。同样,该模型有几个版本:IF-II 400M和IF-II 1.2B。
阶段3:
应用第二种超分辨率扩散模型生成生动的1024x1024图像。最后的第三级模型IF-III具有700M参数。注意:我们还没有发布这个第三阶段的模型;然而,中频模型的模块化特性允许我们在第三阶段使用其他放大模型-如Stable Diffusion x4 Upscaler。
训练数据集
DeepFloyd IF在一个自定义的高质量LAION-A数据集上进行训练,该数据集包含1B (image, text) pairs(图像,文本)。LAION-A是LAION-5B数据集英文部分的子集,是在基于相似性散列、额外清理和对原始数据集的其他修改进行重复数据删除后获得的。DeepFloyd的自定义过滤器用于删除水印,NSFW和其他不适当的内容。
许可证
作为一个新模型,我们最初是根据研究许可发布DeepFloyd IF的。结合反馈,我们打算发布一个宽松的许可证,请发送反馈到deepfloyd@stability.ai。我们相信,对DeepFloyd IF的研究可以导致跨各个领域的新应用的发展,包括艺术,设计,讲故事,虚拟现实,可访问性等等。通过释放这种最先进的文本到图像模型的全部潜力,研究人员可以创建创新的解决方案,使广泛的用户和行业受益。
作为潜在研究的灵感来源,我们提出了几个问题,分为技术,学术和道德三组。
1. 技术研究问题:
a)用户如何通过识别提高其性能、可扩展性和效率的潜在改进来优化中频模型?
b)如何通过更好的采样、引导甚至微调DeepFloyd中频模式来提高输出质量?
c)用户如何在DeepFloyd IF上应用某些用于修改稳定扩散输出的技术,如DreamBooth、ControlNet和LoRA ?
2. 学术研究问题:
a)探索预训练在迁移学习中的作用:DeepFloyd IF是否可以通过微调(或ControlNet)解决生成任务(例如语义分割)以外的任务?
b)增强模型对图像生成的控制:研究人员能否探索对生成的图像提供更大控制的方法?这些变量包括特定的视觉属性,如自定义图像样式、定制图像合成或其他用户首选项。
c)探索多模态集成,以扩展模型的能力,超越文本到图像的合成:将多种模态(如音频或视频)与DeepFloyd IF集成,以生成更大的动态和上下文感知的视觉表示的最佳方法是什么?
d)评估模型的可解释性:为了更清楚地了解DeepFloyd IF的内部过程,研究人员可以开发技术来提高模型的可解释性,例如,允许对生成图像的视觉特征进行更深入的理解。
3.伦理研究问题:
a) DeepFloyd IF中的偏见是什么,我们如何减轻它们的影响?与任何人工智能模型一样,DeepFloyd IF可能包含源自其训练数据的偏见。研究人员可以探索生成图像中的潜在偏见,并开发减轻其影响的方法,确保人工智能生成内容的公平性和公平性。
b)该模式对社交媒体和内容生成的影响是什么?由于DeepFloyd IF可以从文本中生成高质量的图像,因此理解它对社交媒体内容创作的影响至关重要。研究人员可以研究生成的图像如何影响用户参与度、错误信息以及社交媒体平台上内容的整体质量。
c)研究人员如何利用我们的模型开发有效的假图像检测器?研究人员能否设计一个DeepFloyd if支持的检测系统来识别旨在传播错误信息和假新闻的人工智能生成的内容?
可以在DeepFloyd 's hugs Face空间接受模特卡上的许可来获得权重: https://huggingface.co/DeepFloyd。
如果您想了解更多,请查看该模型的网站: https://deepfloyd.ai/deepfloyd-if。
模型卡和代码可在这里获得: https://github.com/deep-floyd/IF。
欢迎大家尝试gradio上的测试版: https://huggingface.co/spaces/DeepFloyd/IF。
加入我们的公开讨论: https://linktr.ee/deepfloyd
我们欢迎您的反馈!请将您对DeepFloyd IF的评论和建议发送到deepfloyd@stability.ai
(图像均来自官网)
标签:
银燕飞临帕米尔高原 喀什旅游业迎来腾飞新机遇
拥抱智能新变化,MAXHUB 全新赋能企业新发展
端点科技携手晶科能源,推进能源供应链数字化转型
今日聚焦!美国高校研发出锂电池"完美替代者"
每日简讯:不惧风雨,山地骑行
当前速递!湖南大学无锡半导体先进制造创新中心正式揭牌
即时:通过数字化转型实现环境可持续发展
新资讯:3GW太阳能光伏组件项目:致力于成为行业领先专家 用光伏智造引领产业发展
快看:乘联会数据显示磷酸铁锂电池装机量反超三元锂
环球热点!丰田研发新型电动汽车电池续航提升15%
- 04-30天天看热讯:重磅!Stability AI发布全新扩散模型DeepFloyd IF!
- 04-30头条:机甲战斗类后宫动漫_魔法战斗后宫类动漫
- 04-29精感石没羽_羽化成蝶请问什么意思
- 04-29当前热文:网络平台_网络平台是什么意思
- 04-29五一假期|亲子+运动,这些商场是遛娃好去处|当前速看
- 04-29【天天热闻】汉沽警方打掉一流窜盗销企业物资犯罪团伙
- 04-29五大联赛场均控球率排名:曼城、拜仁、巴萨前3,布莱顿第6位 世界通讯
- 04-29各部门优化措施 服务“最热‘五一’假期” 保障出行畅通有序-热点评
- 04-29环球消息!待遇好的专科院校排名 专科就业率高的专业排名
- 04-29点赞新疆发展变化,驳斥外媒编造假新闻——部分国家驻华总领事参访新疆
- 04-29三国英雄传8单机版(三国英雄传8) 环球报道
- 04-29天天实时:“五一”假期首日北京市属公园迎客41万人次
- 04-29世界短讯!海尔子公司卡泰驰已成功落地汽车改装 充电 二手车业务
- 04-29金牌厨柜发布2022年年报,营收十年连增筑牢行业领军地位|今日讯
- 04-29环球信息:AWE2023大屏显示争奇斗艳,如何让电视还原视听本质?
- 04-29限量100台 先抽签获得购买资格 丰田推出GR Supra限量版-世界球精选
- 04-29美联储公布硅谷银行倒闭调查报告:银行管理极其糟糕
- 04-29环球微头条丨22年报及23Q1业绩点评:业绩韧性凸显,坚定迈向双百亿
- 04-29西安市曲江第一中学第十二届田径运动会开幕_世界微资讯
- 04-29周口市生态环境局西华分局开展机动车维修行业危险废物环境管理整治行动
- 04-29【热闻】喜乐“五一”|湖南耒阳:千年古县 点亮“夜纸都”
- 04-29库里谈普尔:我们曾一同在季后赛中磨砺成长 相信他能恢复过来_当前时讯
- 04-29汤神谈G6失利:太糟糕了!我打的太差 我仍然对球队充满信心-热点聚焦
- 04-29【当前热闻】高考满分作文点评(重庆卷):筷子2 辽宁省高考满分作文:沉默
- 04-29大华股份:重点投入大模型和多模态方向 会持续按需扩容算力
- 04-29斯佳辉距离闯入2023斯诺克世锦赛决赛还差3局
- 04-29全球快讯:武契奇再度回应健康问题:我已不再青春年少,但也不是明天就要去墓地
- 04-29成都熊猫基地门票4月29日、30日已约满
- 04-29抽油机工作原理视频_抽油机工作原理
- 04-29劳动合同期限不满3年的试用期的最长时间是