由Stable Diffusion根据文本提示"a photograph of an astronaut riding a horse"生成的图像
原作者Runway、CompVis、Stability AI
開發者Stability AI
  3.5(2024年10月23日)
  CreativeML Open RAIL-M
Stable Diffusion是2022年發布的深度學習文本到图像生成模型。它主要用於根據文本的描述產生詳細圖像,儘管它也可以應用於其他任務,如內補繪製、外補繪製,以及在提示詞指導下產生圖生圖的转变。[2]

它是一種潛在英语Latent variable model擴散模型,由慕尼黑大學的CompVis研究團體開發的各種生成性人工神經網絡之一。[3]它是由初創公司StabilityAI、CompVis與Runway合作開發,並得到EleutherAI英语EleutherAILAION英语LAION的支持。[4][5][6] 截至2022年10月,StabilityAI籌集了1.01億美元的資金。[7]

Stable Diffusion的源代碼和模型權重已分别公開發布在GitHubHugging Face,可以在大多數配備有適度GPU的電腦硬件上運行。而以前的專有文生圖模型(如DALL-EMidjourney)只能通過雲端運算服務訪問。[8][9]


Stable Diffusion使用的潛在擴散結構圖。

Stable Diffusion是一種擴散模型(diffusion model)的變體,叫做「潛在擴散模型」(latent diffusion model; LDM)。擴散模型是在2015年推出的,其目的是消除對訓練圖像的連續應用高斯噪聲,可以將其視為一系列去噪自編碼器。Stable Diffusion由3個部分組成:变分自编码器(VAE)、U-Net和一個文本編碼器。與其學習去噪圖像數據(在「像素空間」中),而是訓練VAE將圖像轉換為低維潜在空间。添加和去除高斯噪聲的過程被應用於這個潛在表示,然後將最終的去噪輸出解碼到像素空間中。在前向擴散過程中,高斯噪聲被迭代地應用於壓縮的潜在表徵。每個去噪步驟都由一個包含ResNet英语Residual neural network骨干的U-Net架構完成,通過從前向擴散往反方向去噪而獲得潜在表徵。最後,VAE解碼器通過將表徵轉換回像素空間來生成輸出圖像。研究人員指出,降低訓練和生成的計算要求是LDM的一個優勢。[4][3]

去噪步驟可以以文本串、圖像或一些其他數據為條件。調節數據的編碼通過交叉注意機制(cross-attention mechanism)暴露給去噪U-Net的架構。為了對文本進行調節,一個預訓練的固定CLIP ViT-L/14文本編碼器被用來將提示詞​轉化為嵌入空間。[3][5]


Stable Diffusion模型支持通過使用提示詞來產生新的圖像,描述要包含或省略的元素,[5]以及重新繪製現有的圖像,其中包含提示詞中描述的新元素(該過程通常被稱為「指導性圖像合成」(guided image synthesis)[10])通過使用模型的擴散去噪機制(diffusion-denoising mechanism)。[5] 此外,該模型還允許通過提示詞在現有的圖中進行內補繪製和外補繪製來部分更改,當與支持這種功能的用戶界面使用時,其中存在許多不同的開源軟件[11]

Stable Diffusion建議在10GB以上的显存下運行, 但是显存較少的用戶可以選擇以float16的精度加載權重,而不是默認的float32,以降低显存使用率。[12]


  • : 無反向提示詞
  • : "綠樹"
  • : "圓形石頭"

Stable Diffusion中的文生圖採樣腳本,稱為"txt2img",接受一個提示詞,以及包括採樣器(sampling type),圖像尺寸,和隨機種子英语Random seed的各種選項參數,並根據模型對提示的解釋生成一個圖像文件。[5] 生成的圖像帶有不可見的數位浮水印標籤,以允許用戶識別由Stable Diffusion生成的圖像,[5]儘管如果圖像被調整大小或旋轉,該水印將失去其有效性。[13] Stable Diffusion模型是在由512×512分辨率圖像組成的數據集上訓練出來的,[5][14]這意味著txt2img生成圖像的最佳配置也是以512×512的分辨率生成的,偏離這個大小會導致生成輸出質量差。[12] Stable Diffusion 2.0版本後來引入了以768×768分辨率圖像生成的能力。[15]

每一個txt2img的生成過程都會涉及到一個影響到生成圖像的隨機種子;用戶可以選擇隨機化種子以探索不同生成結果,或者使用相同的種子來獲得與之前生成的圖像相同的結果。[12] 用戶還可以調整採樣迭代步數(inference steps);較高的值需要較長的運行時間,但較小的值可能會導致視覺缺陷。[12] 另一個可配置的選項,即無分類指導比例值,允許用戶調整提示詞的相關性(classifier-free guidance scale value);[16]更具實驗性或創造性的用例可以選擇較低的值,而旨在獲得更具體輸出的用例可以使用較高的值。[12]

反向提示詞(negative prompt)是包含在Stable Diffusion的一些用戶界面軟件中的一個功能(包括StabilityAI自己的「Dreamstudio」雲端軟件即服務模式訂閱制服務),它允許用戶指定模型在圖像生成過程中應該避免的提示,適用於由於用戶提供的普通提示詞,或者由於模型最初的訓練,造成圖像輸出中出現不良的圖像特徵,例如畸形手脚。[11][17] 與使用強調符(emphasis marker)相比,使用反向提示詞在降低生成不良的圖像的頻率方面具有高度統計顯著的效果;強調符是另一種為提示的部分增加權重的方法,被一些Stable Diffusion的開源實現所利用,在關鍵詞中加入括號以增加或減少強調。[18]


  • : 最初用Stable Diffusion 1.5制作的图像
  • : 用Stable Diffusion XL 1.0修改后的图像

Stable Diffusion包括另一個取樣腳本,稱為"img2img",它接受一個提示詞、現有圖像的文件路徑和0.0到1.0之間的去噪強度,並在原始圖像的基礎上產生一個新的圖像,該圖像也具有提示詞中提供的元素;去噪強度表示添加到輸出圖像的噪聲量,值越大,圖像變化越多,但在語義上可能與提供的提示不一致。[5] 圖像升頻是img2img的一個潛在用例,除此之外。[5]

2022年11月24日發布的Stable Diffusion 2.0版本包含一個深度引導模型,稱為"depth2img",該模型推斷所提供的輸入圖像的深度英语Depth map,並根據提示詞​和深度信息生成新圖像,在新圖像中保持原始圖像的連貫性和深度。[15]


Stable Diffusion模型的許多不同用戶界面軟件提供了通過img2img進行圖生圖的其他用例。內補繪製(inpainting)由用戶提供的蒙版英语Layers (digital image editing)#Layer mask描繪的現有圖像的一部分,根據所提供的提示詞,用新生成的內容填充蒙版的空間。[11] 隨著Stable Diffusion 2.0版本的發布,StabilityAI同時創建了一個專門針對內補繪製用例的專用模型。[15] 相反,外補繪製(outpainting)將圖像擴展到其原始尺寸之外,用根據所提供的提示詞生成的內容來填補以前的空白空間。[11]

在Stable Diffusion中使用img2img的內補繪製與外補繪製技術的演示
第一步: 使用txt2img生成新圖像。巧合的是,它無意中生成了這個缺少一隻手臂的人。
第二步: 通過外補繪製,圖像底部被擴展了512像素,並被AI生成的內容所填充。
第三步: 在準備內補繪製時,使用GIMP中的畫筆繪製了一個臨時的手臂。
第四步: 在臨時手臂上應用內補繪製蒙版,img2img生成一個新手臂,同時保持圖像的其餘部分保持不變。


DALL-E等模型不同,Stable Diffusion提供其源代碼[19][5]以及預訓練的權重。其許可證禁止某些使用案例,包括犯罪,誹謗騷擾人肉搜索,「剝削…未成年人」,提供醫療建議,自動創建法律義務,偽造法律證據,以及「基於…社會行為或…個人或人格特徵…或受法律保護的特徵或類別而歧視或傷害個人或群體」。[20][21] 用戶擁有其生成的圖像的權利,並可自由地將其用於商業用途。[22]


Stable Diffusion是在LAION-5B的圖片和標題對上訓練的,LAION-5B是一個公開的數據集,源自從網絡上抓取公用抓取英语Common Crawl數據。該數據集由LAION英语LAION創建,LAION是一家德國非營利組織,接受StabilityAI的資助。[14][23] 該模型最初是在LAION-5B的一個大子集上訓練的,最後幾輪訓練是在「LAION-Aesthetics v2 5+」上進行的,這是一個由6億張帶標題的圖片組成的子集,人工智能預測人類在被要求對這些圖片的喜歡程度打分時至少會給5/10打分。[14][24] 這個最終的子集也排除了低分辨率的圖像和被人工智能識別為帶有水印的圖像。[14] 對該模型的訓練數據進行的第三方分析發現,在從所使用的原始更廣泛的數據集中抽取的1200萬張圖片的較小子集中,大約47%的圖像樣本量來自100個不同的網站,其中Pinterest佔8.5%子集,其次是WordPressBlogspotFlickrDeviantArt維基共享資源等網站。[14]

該模型是在亞馬遜雲計算服務上使用256個NVIDIA A100 GPU訓練,共花费15萬個GPU小時,成本為60萬美元。[25][26][27]


為了糾正模型初始訓練的局限性,終端用戶可以選擇實施額外的訓練,以微調生成輸出以匹配更具體的使用情況。有三種方法可以讓用戶對Stable Diffusion模型權重存檔點進行微調:

  • 「嵌入」(Embedding)可以從用戶提供的一些圖像被訓練出來,並允許模型在提示詞​中使用嵌入的名稱時生成視覺上相似的圖像。[28]嵌入是基於2022年臺拉維夫大學的研究人員在英偉達的支持下開發的「文本倒置」(Textual Inversion)概念,其中模型的文本編碼器使用的特定標記的矢量表示與新的偽詞相關聯。嵌入可以用來減少原始模型中的偏差,或模仿風格。[29]
  • 「超網路」(Hypernetwork)是NovelAI軟件開發員Kurumuz在2021年創造的一種技術,最初用於調節文本生成的Transformer模型,它能讓Stable Diffusion衍生的文生圖模型​模仿各種特定藝術家的風格,無論原始模型​能否識別此藝術家,通過在較大的神經網路中的不同點應用一個預訓練的小神經網路。超網路將文生圖或圖生圖結果導向特定方向,例如加上藝術風格,當與一個較大的神經網絡結合使用時。它通過尋找重要的關鍵區域來處理圖像(例:眼睛,頭髮),然後在二級潛在空間中修補這些區域。超網路的一個缺點是它們的準確性相對較低,也有時會產生不可預知的結果。因此,超網路適用於加上視覺風格或清理人體瑕疵。[30]
演示Stable Diffusion的「超網路」(Hypernetwork)技術。


版本号 发行日期 参数 注释
1.1, 1.2, 1.3, 1.4[32] 2022年8月 都由CompVis发行。没有版本1.0。1.1引发1.2,而1.2引发1.3和1.4二者[33]
1.5[34] 2022年10月 983M 以1.2而非1.4的权重初始化。由RunwayML发行。
2.0[35] 2022年11月 从头在过滤后的数据集上重新训练[36]
2.1[37] 2022年12月 以2.0的权重初始化。
XL 1.0[38] 2023年7月 3.5B XL 1.0基础模型有35亿个参数,使其比以前版本大了约3.5倍。[39]
XL Turbo[40] 2023年11月 提取自XL 1.0而以更少扩散步骤运行。[41]
3.0[42][43] 2024年2月(早期预览) 800M到8B 模型家族。
3.5[44] 2024年10月 2.5B到8B 具有Large(80亿个参数)、Large Turbo(提取自SD 3.5)和Medium (25亿个参数)的模型家族。


由於藝術風格構圖不受版權保護,因此通常認為使用Stable Diffusion生成藝術品圖像的用戶不應被視為侵犯視覺相似作品的版權,绝大部分的画作作者也没有授权允许用他们的作品训练ai,这将导致画师的失业。[45][46] 如果生成的圖像中所描述的真人被使用,他們仍然受到人格權的保護,[46] 而且諸如可識別的品牌標識等知識產權仍然受到版權保護。儘管如此,藝術家們表示擔心Stable Diffusion等模型的廣泛使用最終可能導致人類藝術家以及攝影師、模特、電影攝影師和演員逐漸失去與基於人工智能的競爭對手的商業可行性。[23]

與其他公司的類似機器學習圖像合成產品相比,Stable Diffusion在用戶可能產生的內容類型方面明顯更加寬容,例如暴力或性暴露的圖像。[47]

StabilityAI的首席執行官Emad Mostaque解決了該模型可能被用於濫用目的的擔憂,他解釋說:「人們有責任了解他們在操作這項技術時是否符合道德、道德和法律」,[9]將Stable Diffusion的能力交到公眾手中會使該技術在整體上提供淨收益,即使有潛在的負面後果。[9] 此外,Mostaque認為,Stable Diffusion的開放可用性背後的意圖是結束大公司對此類技術的控制和主導地位,他們之前只開發了封閉的人工智能系統進行圖像合成。[9][47]



Read other articles:

Long carbohydrate polymers such as starch, glycogen, cellulose, and chitin Further information: Homopolysaccharide 3D structure of cellulose, a beta-glucan polysaccharide Amylose is a linear polymer of glucose mainly linked with α(1→4) bonds. It can be made of several thousands of glucose units. It is one of the two components of starch, the other being amylopectin. Polysaccharides (/ˌpɒliˈsækəraɪd/), or polycarbohydrates, are the most abundant carbohydrates found in food. They are l...


العلاقات العراقية التونسية العراق تونس   العراق   تونس تعديل مصدري - تعديل   العلاقات العراقية التونسية هي العلاقات الثنائية التي تجمع بين العراق و‌تونس.[1][2][3][4][5] مقارنة بين البلدين هذه مقارنة عامة ومرجعية للدولتين: وجه المقارنة العراق ت�...


American diplomat and politician (born 1962) This article is about the former U.S. Senator from Arizona. For the Florida State Senator, see Jeff Flake (Florida politician). Senator Flake redirects here. For other uses, see Senator Flake (disambiguation). Jeff FlakeUnited States Ambassador to TurkeyIncumbentAssumed office January 26, 2022PresidentJoe BidenPreceded byDavid M. SatterfieldUnited States Senatorfrom ArizonaIn officeJanuary 3, 2013 – January 3, 2019Preceded byJon KylS...

Artikel ini perlu dikembangkan dari artikel terkait di Wikipedia bahasa Inggris. (Juli 2023) klik [tampil] untuk melihat petunjuk sebelum menerjemahkan. Lihat versi terjemahan mesin dari artikel bahasa Inggris. Terjemahan mesin Google adalah titik awal yang berguna untuk terjemahan, tapi penerjemah harus merevisi kesalahan yang diperlukan dan meyakinkan bahwa hasil terjemahan tersebut akurat, bukan hanya salin-tempel teks hasil terjemahan mesin ke dalam Wikipedia bahasa Indonesia. Jangan...


Kabupaten Tapanuli SelatanKabupatenTranskripsi bahasa daerah • Surat Batak Angkolaᯖᯇᯉᯮᯞᯪ ᯚᯩᯞᯖᯊ᯲Gambar Berlawanan Arah Jarum Jam: Aek Sijorni, di Sayur Matinggi, Tapanuli Selatan, Air Terjun Malakkut, di Kecamatan Marancar, Tapanuli Selatan, Komplek Perkantoran Kabupaten Tapanuli Selatan, Sipirok, dan Menara Pandang Sipirok. LambangMotto: Sahata saoloan(Batak Angkola) Seiya sekataPetaKabupaten Tapanuli SelatanPetaTampilkan peta SumatraKabupaten Tap...


Voce principale: A' Katīgoria (calcio). A' Katīgoria 1982-1983 Competizione A' Katīgoria Sport Calcio Edizione 44ª Organizzatore CFA Luogo  Cipro Partecipanti 14 Risultati Vincitore  Omonia(12º titolo) Retrocessioni  Olympiakos Nicosia APOP Paphou Statistiche Miglior marcatore Panikos Hatziloizou (17 reti) Incontri disputati 182 Gol segnati 443 (2,43 per incontro) Cronologia della competizione 1981-1982 1983-1984 Manuale L'edizione 1982-83 della A' Katīgor...

Amar Osim Informasi pribadiTanggal lahir 18 Juli 1967 (umur 56)Tempat lahir Bosnia dan HerzegovinaPosisi bermain GelandangKepelatihanTahun Tim 2006-2007 JEF United Chiba Amar Osim (lahir 18 Juli 1967) adalah pemain sepak bola asal Bosnia dan Herzegovina. Pranala luar (Jepang) J. League Data Site


Former state electoral district of New South Wales, Australia Location within Sydney Smithfield was an electoral district of the Legislative Assembly in the Australian state of New South Wales from 1988 to 2015.[1][2][3] It was abolished in 2015 and largely replaced by Prospect.[4] Members for Smithfield Member Party Term   Janice Crosio [5] Labor 1988—1990   Carl Scully [6] Labor 1990—2007   Ninos Khoshaba &...


Species of flowering plant Scaevola glabrata Scientific classification Kingdom: Plantae Clade: Tracheophytes Clade: Angiosperms Clade: Eudicots Clade: Asterids Order: Asterales Family: Goodeniaceae Genus: Scaevola Species: S. glabrata Binomial name Scaevola glabrataCarolin[1] Scaevola glabrata is a species of flowering plant in the family Goodeniaceae. It is a small, spreading shrub with fan-shaped blue flowers and elliptic to egg-shaped leaves. Description Scaevola glabrata is a...

Parti socialiste unifié du Venezuela(es) Partido Socialista Unido de Venezuela Logotype officiel. Présentation Président Nicolás Maduro Fondation 24 mars 2007 Siège Mariperez, Caracas, Venezuela Vice-président Diosdado Cabello Fondateur Hugo Chávez Organisation de jeunesse Jeunesse du Parti socialiste unifié du Venezuela (en) Journal Cuatro F Hymne La Hora del Pueblo(L'heure du peuple)[1] Positionnement Gauche[2] à gauche radicale[3],[4],[5] Idéologie Socialisme du XXIe s...


2016年美國總統選舉 ← 2012 2016年11月8日 2020 → 538個選舉人團席位獲勝需270票民意調查投票率55.7%[1][2] ▲ 0.8 %   获提名人 唐納·川普 希拉莉·克林頓 政党 共和黨 民主党 家鄉州 紐約州 紐約州 竞选搭档 迈克·彭斯 蒂姆·凱恩 选举人票 304[3][4][註 1] 227[5] 胜出州/省 30 + 緬-2 20 + DC 民選得票 62,984,828[6] 65,853,514[6]...


土库曼斯坦总统土库曼斯坦国徽土库曼斯坦总统旗現任谢尔达尔·别尔德穆哈梅多夫自2022年3月19日官邸阿什哈巴德总统府(Oguzkhan Presidential Palace)機關所在地阿什哈巴德任命者直接选举任期7年,可连选连任首任萨帕尔穆拉特·尼亚佐夫设立1991年10月27日 土库曼斯坦土库曼斯坦政府与政治 国家政府 土库曼斯坦宪法 国旗 国徽 国歌 立法機關(英语:National Council of Turkmenistan) ...



American film franchise Cheaper by the DozenOfficial film franchise logo, as released in 2021Based onCharacters created byFrank B. Gilbreth, Jr.Ernestine Gilbreth CareyProductioncompanies20th Century Studios (entire films)Walt Disney Pictures (2022)Distributed by20th Century Fox (1950-1952, 2003-2005)Disney+ (2022)Release date1950-presentCountryUnited StatesLanguageEnglish The Cheaper by the Dozen franchise consists of a series of films and stage adaptations, based on the real-life events of ...


EragonSutradaraStefen FangmeierProduserJohn DavisAdam GoodmanGil NetterSkenarioPeter BuchmanBerdasarkanNovel:Christopher PaoliniPemeranEd SpeleersJeremy IronsSienna GuilloryRobert CarlyleDjimon HounsouGarrett HedlundJoss Stonewith Rachel Weisz and John MalkovichPenata musikPatrick DoyleSinematograferHugh JohnsonPenyuntingRoger BartonMasahiro HirakuboChris LebenzonDistributor20th Century FoxTanggal rilis 15 Desember 2006 (2006-12-15) Durasi103 menitNegaraAmerika SerikatBahasaInggris...

Religions shaped by historical paganism Neopagan redirects here. For the album, see Paolo Rustichelli § Partial discography. Heathen altar for Haustblot in Björkö, Sweden. The larger wooden idol represents the god Frey. Modern paganism, also known as contemporary paganism[1] and neopaganism,[2] is a type of religion or family of religions influenced by the various historical pre-Christian beliefs of pre-modern peoples in Europe and adjacent areas of North Africa and th...


Chilean shot putter (born 1989) Natalia DucoNatalia Duco in 2023Personal informationFull nameNatalia Duco SolerBorn (1989-01-31) January 31, 1989 (age 35)San Felipe, ValparaísoEducationGabriela Mistral UniversityHeight1.77 m (5 ft 9+1⁄2 in)Weight99 kg (218 lb)SportCountry ChileSportAthleticsEventShot Put Medal record Women's athletics Pan American Games 2015 Toronto Shot put South American Games 2014 Santiago Shot put South American Championships...


BC AB SK MB ON QC NB PE NS NL YT NT NU Communities by provinces and territories of Canada This is a list of incorporated cities in Canada, in alphabetical order categorized by province or territory. More thorough lists of communities are available for each province. Capital cities Geographic area Capital Canada Ottawa Alberta Edmonton British Columbia Victoria Manitoba Winnipeg New Brunswick Fredericton Newfoundland and Labrador St. John's Nova Scotia Halifax Ontario Toronto Prince Edward Is...

В Википедии есть статьи о других людях с фамилией Торбеке. Йохан Рудольф Торбеке премьер-министр Нидерландов[d] 1 ноября 1849 — 19 апреля 1853 Предшественник Де Кемпенар, Якобус Преемник Ван Халл, Флорис Адриан премьер-министр Нидерландов[d] 1 февраля 1862 — 10 февраля 186...


Questa voce sull'argomento reti televisive è solo un abbozzo. Contribuisci a migliorarla secondo le convenzioni di Wikipedia. Segui i suggerimenti del progetto di riferimento. RTS InfoLogo dell'emittenteStato Svizzera Linguafrancese VersioniRTS Info (data di lancio: 26 dicembre 2006) GruppoSRG SSR EditoreRTS Modifica dati su Wikidata · Manuale RTS Info è un canale televisivo all-news svizzero edito da RTS, filiale di lingua francese della SRG SSR. Nato il 26...