Зоровий трансформер

Зорови́й трансфо́рмер (англ. Vision Transformer, ViT) — це трансформер, призначений для задач зорової обробки, таких як розпізнавання зображень.[1]

Зорові трансформери

Архітектура Зорового трансформера для класифікування зображень

Трансформери знайшли своє початкове застосування у задачах обробки природної мови (ОПМ), що демонструють такі мовні моделі як BERT та GPT-3. На противагу цьому, типова система обробки зображень використовує згорткову нейронну мережу (ЗНМ). До відомих проєктів належать Xception[en], ResNet, EfficientNet,[2] DenseNet[3] та Inception.[1]

Трансформери вимірюють взаємозв'язки (англ. relationships) між парами токенів входу (лексем у випадку текстових стрічок), які називають увагою (англ. attention). Витратність зі зростанням числа токенів зростає експоненційно. Для зображень основною одиницею аналізу є піксель. Проте обчислення взаємозв'язків для кожної з пар пікселів у типовому зображенні є недопускним з точки зору пам'яті та обчислень. Зоровий трансформер натомість обчислює взаємозв'язки між пікселями в різних невеликих ділянках зображення (наприклад, 16×16 пікселів) за різко знижених витрат. Ці ділянки (з позиційними вкладеннями) розташовують у послідовності. Вкладення є векторами, яких можливо навчатися. Кожну з ділянок впорядковують у лінійну послідовність і множать на матрицю вкладення. Результат, із позиційним вкладенням, подають до трансформера.[1]

Як і у випадку з BERT, фундаментальну роль у задачах класифікування відіграє токен класу. Спеціальний токен, який використовують як єдиний вхід для завершальної БШП-голови, оскільки на неї вже вплинули всі інші.

Архітектура для класифікування зображень є найпоширенішою, і для трансформування різних токенів входу вона використовує лише кодувальник Трансформера. Проте існують й інші застосування, в яких використовують також і декодувальну частину традиційної архітектури Трансформера.

Історія

Трансформери, спершу представлені 2017 року у відомій праці «Увага — це все, що вам потрібно»,[4] широко поширилися у сфері обробки природної мови, незабаром ставши однією з найширше використовуваних та найперспективніших архітектур у цій галузі.

2020 року, з працею «Зображення вартує 16×16 слів»,[5] для виконання завдань у комп'ютернім баченні було пристосовано Зорові трансформери. Їхня ідея полягає в тому, щоби розбивати вхідні зображення на низку фрагментів, які, перетворивши їх на вектори, розглядати як слова у звичайному трансформері.

Якщо в галузі обробки природної мови механізм уваги Трансформерів намагався вловлювати взаємозв'язки між різними словами аналізованого тексту, то в комп'ютернім баченні Зорові трансформери намагаються натомість вловлювати взаємозв'язки між різними частинами зображення.

2021 року чиста трансформерова модель продемонструвала кращу продуктивність та більшу ефективність у класифікуванні зображень, аніж ЗНМ.[1]

У дослідженні від червня 2021 року було додано трансформерову післяобробку до ResNet, що різко скоротило витрати та підвищило точність.[6][7][8]

Того ж року було запропоновано деякі важливі варіанти Зорових трансформерів. Ці варіанти здебільшого мають на меті бути ефективнішими, точнішими, або краще пристосованими до певної області. Серед найактуальніших — Swin Transformer,[9] який, завдяки деяким видозмінам механізму уваги та багатоступеневому підходу, досяг передових результатів на деяких наборах даних виявляння об'єктів, як-то COCO. Іншим цікавим варіантом є TimeSformer, розроблений для задач розуміння відео, й здатний вловлювати просторову та часову інформацію за рахунок використання розділеної просторово-часової уваги.[10][11]

Зорові трансформери вже 2021 року виявилися здатними вийти з лабораторії й потрапити до однієї з найважливіших галузей комп'ютерного бачення, автономної їзди. Інженери Тесла продемонстрували під час Дня ШІ Тесла,[12] що їхня система автопілоту насправді, серед інших систем, використовує Трансформер, який переважно використовують для правильної роботи багатокамерної системи на автомобілях.

Порівняння зі згортковими нейронними мережами

Продуктивність Зорових трансформерів залежить від рішень, включно з рішеннями стосовно оптимізатора, специфічних для набору даних гіперпараметрів, та глибини мережі. Оптимізувати ЗНМ набагато простіше.

Однією з видозмін чистого трансформера є одруження трансформера зі основою/передобробкою ЗНМ. Типова основа Зорового трансформера використовує згортку 16×16 з кроком 16. На відміну від цього, згортка 3×3 із кроком 2 збільшує стабільність, а також покращує точність.[8]

ЗНМ здійснює перетворення з базового рівня пікселів до карти ознак. Токенувальник перетворює карту ознак на низку токенів, які потім подають до трансформера, який застосовує механізм уваги для створення низки токенів виходу. Проєктор, зрештою, знову з'єднує токени виходу з картою ознак. Останнє дозволяє аналізові використовувати потенційно значущі деталі на рівні пікселів. Це різко зменшує кількість токенів, необхідних для аналізу, відповідно знижуючи витрати.[6]

Відмінностей між ЗНМ та Зоровими трансформерами багато, і полягають вони головним чином у їхніх архітектурних відмінностях.

Насправді ЗНМ досягають чудових результатів навіть за тренування на основі обсягів даних, що є не настільки великими, як того вимагають Зорові трансформери.

Ця відмінність у поведінці, схоже, випливає з наявності в ЗНМ деяких індуктивних упереджень, які можуть так чи інакше використовуватися цими мережами для швидшого схоплювання особливостей аналізованих зображень, навіть якщо, з іншого боку, вони зрештою обмежують їх, ускладнюючи схоплювання ними глобальних взаємозв'язків.[13][14]

З іншого боку, Зорові трансформери є вільними від цих упереджень, що призводить до їхньої здатності схоплювати також глобальні й ширші взаємозв'язки, але ціною обтяжливішого з точки зору даних навчання.

Зорові трансформери також довели свою здатність бути набагато стійкішими до спотворень вхідних зображень, таких як змагальне затуляння або переставляння.[15]

Проте обирання однієї архітектури замість іншої не завжди наймудріший вибір, і чудові результати отримано в кількох задачах комп'ютерного бачення за допомогою гібридних архітектур, що поєднують згорткові шари з Зоровими трансформерами.[16][17][18]

Роль самокерованого навчання

Значна потреба в даних на етапі тренування зробила необхідним пошук альтернативних методів для тренування цих моделей,[19] і тепер центральну роль відіграють методи самокерованого навчання. Із застосуванням цих підходів можливо тренувати нейронну мережу практично автономним чином, дозволяючи їй виводити особливості конкретної задачі без потреби у створенні великого набору даних, або надавання їй точно встановлених міток. Можливість тренувати Зоровий трансформер без необхідності мати у своєму розпорядженні величезний набір даних бачення може стати ключем до широкого розповсюдження цієї перспективної нової архітектури.

Найзначнішого результату досягли дослідники з Facebook AI із DINO,[20] методом самокерування для тренування Зорового трансформера. Із застосуванням цього підходу отримано чудові результати у задачах класифікування на важливих наборів даних, таких як ImageNet[en], але, і насамперед, вражаючі результати у сегментуванні та кластеруванні відео.[21]

Застосування

Зорові трансформери використовували в багатьох задачах комп'ютерного бачення з чудовими результатами, а в деяких випадках навіть із передовими.

До найактуальніших сфер застосування належать:

Втілення

Існує багато втілень Зорових трансформерів та їхніх варіантів, доступних у відкритому коді в Інтернеті. Основні версії цієї архітектури втілено в PyTorch,[22] але також зроблено доступними втілення й для Tensorflow.[23]

Див. також

Примітки

  1. а б в г Sarkar, Arjun (20 травня 2021). Are Transformers better than CNN's at Image Recognition?. Medium (англ.). Архів оригіналу за 11 травня 2022. Процитовано 11 липня 2021. (англ.)
  2. Tan, Mingxing; Le, Quoc V. (23 червня 2021). EfficientNet V2: Smaller Models and Faster Training. arXiv:2104.00298 [cs.CV]. (англ.)
  3. Huang, Gao; Liu, Zhuang; van der Maaten, Laurens; Q. Weinberger, Kilian (28 січня 2018). Densely Connected Convolutional Networks. arXiv:1608.06993 [cs.CV]. (англ.)
  4. Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia (5 грудня 2017). Attention Is All You Need. arXiv:1706.03762 [cs]. Архів оригіналу за 17 жовтня 2021. Процитовано 17 жовтня 2021. (англ.)
  5. Dosovitskiy, Alexey; Beyer, Lucas; Kolesnikov, Alexander; Weissenborn, Dirk; Zhai, Xiaohua; Unterthiner, Thomas; Dehghani, Mostafa; Minderer, Matthias; Heigold, Georg; Gelly, Sylvain; Uszkoreit, Jakob (3 червня 2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. arXiv:2010.11929 [cs]. Архів оригіналу за 17 жовтня 2021. Процитовано 17 жовтня 2021. (англ.)
  6. а б Synced (12 червня 2020). Facebook and UC Berkeley Boost CV Performance and Lower Compute Cost With Visual Transformers. Medium (англ.). Архів оригіналу за 17 жовтня 2021. Процитовано 11 липня 2021. (англ.)
  7. Wu, Bichen; Xu, Chenfeng; Dai, Xiaoliang; Wan, Alvin; Zhang, Peizhao; Yan, Zhicheng; Masayoshi, Tomizuka; Gonzalez, Joseph; Keutzer, Kurt; Vajda, Peter (2020). Visual Transformers: Token-based Image Representation and Processing forComputer Vision. arXiv:2006.03677 [cs.CV]. (англ.)
  8. а б Xiao, Tete; Singh, Mannat; Mintun, Eric; Darrell, Trevor; Dollár, Piotr; Girshick, Ross (28 червня 2021). Early Convolutions Help Transformers See Better. arXiv:2106.14881 [cs.CV]. (англ.)
  9. Liu, Ze; Lin, Yutong; Cao, Yue; Hu, Han; Wei, Yixuan; Zhang, Zheng; Lin, Stephen; Guo, Baining (25 березня 2021). Swin Transformer: Hierarchical Vision Transformer using Shifted Windows (англ.). Архів оригіналу за 17 жовтня 2021. Процитовано 17 жовтня 2021. (англ.)
  10. Bertasius, Gedas; Wang, Heng; Torresani, Lorenzo (9 лютого 2021). Is Space-Time Attention All You Need for Video Understanding? (англ.). Архів оригіналу за 17 жовтня 2021. Процитовано 17 жовтня 2021. (англ.)
  11. Coccomini, Davide (31 березня 2021). On Transformers, TimeSformers, and Attention. An exciting revolution from text to videos. Towards Data Science. Архів оригіналу за 3 жовтня 2021. Процитовано 17 жовтня 2021. (англ.)
  12. Tesla AI Day на YouTube (англ.)
  13. Raghu, Maithra; Unterthiner, Thomas; Kornblith, Simon; Zhang, Chiyuan; Dosovitskiy, Alexey (19 серпня 2021). Do Vision Transformers See Like Convolutional Neural Networks?. arXiv:2108.08810 [cs, stat]. Архів оригіналу за 19 жовтня 2021. Процитовано 17 жовтня 2021. (англ.)
  14. Coccomini, Davide (24 липня 2021). Vision Transformers or Convolutional Neural Networks? Both!. Towards Data Science. (англ.)
  15. Naseer, Muzammal; Ranasinghe, Kanchana; Khan, Salman; Hayat, Munawar; Khan, Fahad Shahbaz; Yang, Ming-Hsuan (21 травня 2021). Intriguing Properties of Vision Transformers (англ.). Архів оригіналу за 17 жовтня 2021. Процитовано 17 жовтня 2021. (англ.)
  16. Dai, Zihang; Liu, Hanxiao; Le, Quoc V.; Tan, Mingxing (9 червня 2021). CoAtNet: Marrying Convolution and Attention for All Data Sizes (англ.). Архів оригіналу за 17 жовтня 2021. Процитовано 17 жовтня 2021. (англ.)
  17. Wu, Haiping; Xiao, Bin; Codella, Noel; Liu, Mengchen; Dai, Xiyang; Yuan, Lu; Zhang, Lei (29 березня 2021). CvT: Introducing Convolutions to Vision Transformers (англ.). Архів оригіналу за 17 жовтня 2021. Процитовано 17 жовтня 2021. (англ.)
  18. Coccomini, Davide; Messina, Nicola; Gennaro, Claudio; Falchi, Fabrizio (6 липня 2021). Combining EfficientNet and Vision Transformers for Video Deepfake Detection (англ.). Архів оригіналу за 17 жовтня 2021. Процитовано 17 жовтня 2021. (англ.)
  19. Coccomini, Davide (24 липня 2021). Self-Supervised Learning in Vision Transformers. Towards Data Science. Архів оригіналу за 3 жовтня 2021. Процитовано 17 жовтня 2021. (англ.)
  20. Caron, Mathilde; Touvron, Hugo; Misra, Ishan; Jégou, Hervé; Mairal, Julien; Bojanowski, Piotr; Joulin, Armand (29 квітня 2021). Emerging Properties in Self-Supervised Vision Transformers (англ.). Архів оригіналу за 17 жовтня 2021. Процитовано 17 жовтня 2021. (англ.)
  21. Advancing the state of the art in computer vision with self-supervised Transformers and 10x more efficient training. Facebook AI. 30 квітня 2021. Архів оригіналу за 17 жовтня 2021. Процитовано 17 жовтня 2021. (англ.)
  22. vit-pytorch на GitHub
  23. Salama, Khalid (18 січня 2021). Image classification with Vision Transformer. keras.io. Архів оригіналу за 3 жовтня 2021. Процитовано 17 жовтня 2021.

Посилання

Read other articles:

Georges Leredu Georges Leredu en 1921. Fonctions Député 1914-1927Sénateur 1927-1936 Circonscription Seine-et-Oise Groupe politique FR (1914-1919)ERD (1919-1924)GRD (1924-1927) Maire de Franconville 1908 – 1919 (11 ans) Prédécesseur Claude Bonne Successeur Octave Bucourt Biographie Nom de naissance Georges Jean Leredu Date de naissance 2 juin 1860 Lieu de naissance Metz Date de décès 23 juin 1943 (à 83 ans) Lieu de décès 8e arrondissement de Paris modifier  Georges ...

 

Kalender Jawa atau Penanggalan Jawa (Hanacaraka: ꦥꦤꦁꦒꦭ꧀ꦭꦤ꧀ꦗꦮ; Pegon: ڤناڠڬالان جاوا; translit. Pananggalan Jawa) adalah sistem penanggalan yang digunakan oleh Kesultanan Mataram dan berbagai kerajaan pecahannya serta daerah yang mendapat pengaruhnya. Penanggalan ini memadukan sistem penanggalan Islam, sistem Penanggalan Hindu, dan sedikit penanggalan Julian yang merupakan bagian budaya Barat. Sistem kalender Jawa memakai dua siklus hari: siklus mingguan yang...

 

Historic district in Iowa, United States United States historic placeRedmond Park-Grande AvenueHistoric DistrictU.S. National Register of Historic PlacesU.S. Historic district Russell & Clara Mantz House (1900)Show map of IowaShow map of the United StatesLocationRoughly bounded by U.S. Route 151, 19th St., and Washington Ave., Cedar Rapids, IowaCoordinates41°59′16″N 91°38′42″W / 41.98778°N 91.64500°W / 41.98778; -91.64500Area40.75 acres (16.49 ha)A...

Academic journal about animal ethics The topic of this article may not meet Wikipedia's general notability guideline. Please help to demonstrate the notability of the topic by citing reliable secondary sources that are independent of the topic and provide significant coverage of it beyond a mere trivial mention. If notability cannot be shown, the article is likely to be merged, redirected, or deleted.Find sources: Journal of Animal Ethics – news · newspapers · boo...

 

Smartphone app YoDeveloper(s)Or ArbelInitial releaseApril 1, 2014; 10 years ago (2014-04-01)Operating systemiOS, AndroidWebsitewww.justyo.co Yo was a social mobile application for iOS, Android, and formerly also Windows Phone. Initially, the application's only function was to send the user's friends the word yo as a text and audio notification,[1] but was then updated to enable users to attach links and location to their Yos.[2][3] History Yo was crea...

 

Topography of North Rhine-Westphalia This list of the mountains and hills in North Rhine-Westphalia shows a selection of high or well-known mountains and hills in the German state of North Rhine-Westphalia (in order of height). Highest points of the North Rhine-Westphalian provinces The following table gives the highest hill or point in the five provinces (Regierungsbezirke) of North Rhine-Westphalia. By clicking on the word List in the Lists column you will be taken to a list of other hills...

Radio station in Kewanee, IllinoisWKEIKewanee, IllinoisBroadcast areaHenry, Bureau, Knox, and Stark CountiesFrequency1450 kHzBrandingNewstalk 1450 AM, 107.7 FM - WKEIProgrammingFormatNews/talkAffiliationsFox NewsOwnershipOwnerFletcher M. Ford(Virden Broadcasting Corp.)Sister stationsWJRE, KQCJHistoryCall sign meaningW KEwanee IllinoisTechnical informationFacility ID70276ClassCPower500 watts day1,000 watts nightTranslator(s)107.7 W299BN (Sheffield)Repeater(s)102.5 WJRE-HD4 (Galva)Lin...

 

Skema letusan gunung api bawah laut. Awan uap airAirStrataAliran laharSaluran magmaRuang magmaTanggulLava bantal Bantal lahar yang dibentuk oleh gunung berapi bawah laut Video eksplorasi NOAA yang menunjukkan sisa-sisa gunung berapi tar bawah laut. Semburan melingkar dari letusan gunung bawah laut di dekat Tonga Gunung berapi bawah laut adalah ventilasi atau celah di Bumi permukaan di mana magma dapat meletus. Sejumlah besar gunung berapi bawah laut yang terletak di dekat daerah tektonik perg...

 

Hypericaceae Hypericum tetrapterum Klasifikasi ilmiah Kerajaan: Plantae (tanpa takson): Angiospermae (tanpa takson): Eudikotil (tanpa takson): Rosidae Ordo: Malpighiales Famili: HypericaceaeJuss. Genera Lihat teks Hypericaceae atau Suku Mampat-mampatan adalah salah satu suku anggota tumbuhan berbunga. Menurut Sistem klasifikasi APG II suku ini dimasukkan ke dalam bangsa Malpighiales, klad euRosidae I. Wikimedia Commons memiliki media mengenai Hypericaceae. Daftar Genus Tribus Cratoxyleae Cra...

内華達州 美國联邦州State of Nevada 州旗州徽綽號:產銀之州、起戰之州地图中高亮部分为内華達州坐标:35°N-42°N, 114°W-120°W国家 美國建州前內華達领地加入聯邦1864年10月31日(第36个加入联邦)首府卡森城最大城市拉斯维加斯政府 • 州长(英语:List of Governors of {{{Name}}}]]) • 副州长(英语:List of lieutenant governors of {{{Name}}}]])喬·隆巴爾多(R斯塔...

 

City in Baden-Württemberg, Germany Town in Baden-Württemberg, GermanyConstance KonstanzTownRheintorturm, a section of the former city wall of Konstanz at Lake Constance FlagCoat of armsLocation of Constance within Konstanz district Constance Show map of GermanyConstance Show map of Baden-WürttembergCoordinates: 47°40′N 9°11′E / 47.667°N 9.183°E / 47.667; 9.183CountryGermanyStateBaden-WürttembergAdmin. regionFreiburg DistrictKonstanz Subdivisions15Government...

 

American biochemist This article has an unclear citation style. The references used may be made clearer with a different or consistent style of citation and footnoting. (January 2010) (Learn how and when to remove this message) Martin RodbellRodbell in 1994Born(1925-12-01)December 1, 1925Baltimore, Maryland, U.S.DiedDecember 7, 1998(1998-12-07) (aged 73)Chapel Hill, North Carolina, U.S.NationalityAmericanAlma materJohns Hopkins UniversityUniversity of WashingtonKnown forG-prote...

Artworks designed and produced by means of electronic media technologies Newskool ASCII Screenshot with the words “Closed Society II” Eduardo Kac's installation Genesis Ars Electronica 1999 10.000 moving cities, Marc Lee, 2013, National Museum of Modern and Contemporary Art Seoul, Korea New media art includes artworks designed and produced by means of electronic media technologies. It comprises virtual art, computer graphics, computer animation, digital art, interactive art, sound art, In...

 

Masacre de los latinos Mapa de Constantinopla. Los sectores latinos están indicados con sus nombres en color púrpura.Lugar Constantinopla, Imperio bizantino (actual Estambul)Blanco Católicos (latinos) residentes en Constantinopla.Fecha Mayo de 1182Muertos Desconocido, decenas de miles (estimado).Perpetrador Turbas ortodoxas[editar datos en Wikidata] La Masacre de los Latinos tuvo lugar en Constantinopla, la capital del Imperio bizantino, en mayo de 1182.[1]​ Fue una masacre...

 

ميدان سباق الخيل في بيروتمعلومات عامةالمنطقة الإدارية بيروت البلد  لبنان الموقع الجغرافيالإحداثيات 33°52′39″N 35°30′43″E / 33.87745832°N 35.51189094°E / 33.87745832; 35.51189094 تعديل - تعديل مصدري - تعديل ويكي بيانات ميدان سباق الخيل في بيروت عام 1973 ميادين سباق الخيل في بيروت تعد الع�...

Mariah JambiNagoriKantor Pangulu Nagori Mariah JambiNegara IndonesiaProvinsiSumatera UtaraKabupatenSimalungunKecamatanJawa Maraja Bah JambiKode pos21153Luas... km²Jumlah penduduk... jiwaKepadatan... jiwa/km² Mariah Jambi merupakan salah satu nagori yang ada di kecamatan Jawa Maraja Bah Jambi, kabupaten Simalungun, provinsi Sumatera Utara, Indonesia. Galeri Gereja GKPS Raya Timuran di Huta Timuran Gereja HKBP Raya Timuran di Huta Timuran lbsKecamatan Jawa Maraja Bah Jambi, Kabupaten Sim...

 

This article includes a list of general references, but it lacks sufficient corresponding inline citations. Please help to improve this article by introducing more precise citations. (June 2023) (Learn how and when to remove this message) Thirteenth Expeditionary Air ForceShield of the Thirteenth Air ForceActive29 September 2012 – present (as Thirteenth Expeditionary Air Force)16 January 2007 – 28 September 2012 (as Thirteenth Air Force (Air Forces Pacific))1 February 1953 – 16 January ...

 

Town in New York, United States. Town in New York, United StatesHamburgTownTown of HamburgMotto(s):  The Town That Friendship BuiltLocation of Hamburg in Erie County and New YorkHamburgLocation in the United StatesCoordinates: 42°44′40″N 78°51′30″W / 42.74444°N 78.85833°W / 42.74444; -78.85833CountryUnited StatesStateNew YorkCountyErieIncorporated1812; 212 years ago (1812)Named forHamburg, GermanyGovernment • TypeTown boar...

Ancient skeleton of Indigenous American man Kennewick ManSkull of Kennewick Man. Resin cast by James ChattersCommon nameKennewick ManSpeciesHomo sapiensAge8400–8690 years Before PresentPlace discoveredColumbia Park in Kennewick, WashingtonDate discoveredJuly 28, 1996Discovered byWill Thomas and David Deacy Kennewick Man or Ancient One[nb 1] was an ancient Indigenous American man who lived during the early Holocene, whose skeletal remains were found washed out on a bank of the Columb...

 

Main article: 1916 United States presidential election 1916 United States presidential election in Florida ← 1912 November 7, 1916 1920 →   Nominee Woodrow Wilson Charles Evans Hughes Party Democratic Republican Home state New Jersey New York Running mate Thomas R. Marshall Charles W. Fairbanks Electoral vote 6 0 Popular vote 55,984 14,611 Percentage 69.34% 18.10%   Nominee Allan L. Benson Frank Hanly Party Socialist Prohibition Home s...