Зниження розмірності

У статистиці, машинному навчанні та теорії інформації зниження розмірності є процесом скорочення кількості випадкових змінних[1] шляхом отримання множини головних змінних. Цей процес можна поділити на обирання ознак та виділяння ознак.[2]

Обирання ознак

Докладніше: Обирання ознак

Обирання ознак — це процес пошуку підмножини первісних змінних (ознак або властивостей) для використання в побудові моделі. Є три стратегії:

  • фільтрування (наприклад, отримання інформації[en])
  • обгортання (наприклад, пошук, який керується точністю)
  • вкладення або вбудування (ознаки обираються для додавання або видалення при створенні моделі ґрунтуючись на помилках прогнозування)

Дивись також задачі комбінаторної оптимізації.

В деяких випадках аналіз даних, такий як класифікація або регресія, можна зробити у скороченому просторі більш точно, ніж у початковому.[3]

Конструювання ознак

Конструювання ознак перетворює дані з багатовимірного простору в простір невеликої кількості вимірів. Таке перетворення може бути лінійним, як в методі головних компонент, проте також існує багато методів нелінійного зниження розмірності[en].[4][5] Для багатовимірних даних можна використати тензорне представлення для скорочення розмірності через навчання полілінійного підпростору[en].[6]

Метод головних компонент (МГК)

Основна лінійна техніка зменшення розмірності, метод головних компонент, здійснює лінійне відображення даних в менш вимірний простір таким чином, що максимізується дисперсія даних у маловимірному представленні. Фактично, будується матриця коваріації (а іноді й кореляції) даних, і обчислюються власні вектори цієї матриці. Власні вектори, що відповідають найбільшим власним числам (головні компоненти), тепер можуть бути використані для реконструкції великої частки дисперсії у вихідних даних. Більш того, перші кілька власних векторів часто можна тлумачити в термінах великомасштабної фізичної поведінки системи[джерело?][чому?]. Початковий простір зменшується (з втратою даних, проте, зберігається найважливіша дисперсія) до простору, який визначається кількома власними векторами.

Розклад невід'ємних матриць (РНМ)

РНМ розкладає невід'ємну матрицю на добуток двох невід'ємних матриць, що було перспективним інструментом в таких областях, де існують лише невід'ємні сигнали,[7][8] такі як астрономія[9][10]. РНМ добре відома завдяки правилу мультиплікативного оновлення Lee & Seung[7], який постійно розроблявся: включення невизначеностей[9], розгляд відсутніх даних та паралельність обчислень[11], послідовність побудови[11], що веде до стабільності та лінійності РНМ[10], як і інші оновлення.

За допомогою стабільної компонентної бази під час побудови та лінійності процесу моделювання, послідовний РНМ[11] здатний зберігати потік при прямому відтворенні навколозоряних структур в астрономії[10], як один із способів виявлення екзопланет, особливо при безпосередньому зображені навколозоряних дисків. У порівнянні з МГК, РНМ не видаляє середнє матриць, що призводить до нефізичних невід'ємних потоків, тому РНМ здатний зберігати більше інформації, ніж МГК, як показав Рен та інші[10].

Ядровий метод головних компонент

Метод головних компонент можна використати нелінійним шляхом за допомогою ядрового трюку. Отримана методика здатна побудувати нелінійні відображення, які максимізують дисперсію даних. Отримана методика називається ядровий метод головних компонент[en].

Лінійний розділювальний аналіз

Лінійний розділювальний аналіз (ЛРА) — це узагальнення лінійного дискримінанта Фішера, який використовується для статистики, розпізнавання образів та машинного навчання, щоб знайти лінійну комбінацію ознак, які характеризують або відокремлюють два або більше класів об'єктів або подій.

Автокодувальник

Докладніше: Автокодувальник

Автокодувальники можуть використовуватися для навчання нелінійним функціям зменшення розмірності та кодування разом із оберненою функцією, яка дозволяє перейти від кодуванного до оригінального зображення.

Зниження розмірності

Для багатовимірних наборів даних, тобто таких, у яких більше 10 вимірів, перед застосування методу k-найближчих сусідів спочатку знижують розмірність з метою уникнення прокляття розмірності.[12]

Виділяння ознак та зниження розмірності можна об'єднати в один етап за допомогою методу головних компонент (МГК), лінійного розділювального аналізу (ЛРА), канонічного кореляційного аналізу (ККА) або розкладення невід'ємних матриць (РНМ) — методів попередньої обробки даних перед K-NN кластеризацією векторів ознак у просторі скороченої розмірності. У машинному навчанні цей процес також називається маловимірним вкладенням.[13]

Для дуже-багатовимірних наборів даних, наприклад, для пошуку подібності у потоках відео, ДНК даних або у багатовимірних часових рядах, застосовують швидке наближення K-NN пошуку за допомогою методів Locality-sensitive hashing[en], випадкова проєкція[en][14], тензорний скетч[15] та інші методи багатовимірного пошуку подібності, що доступні, наприклад, у наборі інструментів VLDB[en].

Примітки

  1. Roweis, S. T.; Saul, L. K. (2000). Nonlinear Dimensionality Reduction by Locally Linear Embedding. Science. 290 (5500): 2323—2326. Bibcode:2000Sci...290.2323R. doi:10.1126/science.290.5500.2323. PMID 11125150.
  2. Pudil, P.; Novovičová, J. (1998). Novel Methods for Feature Subset Selection with Respect to Problem Knowledge. У Liu, Huan; Motoda, Hiroshi (ред.). Feature Extraction, Construction and Selection. с. 101. doi:10.1007/978-1-4615-5725-8_7. ISBN 978-1-4613-7622-4.
  3. Rico-Sulayes, Antonio (2017). Reducing Vector Space Dimensionality in Automatic Classification for Authorship Attribution. Revista Ingeniería Electrónica, Automática y Comunicaciones. 38 (3): 26—35. Архів оригіналу за 24 квітня 2018. Процитовано 12 серпня 2018.
  4. Samet, H. (2006) Foundations of Multidimensional and Metric Data Structures. Morgan Kaufmann. ISBN 0-12-369446-9
  5. C. Ding, X. He, H. Zha, H.D. Simon, Adaptive Dimension Reduction for Clustering High Dimensional Data, Proceedings of International Conference on Data Mining, 2002
  6. Lu, Haiping; Plataniotis, K.N.; Venetsanopoulos, A.N. (2011). A Survey of Multilinear Subspace Learning for Tensor Data (PDF). Pattern Recognition. 44 (7): 1540—1551. doi:10.1016/j.patcog.2011.01.004. Архів оригіналу (PDF) за 10 липня 2019. Процитовано 12 серпня 2018.
  7. а б Daniel D. Lee; H. Sebastian Seung (1999). Learning the parts of objects by non-negative matrix factorization. Nature. 401 (6755): 788—791. Bibcode:1999Natur.401..788L. doi:10.1038/44565. PMID 10548103. {{cite journal}}: Проігноровано невідомий параметр |last-author-amp= (довідка)
  8. Daniel D. Lee & H. Sebastian Seung (2001). Algorithms for Non-negative Matrix Factorization (PDF). Advances in Neural Information Processing Systems 13: Proceedings of the 2000 Conference. MIT Press. с. 556—562. Архів оригіналу (PDF) за 19 червня 2018. Процитовано 13 серпня 2018.
  9. а б Blanton, Michael R.; Roweis, Sam (2007). K-corrections and filter transformations in the ultraviolet, optical, and near infrared. The Astronomical Journal. 133: 134. arXiv:astro-ph/0606170. Bibcode:2007AJ....133..734B. doi:10.1086/510127.
  10. а б в г Ren, Bin; Pueyo, Laurent; Zhu, Guangtun B.; Duchêne, Gaspard (2018). Non-negative Matrix Factorization: Robust Extraction of Extended Structures. The Astrophysical Journal. 852: 104. arXiv:1712.10317. Bibcode:2018ApJ...852..104R. doi:10.3847/1538-4357/aaa1f2.{{cite journal}}: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання)
  11. а б в Zhu, Guangtun B. (19 грудня 2016). Nonnegative Matrix Factorization (NMF) with Heteroscedastic Uncertainties and Missing data. arXiv:1612.06037 [astro-ph.IM].
  12. Kevin Beyer, Jonathan Goldstein, Raghu Ramakrishnan, Uri Shaft (1999) «When is „nearest neighbor“ meaningful?» [Архівовано 26 липня 2009 у Wayback Machine.]. Database Theory—ICDT99, 217—235
  13. Shaw, B.; Jebara, T. (2009). Structure preserving embedding. Proceedings of the 26th Annual International Conference on Machine Learning – ICML '09 (PDF). с. 1. doi:10.1145/1553374.1553494. ISBN 9781605585161. Архів оригіналу (PDF) за 11 серпня 2017. Процитовано 14 серпня 2018.
  14. Bingham, E.; Mannila, H. (2001). Random projection in dimensionality reduction. Proceedings of the seventh ACM SIGKDD international conference on Knowledge discovery and data mining – KDD '01. с. 245. doi:10.1145/502512.502546. ISBN 158113391X.
  15. Shasha, D High (2004) Performance Discovery in Time Series Berlin: Springer. ISBN 0-387-00857-8

Посилання

Джерела

Read other articles:

Fushun 抚顺Prefecture-level city抚顺市Tai'an Railway Station in FushunLocation of Fushun in LiaoningNegara TiongkokProvinsiLiaoningDistricts and counties Daftar Shuncheng DistrictXinfu DistrictDongzhou DistrictWanghua DistrictFushun CountyXinbin Manchu Autonomous CountyQingyuan Manchu Autonomous County Pemerintahan • CPC FushunCommittee SecretaryLuas • Prefecture-level city11.271 km2 (4,352 sq mi) • Luas perkotaan713 km2 (275&#...

 

قرية مورافيا الإحداثيات 42°42′40″N 76°25′23″W / 42.7111°N 76.4231°W / 42.7111; -76.4231  [1] تاريخ التأسيس 1789  تقسيم إداري  البلد الولايات المتحدة[2]  التقسيم الأعلى مقاطعة كايوغا  خصائص جغرافية  المساحة 4.466358 كيلومتر مربع4.466364 كيلومتر مربع (1 أبريل 2010)  ارتفا...

 

Mount Rushmore National MemorialIUCN Kategori III (Monumen Alam)Gunung Rushmore dengan pahatan wajah George Washington, Thomas Jefferson, Theodore Roosevelt, dan Abraham Lincoln (dari kiri ke kanan)LetakPennington County, South DakotaKota terdekatKeystone, South DakotaLuas1.278 acres[convert: unit tak dikenal]Diizinkan3 Maret 1925Pengunjung2,431,231 (tahun 2016)[1]Pihak pengelolaNational Park ServiceSitus webMount Rushmore National Memorial Gunung Rushmore adalah gunung terkenal ...

Sporting event delegationSlovenia at the2017 World Aquatics ChampionshipsFlag of SloveniaFINA codeSLONational federationPlavalna Zveza SlovenijeWebsitewww.plavalna-zveza.siin Budapest, HungaryCompetitors7 in 2 sportsMedals Gold 0 Silver 0 Bronze 0 Total 0 World Aquatics Championships appearances199419982001200320052007200920112013201520172019202220232024Other related appearances Yugoslavia (1973–1991) Slovenia is scheduled to compete at the 2017 World Aquatics Championships in Budapes...

 

1981 live album by Arlo Guthrie and Pete SeegerPrecious FriendLive album by Arlo Guthrie and Pete SeegerReleased1981GenreFolkLabelWarner Bros.ProducerJohn PillaProfessional ratingsReview scoresSourceRatingAllmusic link Precious Friend is a double album by Arlo Guthrie and Pete Seeger with Shenandoah. The album, Guthrie's final record on Warner Bros., is a compilation of songs from when Guthrie and Seeger toured together. John Pilla produced the recording. [1] Background Precio...

 

Hannah MontanaAlbum lagu tema karya Miley CyrusDirilis24 Oktober 2006 (2006-10-24)Genre Pop rock pop remaja country pop Durasi42:26LabelWalt DisneyProduser Antonina Armato Mike Deneen Andy Dodd Eddie Galan Matthew Gerrard Jamie Houston Tim James Jay Landers Andrew Lane Marco Marinangeli Adam Watts Jay Orpin Hannah Montana Hannah Montana(2006) Hannah Montana 2(2007) Singel dalam album Hannah Montana The Best of Both WorldsDirilis: 28 Maret 2006[1] Who SaidDirilis: 11 Juli 2006...

Oratorio by George Frideric Handel George Frideric Handel Samson (HWV 57) is a three-act oratorio by George Frideric Handel, considered to be one of his finest dramatic works. It is usually performed as an oratorio in concert form, but on occasions has also been staged as an opera. The well-known arias Let the bright Seraphim (for soprano), Total eclipse (for tenor) and Let their celestial concerts (the final chorus) are often performed separately in concert. Background and composition A pict...

 

This article has multiple issues. Please help improve it or discuss these issues on the talk page. (Learn how and when to remove these template messages) This article includes a list of references, related reading, or external links, but its sources remain unclear because it lacks inline citations. Please help improve this article by introducing more precise citations. (February 2015) (Learn how and when to remove this message)This article contains content that is written like an advertiseme...

 

Book by James P. O'Donnell This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: The Bunker book – news · newspapers · books · scholar · JSTOR (March 2021) (Learn how and when to remove this message) The Bunker AuthorsJames P. O'DonnellUwe BahnsenOriginal titleDie Katakombe – Das Ende in der Reichskanz...

Former NASCAR team Not to be confused with 2nd Chance Motorsports. Chance 2 MotorsportsOwner(s)Teresa EarnhardtDale Earnhardt Jr.SeriesNASCAR Busch SeriesRace driversMartin Truex Jr.Dale Earnhardt Jr.Tony StewartSteve ParkHank Parker Jr.Ryan MooreSponsorsYum! Brands, Bass Pro Shops, Nabisco, Menards, WranglerManufacturerChevroletOpened2003Closed2005CareerRaces competed83Drivers' Championships2Race victories16Pole positions14 Chance 2 Motorsports is a former NASCAR racing team that was founded...

 

Scripts used to write the Azerbaijani language This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Azerbaijani alphabet – news · newspapers · books · scholar · JSTOR (September 2020) (Learn how and when to remove this message) The basic Azerbaijani alphabet used in Iran, lacking ؽ and ۆ, among others The Azerb...

 

この項目には、一部のコンピュータや閲覧ソフトで表示できない文字が含まれています(詳細)。 数字の大字(だいじ)は、漢数字の一種。通常用いる単純な字形の漢数字(小字)の代わりに同じ音の別の漢字を用いるものである。 概要 壱万円日本銀行券(「壱」が大字) 弐千円日本銀行券(「弐」が大字) 漢数字には「一」「二」「三」と続く小字と、「壱」「�...

  「俄亥俄」重定向至此。关于其他用法,请见「俄亥俄 (消歧义)」。 俄亥俄州 美國联邦州State of Ohio 州旗州徽綽號:七葉果之州地图中高亮部分为俄亥俄州坐标:38°27'N-41°58'N, 80°32'W-84°49'W国家 美國加入聯邦1803年3月1日,在1953年8月7日追溯頒定(第17个加入联邦)首府哥倫布(及最大城市)政府 • 州长(英语:List of Governors of {{{Name}}}]]) •&...

 

В статье не хватает ссылок на источники (см. рекомендации по поиску). Информация должна быть проверяема, иначе она может быть удалена. Вы можете отредактировать статью, добавив ссылки на авторитетные источники в виде сносок. (12 мая 2011) Алмазная биржа Израиля Тип бизнес Осн�...

 

Chinese streaming television series Delicacies DestinyChinese珍馐记 GenrePeriod dramaRomantic comedyWritten byQi YueliPan XinDirected byHao GuoStarringWang Xingyue He RuixianComposersLi HanLu HuCountry of originMainland ChinaOriginal languageMandarinNo. of episodes17 (Mainland China: 16)ProductionExecutive producerMa TianProducerYang LeCinematographyChen KaiEditorLiu XiangRunning time27–51 minutesProduction companiesHuanyu Film and TelevisionOriginal releaseNetworkBilibili (China)Disney+...

First Lady of East TimorFlag of East TimorIncumbentVacantsince 20 May 2022ResidenceNicolau Lobato Presidential PalaceFormation1975 The first lady of East Timor (Portuguese: Primeira-dama de Timor-Leste) is the title attributed to the wife of the president of East Timor. First ladies of East Timor First ladies of East Timor during the War for Independence Portrait Name Term Began Term Ended President Notes Lucia Osorio Soares November 28, 1975 December 7, 1975 Francisco Xavier do Amaral L...

 

Computer data storage server Not to be confused with storage area network or network access server. A 5-bay NAS server Network-attached storage (NAS) is a file-level (as opposed to block-level storage) computer data storage server connected to a computer network providing data access to a heterogeneous group of clients. The term NAS can refer to both the technology and systems involved, or a specialized device built for such functionality (as unlike tangentially related technologies such as l...

 

ETC (saluran TV Filipina)Nama sebelumnyaEntertainment CentralJenisJaringan siaran televisi UHFNegaraFilipinaBahasaInggris (utama)Filipino (kedua)KetersediaanNasionalPendiriWilson TiengTanggal peluncuran23 Agustus 2004Kantor pusatUpper Ground Floor of the Worldwide Corporate Center, EDSA sudut Shaw Boulevard, Kota MandaluyongWilayah siaranNationwidePemilikSouthern Broadcasting Network (50%) Solar Entertainment Corporation (50%)Tokoh kunciTeofilo Henson (Presiden & CEO, Southern Broadc...

Artikel ini perlu dikembangkan agar dapat memenuhi kriteria sebagai entri Wikipedia.Bantulah untuk mengembangkan artikel ini. Jika tidak dikembangkan, artikel ini akan dihapus. Artikel ini membutuhkan rujukan tambahan agar kualitasnya dapat dipastikan. Mohon bantu kami mengembangkan artikel ini dengan cara menambahkan rujukan ke sumber tepercaya. Pernyataan tak bersumber bisa saja dipertentangkan dan dihapus.Cari sumber: Suku Komering – berita · surat kabar · buku...

 

Crown appointment in the UK Not to be confused with Second Lieutenant or Junior Lieutenant. Harry Verelst in the uniform of a deputy lieutenant for the West Riding of Yorkshire in the early 20th century In the United Kingdom, a deputy lieutenant is a Crown appointment and one of several deputies to the lord-lieutenant of a lieutenancy area – an English ceremonial county, Welsh preserved county, Scottish lieutenancy area, or Northern Irish county borough or county. Prior to the creation of t...