Довга короткочасна пам'ять

Блок вічкової ДКЧП з входовим, виходовим та забувальним вентилями. Виходові стрілки з вузла ct насправді позначають виходові стрілки з ct-1, крім єдиної стрілки зліва направо. Існує також і багато інших видів ДКЧП.[1]

До́вга короткоча́сна па́м'ять (ДКЧП, англ. long short-term memory, LSTM) — це архітектура рекурентних нейронних мереж (РНМ, штучна нейронна мережа), запропонована 1997 року Зеппом Хохрайтером[en] та Юргеном Шмідгубером.[2] Як і більшість РНМ, мережа ДКЧП є універсальною в тому сенсі, що за достатньої кількості вузлів мережі вона може обчислювати будь-що, що може обчислювати звичайний комп'ютер, за умови, що вона має належну матрицю вагових коефіцієнтів[en], що може розглядатися як її програма. На відміну від традиційних РНМ, мережа ДКЧП добре підходить для навчання з досвіду з метою класифікації, обробки або передбачення часових рядів в умовах, коли між важливими подіями існують часові затримки невідомої тривалості. Відносна нечутливість до довжини прогалин дає ДКЧП перевагу в численних застосуваннях над альтернативними РНМ, прихованими марковськими моделями та іншими методами навчання послідовностей. Серед інших успіхів, ДКЧП досягла найкращих з відомих результатів у стисненні тексту природною мовою,[3] розпізнаванні несегментованого неперервного рукописного тексту,[4] і 2009 року виграла змагання з розпізнавання рукописного тексту ICDAR[en]. Мережі ДКЧП також застосовувалися до автоматичного розпізнавання мовлення, і були головною складовою мережі, яка 2003 року досягла рекордного 17.7-відсоткового рівня пофонемних помилок на класичному наборі даних природного мовлення TIMIT[en].[5] Станом на 2016 рік основні технологічні компанії, включно з Google, Apple, Microsoft та Baidu, використовували мережі ДКЧП як основні складові нових продуктів.[6][7]

Архітектура

Мережа ДКЧП є штучною нейронною мережею, яка містить вузли ДКЧП замість, або на додачу, до інших вузлів мережі. Вузол ДКЧП — це вузол рекурентної нейронної мережі, який виділяється запам'ятовуванням значень для довгих, або коротких проміжків часу. Ключем до цієї здатності є те, що він не використовує функції активації в межах своїх рекурентних складових. Таким чином, значення, що зберігається, не розплющується ітеративно з плином часу, і член градієнту або вини (англ. blame) не має схильності розмиватися, коли для його тренування застосовується зворотне поширення в часі.

Вузли ДКЧП часто втілюють у «блоках» (англ. blocks), які містять декілька вузлів ДКЧП. Така конструкція є типовою для «глибоких» багатошарових нейронних мереж, і сприяє реалізаціям на паралельному апаратному забезпеченні. В наведених нижче рівняннях кожна змінна курсивом у нижньому регістрі представляє вектор, що має розмір, який дорівнює числу вузлів ДКЧП у блоці.

Блоки ДКЧП містять три або чотири «вентилі» (англ. gates), які вони використовують для керування плином інформації до або з їхньої пам'яті. Ці вентилі реалізують із застосуванням логістичної функції для обчислення значень між 0 та 1. Для часткового дозволяння або заборони плину інформації до або з цієї пам'яті застосовується множення на це значення. Наприклад, «входовий вентиль» (англ. input gate) керує мірою, до якої нове значення входить до пам'яті. «Забувальний вентиль» (англ. forget gate) керує мірою, до якої значення залишається в пам'яті. А «виходовий вентиль» (англ. output gate) керує мірою, до якої значення в пам'яті використовується для обчислення активування виходу блоку. (В деяких втіленнях входовий та забувальний вентилі об'єднують в один. Ідея їхнього об'єднання полягає в тому, що час забувати настає тоді, коли з'являється нове значення, варте запам'ятовування.)

Єдині ваги, що є в блоці ДКЧП ( та ), використовуються для спрямовування дії вентилів. Ці ваги застосовуються між значеннями, які надходять до блоку (включно з входовим вектором та виходом з попереднього моменту часу ) та кожним із вентилів. Отже, блок ДКЧП визначає, яким чином підтримувати свою пам'ять як функцію від цих значень, і тренування ваг блока ДКЧП спричиняє його навчання такої функції, яка мінімізує втрати. Блоки ДКЧП зазвичай тренують за допомогою зворотного поширення в часі.

Традиційна ДКЧП

Традиційна ДКЧП із забувальними вузлами.[2][8] і . позначає добуток Адамара (поелементний добуток).

Змінні

  • : входовий вектор
  • : виходовий вектор
  • : вектор стану комірки
  • , і : матриці та вектор параметрів (W від англ. weight, вага, U від англ. update?, уточнення, b від англ. bias?, упередження)
  • , і : вектори вентилів
    • : Вектор забувального вентиля. Вага пам'ятання старої інформації.
    • : Вектор входового вентиля. Вага отримання нової інформації.
    • : Вектор виходового вентиля. Кандидатність на вихід.

Функції активації

  • : В оригіналі є сигмоїдною функцією.
  • : В оригіналі є гіперболічним тангенсом.
  • : В оригіналі є гіперболічним тангенсом, але праця з вічкових ДКЧП радить .[9][10]

Вічкова ДКЧП

Вічкова ДКЧП із забувальними вентилями.[9][10] не застосовується, натомість у більшості місць застосовується .

Згорткова ДКЧП

Згорткова ДКЧП.[11] позначає оператор згортки.

Тренування

Для мінімізації загальної похибки ДКЧП на тренувальних послідовностях може застосовуватися ітеративний градієнтний спуск, такий як зворотне поширення в часі, для зміни кожного вагового коефіцієнту пропорційно до його похідної по відношенню до похибки. Основною проблемою з градієнтним спуском для стандартних РНМ є те, що градієнти похибок зникають експоненційно швидко з розміром часової затримки між важливими подіями, як це було вперше з'ясовано 1991 року.[12][13] Проте у блоках ДКЧП, коли значення похибки зворотно поширюються з виходу, похибка виявляється в пастці в частині пам'яті блоку. Це називають «каруселлю похибки» (англ. "error carousel"), яка постійно подає похибку назад до кожного з вентилів, поки вони не стають натренованими відсікати це значення. Таким чином, регулярне зворотне поширення є дієвим при тренуванні блоку ДКЧП запам'ятовувати значення для дуже довгих тривалостей.

ДКЧП може також тренуватися поєднанням штучної еволюції для вагових коефіцієнтів прихованих вузлів, і псевдообернення або методу опорних векторів для вагових коефіцієнтів виходових вузлів.[14] У застосуваннях навчання з підкріпленням ДКЧП може тренуватися методами градієнту стратегії, еволюційними стратегіями або генетичними алгоритмами.

Застосування

Застосування ДКЧП включають:

Див. також

Примітки

  1. Klaus Greff; Rupesh Kumar Srivastava; Jan Koutník; Bas R. Steunebrink; Jürgen Schmidhuber (2015). LSTM: A Search Space Odyssey. arXiv:1503.04069. (англ.)
  2. а б Sepp Hochreiter[en]; Jürgen Schmidhuber (1997). Long short-term memory. Neural Computation[en]. 9 (8): 1735—1780. doi:10.1162/neco.1997.9.8.1735. PMID 9377276. Архів оригіналу за 8 серпня 2019. Процитовано 15 квітня 2017. (англ.)
  3. The Large Text Compression Benchmark (амер.). Архів оригіналу за 9 травня 2017. Процитовано 13 січня 2017. (англ.)
  4. A. Graves, M. Liwicki, S. Fernandez, R. Bertolami, H. Bunke, J. Schmidhuber. A Novel Connectionist System for Improved Unconstrained Handwriting Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 31, no. 5, 2009. (англ.)
  5. а б Graves, Alex; Mohamed, Abdel-rahman; Hinton, Geoffrey (2013). Speech Recognition with Deep Recurrent Neural Networks. Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on: 6645—6649. (англ.)
  6. With QuickType, Apple wants to do more than guess your next text. It wants to give you an AI. WIRED (амер.). Архів оригіналу за 24 березня 2017. Процитовано 16 червня 2016. (англ.)
  7. RECURRENT NEURAL NETWORKS - FEEDBACK NETWORKS - LSTM RECURRENT NETWORK - FEEDBACK NEURAL NETWORK - RECURRENT NETS - FEEDBACK NETWORK - RECURRENT NET - - FEEDBACK NET. people.idsia.ch. Архів оригіналу за 5 травня 2021. Процитовано 16 червня 2016. (англ.)
  8. Felix A. Gers; Jürgen Schmidhuber; Fred Cummins (2000). Learning to Forget: Continual Prediction with LSTM. Neural Computation[en]. 12 (10): 2451—2471. doi:10.1162/089976600300015015. Архів оригіналу за 7 квітня 2019. Процитовано 15 квітня 2017. (англ.)
  9. а б в Gers, F. A.; Schmidhuber, J. (2001). LSTM Recurrent Networks Learn Simple Context Free and Context Sensitive Languages (PDF). IEEE Transactions on Neural Networks. 12 (6): 1333—1340. doi:10.1109/72.963769. Архів оригіналу (PDF) за 10 липня 2020. Процитовано 15 квітня 2017. (англ.)
  10. а б в Gers, F.; Schraudolph, N.; Schmidhuber, J. (2002). Learning precise timing with LSTM recurrent networks (PDF). Journal of Machine Learning Research. 3: 115—143. Архів оригіналу (PDF) за 28 липня 2017. Процитовано 15 квітня 2017. (англ.)
  11. Xingjian Shi; Zhourong Chen; Hao Wang; Dit-Yan Yeung; Wai-kin Wong; Wang-chun Woo (2015). Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting. Proceedings of the 28th International Conference on Neural Information Processing Systems: 802—810. Архів оригіналу за 9 листопада 2016. Процитовано 15 квітня 2017. (англ.)
  12. S. Hochreiter. Untersuchungen zu dynamischen neuronalen Netzen. Diploma thesis, Institut f. Informatik, Technische Univ. Munich, 1991. (нім.)
  13. S. Hochreiter, Y. Bengio, P. Frasconi, and J. Schmidhuber. Gradient flow in recurrent nets: the difficulty of learning long-term dependencies. In S. C. Kremer and J. F. Kolen, editors, A Field Guide to Dynamical Recurrent Neural Networks. IEEE Press, 2001. (англ.)
  14. Schmidhuber, J.; Wierstra, D.; Gagliolo, M.; Gomez, F. (2007). Training Recurrent Networks by Evolino. Neural Computation. 19 (3): 757—779. doi:10.1162/neco.2007.19.3.757. (англ.)
  15. H. Mayer, F. Gomez, D. Wierstra, I. Nagy, A. Knoll, and J. Schmidhuber. A System for Robotic Heart Surgery that Learns to Tie Knots Using Recurrent Neural Networks. Advanced Robotics, 22/13–14, pp. 1521–1537, 2008. (англ.)
  16. J. Schmidhuber and D. Wierstra and F. J. Gomez. Evolino: Hybrid Neuroevolution / Optimal Linear Search for Sequence Learning. Proceedings of the 19th International Joint Conference on Artificial Intelligence (IJCAI), Edinburgh, pp. 853–858, 2005. (англ.)
  17. Graves, A.; Schmidhuber, J. (2005). Framewise phoneme classification with bidirectional LSTM and other neural network architectures. Neural Networks. 18 (5–6): 602—610. doi:10.1016/j.neunet.2005.06.042. (англ.)
  18. S. Fernandez, A. Graves, J. Schmidhuber. An application of recurrent neural networks to discriminative keyword spotting. Intl. Conf. on Artificial Neural Networks ICANN'07, 2007. (англ.)
  19. D. Eck and J. Schmidhuber. Learning The Long-Term Structure of the Blues. In J. Dorronsoro, ed., Proceedings of Int. Conf. on Artificial Neural Networks ICANN'02, Madrid, pages 284–289, Springer, Berlin, 2002. (англ.)
  20. Schmidhuber, J.; Gers, F.; Eck, D.; Schmidhuber, J.; Gers, F. (2002). Learning nonregular languages: A comparison of simple recurrent networks and LSTM. Neural Computation. 14 (9): 2039—2041. doi:10.1162/089976602320263980. (англ.)
  21. Perez-Ortiz, J. A.; Gers, F. A.; Eck, D.; Schmidhuber, J. (2003). Kalman filters improve LSTM network performance in problems unsolvable by traditional recurrent nets. Neural Networks. 16 (2): 241—250. doi:10.1016/s0893-6080(02)00219-8. (англ.)
  22. A. Graves, J. Schmidhuber. Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks. Advances in Neural Information Processing Systems 22, NIPS'22, pp 545–552, Vancouver, MIT Press, 2009. (англ.)
  23. A. Graves, S. Fernandez,M. Liwicki, H. Bunke, J. Schmidhuber. Unconstrained online handwriting recognition with recurrent neural networks. Advances in Neural Information Processing Systems 21, NIPS'21, pp 577–584, 2008, MIT Press, Cambridge, MA, 2008. (англ.)
  24. M. Baccouche, F. Mamalet, C Wolf, C. Garcia, A. Baskurt. Sequential Deep Learning for Human Action Recognition. 2nd International Workshop on Human Behavior Understanding (HBU), A.A. Salah, B. Lepri ed. Amsterdam, Netherlands. pp. 29–39. Lecture Notes in Computer Science 7065. Springer. 2011 (англ.)
  25. Hochreiter, S.; Heusel, M.; Obermayer, K. (2007). Fast model-based protein homology detection without alignment. Bioinformatics. 23 (14): 1728—1736. doi:10.1093/bioinformatics/btm247. PMID 17488755. (англ.)

Посилання

Read other articles:

Bondol dwiwarna Picking Lantana flowers, presumably for the nectar Status konservasi Risiko Rendah (IUCN 3.1)[1] Klasifikasi ilmiah Kerajaan: Animalia Filum: Chordata Kelas: Aves Ordo: Passeriformes Famili: Estrildidae Genus: Lonchura Spesies: L. bicolor Nama binomial Lonchura bicolor(Fraser, 1843) Bondol dwiwarna adalah burung kecil yang termasuk marga lonchura yang ditemukan di selatan dan tengah Afrika. Burung ini memiliki tingkat pergerakan global yang diperkirakan samp...

 

Jembatan YangpuKoordinat31°15′25″N 121°32′29″E / 31.25694°N 121.54139°E / 31.25694; 121.54139MelintasiSungai HuangpuLokalShanghai, TiongkokKarakteristikDesainjembatan kabel pancangPanjang total8.354 meter (27.408 ft)Lebar3.035 meter (9.957 ft)Tinggi223 meter (732 ft)Bentang terpanjang602 meter (1.975 ft)SejarahBiaya konstruksi$259 juta Dollar AS[1]DibukaOktober 1993Lokasi Jembatan Yangpu (Hanzi sederhana: 杨浦大桥; Hanzi ...

 

陆军第十四集团军炮兵旅陆军旗存在時期1950年 - 2017年國家或地區 中国效忠於 中国 中国共产党部門 中国人民解放军陆军種類炮兵功能火力支援規模约90门火炮直屬南部战区陆军參與戰役1979年中越战争 中越边境冲突 老山战役 成都军区对越轮战 紀念日10月25日 陆军第十四集团军炮兵旅(英語:Artillery Brigade, 14th Army),是曾经中国人民解放军陆军第十四集团军下属�...

Questa voce sull'argomento stagioni delle società calcistiche italiane è solo un abbozzo. Contribuisci a migliorarla secondo le convenzioni di Wikipedia. Segui i suggerimenti del progetto di riferimento. Voce principale: Empoli Football Club. Associazione Sportiva Fascista EmpoliStagione 1931-1932Sport calcio Squadra Empoli Allenatore Domenico Lensi Presidente Vieri Valtancoli Prima Divisione4º posto nel girone D. 1930-1931 1932-1933 Si invita a seguire il modello di voce Questa...

 

In plants, a reduced, small leafThis article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Cataphyll – news · newspapers · books · scholar · JSTOR (January 2016) (Learn how and when to remove this template message)The stems of Athrotaxis are covered with small flat pointed leaves called scale leaves or cataphylls. In p...

 

Road in Tyne and Wear This article has multiple issues. Please help improve it or discuss these issues on the talk page. (Learn how and when to remove these template messages) This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: A1018 road – news · newspapers · books · scholar · JSTOR (March 2008) (Learn how and ...

Fight IslandCoordinates24°30′04″N 54°36′34″E / 24.5012°N 54.6095°E / 24.5012; 54.6095 Fight Island is a series of Ultimate Fighting Championship (UFC) mixed martial arts events held on Yas Island in Abu Dhabi, United Arab Emirates in 2020 and 2021 during the COVID-19 pandemic. Dana White stated that the events were intended as a workaround for travel restrictions tied to the COVID-19 pandemic, which had been preventing some international fighters from enter...

 

此條目可参照英語維基百科相應條目来扩充。 (2021年5月6日)若您熟悉来源语言和主题,请协助参考外语维基百科扩充条目。请勿直接提交机械翻译,也不要翻译不可靠、低品质内容。依版权协议,译文需在编辑摘要注明来源,或于讨论页顶部标记{{Translated page}}标签。 约翰斯顿环礁Kalama Atoll 美國本土外小島嶼 Johnston Atoll 旗幟颂歌:《星條旗》The Star-Spangled Banner約翰斯頓環礁�...

 

Eurovision Song Contest 2013Country GreeceNational selectionSelection processEurosong 2013 – a MAD showSelection date(s)18 February 2013Selected entrantKoza Mostra feat. Agathonas IakovidisSelected songAlcohol Is FreeSelected songwriter(s)Elias KozasStathis PahidisFinals performanceSemi-final resultQualified (2nd, 121 points)Final result6th, 152 pointsGreece in the Eurovision Song Contest ◄2012 • 2013 • 2014► Greece participated in the Eurovi...

 若非特別註明,本條目所有時間皆為東八區標準時間(UTC+8)。 2022年環台軍事演練南西·裴洛西訪問台灣後續事件及海峡两岸冲突的一部分中国人民解放軍公告之軍演範圍圖日期2022年8月2日 – 8月10日(9天) 8月2日 – 8月4日(东部战区联合军事行动)[2] 8月4日12时 – 8月7日12时(第一阶段) 8月7日 – 8月10日(第二阶段)[...

 

1991 Indian filmHennaOriginal posterDirected byRandhir KapoorWritten byKhwaja Ahmad AbbasJainendra JainHasina MoinV. P. SatheProduced byRandhir KapoorRajiv KapoorStarringRishi Kapoor Zeba Bakhtiar Ashwini BhaveNarrated byShammi KapoorCinematographyRadhu KarmakarEdited byJethu MundalMusic byRavindra JainProductioncompanyR. K. Studios ChemburDistributed byR. K. Films Ltd.Digital EntertainmentEros EntertainmentH.M.V.Release date 28 June 1991 (1991-06-28) Running time184 minutesCo...

 

Group of non-expanding clay minerals IlliteGeneralCategoryMica- phyllosilicatesFormula(repeating unit)(K,H3O)(Al,Mg,Fe)2(Si,Al)4O10[(OH)2,(H2O)]IMA symbolIlt[1]Strunz classification9.EC.60Dana classification71.02.02d.02Crystal systemMonoclinicCrystal classPrismatic (2/m) (same H-M symbol)Space groupC2/m (no. 12)IdentificationColorGrey-white to silvery-white, greenish-grayCrystal habitMicaceous aggregatesCleavage{001} PerfectMohs scale hardness1–2LusterPearly to dullStreakwhiteDi...

For related races, see 2006 United States Senate elections. 2006 United States Senate election in Delaware ← 2000 November 7, 2006 2012 →   Nominee Tom Carper Jan Ting Party Democratic Republican Popular vote 170,567 69,744 Percentage 67.13% 27.44% County results House district resultsCarper:      50–60%      60–70%      70–80%      80–90%   &#...

 

هذه المقالة بحاجة لمراجعة خبير مختص في مجالها. يرجى من المختصين في مجالها مراجعتها وتطويرها. (يوليو 2014) رحبعام زئيفي (بالعبرية: רחבעם זאבי)‏  معلومات شخصية الميلاد 20 يونيو 1926(1926-06-20)القدس الوفاة 17 أكتوبر 2001 (75 سنة)القدس سبب الوفاة اغتيال من قبل الجبهة الشعبية لتحرير فلسطين ...

 

U.S. political nonprofit organization Jewish Democratic Council of AmericaFormationNovember 2017; 6 years ago (2017-11)Tax ID no. 821919054Legal status501(c)(4) non-profit organizationHeadquartersWashington, D. C., United StatesChairmanRon KleinCEOHalie Soifer[1]Websitewww.jewishdems.org The Jewish Democratic Council of America (JDCA), also known as Jewish Dems, is an organization that defines itself as the voice for Jewish Democrats and socially progressive, pr...

2008 book by Shuja Nawaz Crossed Swords: Pakistan, Its Army, and the Wars Within AuthorShuja NawazLanguageEnglishPublished2008 (OUP)Publication placePakistanMedia typePrint (Hardback)Pages655 + xlivISBN9780195476606OCLC611175599 Crossed Swords: Pakistan, Its Army, and the Wars Within is a 2008 book by Shuja Nawaz. It is a detailed study of the military's involvement in the evolution of Pakistan. Reception Pakistan Vision wrote What distinguishes this book from other works on Pakistan’s...

 

Pour les articles homonymes, voir Grandidier. Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus. Cet article ne cite pas suffisamment ses sources (février 2023). Si vous disposez d'ouvrages ou d'articles de référence ou si vous connaissez des sites web de qualité traitant du thème abordé ici, merci de compléter l'article en donnant les références utiles à sa vérifiabilité et en les liant à la section « Notes et références ». En pratiqu...

 

Incorrect or misleading information Not to be confused with Disinformation or Misinformation effect. A sign campaigning for the successful Vote Leave in the 2016 United Kingdom European Union membership referendum. The claim made by the sign was widely considered to have been an example of misinformation.[1][2][3][4] Misinformation is incorrect or misleading information.[5][6] Misinformation can exist without specific malicious intent; disinform...

Italian political party For the defunct political party active between 1994 and 2009, see Forza Italia. Forza Italia AbbreviationFISecretaryAntonio TajaniFounderSilvio BerlusconiFounded16 November 2013; 10 years ago (2013-11-16)Preceded byThe People of FreedomHeadquartersPiazza San Lorenzo in Lucina 4, RomeNewspaperIl MattinaleStudent wingStudenti per le LibertàYouth wingForza Italia GiovaniWomen's wingAzzurro DonnaMembership (2024)110,000[1]IdeologyLiberal co...

 

Voce principale: Udinese Calcio. Associazione Calcio UdineseStagione 1930-1931Sport calcio Squadra Udinese Allenatore Imre Payer Presidente Gino Rojatti Serie B15º posto. Maggiori presenzeCampionato: Frossi (32) Miglior marcatoreCampionato: D'Odorico (14) 1929-1930 1931-1932 Si invita a seguire il modello di voce Questa pagina raccoglie i dati riguardanti l'Associazione Calcio Udinese nelle competizioni ufficiali della stagione 1930-1931. Indice 1 Stagione 2 Rosa 3 Risultati 3.1 Campio...