ImageNet

Пројекат ImageNet је велика визуелна база података дизајнирана за употребу у истраживању софтвера за препознавање визуелних објеката .

Више од 14 милиона [1] [2] слика је ручно обележено од стране пројекта како би се назначило који су објекти приказани, а на најмање милион слика су такође осигурани ограничавајући оквири. [3]

ImageNet садржи више од 20.000 категорија, [4] са типичном категоријом, попут „балона“ или „јагоде“, која се састоји од неколико стотина слика. [5]

База података о белешкама URL -ова слика са других повезаних програма, је бесплатно доступна директно са ImageNet-а, иако стварне слике нису у њиховом власнишву. [6]

Од 2010. године, ImageNet пројекат, на годишњем нивоу, одржава такмичење у софтверу, ен. ImageNet Large Scale Visual Recognition Challenge (ILSVRC), где се софтверски програми такмиче да правилно класификују и детектују предмете и сцене. Изазов користи „скраћену“ листу од хиљаду класа које се не преклапају. [7]

Значај за дубоко учење

Дана 30. септембра 2012. године, конволуциона неуронска мрежа (CNN) под називом AlexNet [8] постигла је грешку првих 5 од 15,3% у ImageNet 2012 изазову, што је више од 10,8 процената мање него код другопласираног. То је омогућено захваљујући употреби графичких процесорских јединица (GPU) током тренинга, [8] суштинског састојка револуције дубоког учења . Према The Economist -у, „одједном су људи почели да обраћају пажњу, не само унутар заједнице вештачке интелигенције, већ и широм технолошке индустрије у целини“. [9] [10] [11]

У 2015. години, АлекНет је надмашен од стране Микрософтовог веома дубок CNN-a са преко 100 слојева, који је победио на такмичењу ImageNet 2015. [12]

Историја базе података

Истраживач вештачке интелигенције Феи-Феи Ли почео је да ради на идеји за ImageNet 2006. године. У време када се већина истраживања вештачке интелигенције фокусирала на моделе и алгоритме, Ли је желео да прошири и унапреди доступне податке за обуку AI алгоритама. [13] 2007. године Ли се састао са професором са Принстона Кристијаном Фелбаумом, једним од твораца WordNet-a, да би разговарали о пројекту. Као резултат овог састанка, Ли је наставио да гради ImageNet почевши од WordNet базе података и користећи многе његове карактеристике. [14]

Као доцент на Принстону, Ли је окупио тим истраживача да раде на пројекту ImageNet-a. Користили су Механичког Турка са Амазона да помогну у класификацији слика. [15]

Они су своју базу података по први пут представили као постер на Конференцији о компјутерској визији и препознавању узорака (ЦВПР) одржаној 2009. године на Флориди. [16] [17] [18]

Скуп података

ImageNet цровдсоурцес свој процес бележења. Анотације на нивоу слике указују на присуство или одсуство класе објекта на слици, као што је „на овој слици има тигрова“ или „на овој слици нема тигрова“. Анотације на нивоу објекта пружају гранични оквир око (видљивог дела) наведеног објекта. ImageNet користи варијанту широке WordNet шеме за категоризацију објеката, допуњену са 120 категорија раса паса за приказивање фине зрнасте класификације. [7] Једна од мана коришћења WordNet-а је то што су категорије „узвишеније“ него што би било оптимално за ImageNet: „Већина људи је више заинтересована за Лејди Гагу или iPod Mini него за ову ретку врсту диплодока .“[појаснити] Године 2012. ImageNet је био највећи светски академски корисник Механичког Турка- а. Просечан радник је идентификовао 50 слика у минути. [4]

Историја изазова ImageNet-a

Историја стопе грешака на ImageNet-у (показује најбољи резултат по тиму и до 10 уноса годишње)

ILSVRC има за циљ да „прати кораке“ PASCAL VOC изазова мањег обима, који је основан 2005. године и садржао је само око 20.000 слика и двадесет класа објеката. [7] Да би „демократизовао“ ImageNet, Феи-Феи Ли је предложио PASCAL VOC тиму сарадњу, почевши од 2010. године, где би истраживачки тимови проценили своје алгоритме на одређеном низу података и такмичили се у постизању веће прецизности на неколико задатака визуелног препознавања. [16]

Резултујуће такмичење које се одржава једном годишње сада је познато као ImageNet велики изазов за визуално препознавање (ILSVRC). ILSVRC користи „подрезану“ листу од само 1000 категорија слика или „класа“, укључујући 90 од 120 раса паса класификованих по целој ImageNet шеми. [7] Током 2010-их су доживели драматичан напредак у обради слика. Отприлике 2011. година, добра стопа грешака у топ-5 класификације ILSVRC била је 25%. У 2012. години, дубока конволуциона неуронска мрежа под називом AlexNet постигла је 16%; у наредних неколико година, стопа грешака је пала у првих 5 на неколико процената. [19] Док је 2012. пролазила „комбиновао делове који су сви раније постојали”, драматично квантитативно побољшање означило је почетак бума вештачке интелигенције широм индустрије. [20] До 2015. године, истраживачи из Мајкрософта су известили да су њихови CNN-ови надмашили људске способности на уским задацима ILSVRC-а. [21] [22] Међутим, како је једна од организатора изазова, Олга Русаковски, истакла 2015. године, програми само треба да идентификују слике као да припадају једној од хиљаду категорија; људи могу да препознају већи број категорија, а такође (за разлику од програма) могу да процењују контекст слике. [23]

До 2014. године више од педесет институција је учествовало у ILSVRC-у. [7] У 2017., 29 од 38 такмичарских екипа имало је више од 95% тачности. [24] Године 2017. ImageNet је најавио да ће у 2018. покренути нови нови, много тежи изазов који укључује класификацију 3Д објеката коришћењем природног језика. Будући да је креирање 3Д података скупље од забележивања претходне већ постојеће 2Д слике, очекује се да ће скуп података бити мањи. Примене напретка у овом подручју би се кретале од роботске навигације до проширене стварности . [25]

Пристрасност у ImageNetu-у

Студија историје вишеструких слојева ( таксономија, класе објеката и означавање) ImageNet-а и WordNet-а из 2019. године је описана као је пристрасност дубоко уграђена у већину класификационих приступа за сваку врсту слике. [26] [27] [28] [29] ImageNet ради на решавању различитих извора пристрасности. [30]

Види још

Референце

  1. ^ „New computer vision challenge wants to teach robots to see in 3D”. New Scientist. 7. 4. 2017. Приступљено 3. 2. 2018. 
  2. ^ Markoff, John (19. 11. 2012). „For Web Images, Creating New Technology to Seek and Find”. The New York Times. Приступљено 3. 2. 2018. 
  3. ^ „ImageNet Summary and Statistics”. ImageNet. Архивирано из оригинала 05. 07. 2019. г. Приступљено 22. 6. 2016. 
  4. ^ а б Markoff, John (19. 11. 2012). „For Web Images, Creating New Technology to Seek and Find”. The New York Times. Приступљено 3. 2. 2018. 
  5. ^ „From not working to neural networking”. The Economist. 25. 6. 2016. Приступљено 3. 2. 2018. 
  6. ^ „ImageNet Overview”. ImageNet. Архивирано из оригинала 23. 06. 2019. г. Приступљено 22. 6. 2016. 
  7. ^ а б в г д Olga Russakovsky*, Jia Deng*, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, Alexander C. Berg and Li Fei-Fei. (* = equal contribution) ImageNet Large Scale Visual Recognition Challenge. IJCV, 2015.
  8. ^ а б Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E. (јун 2017). „ImageNet classification with deep convolutional neural networks” (PDF). Communications of the ACM. 60 (6): 84—90. ISSN 0001-0782. doi:10.1145/3065386Слободан приступ. Приступљено 24. 5. 2017. 
  9. ^ „From not working to neural networking”. The Economist. 25. 6. 2016. Приступљено 3. 2. 2018. 
  10. ^ „Machines 'beat humans' for a growing number of tasks”. Financial Times. 30. 11. 2017. Приступљено 3. 2. 2018. 
  11. ^ Gershgorn, Dave (18. 6. 2018). „The inside story of how AI got good enough to dominate Silicon Valley”. Quartz. Приступљено 10. 12. 2018. 
  12. ^ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). „Deep Residual Learning for Image Recognition.”. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR): 770—778. ISBN 978-1-4673-8851-1. arXiv:1512.03385Слободан приступ. doi:10.1109/CVPR.2016.90. 
  13. ^ Hempel, Jesse (13. 11. 2018). „Fei-Fei Li's Quest to Make AI Better for Humanity”. Wired. Приступљено 5. 5. 2019. „When Li, who had moved back to Princeton to take a job as an assistant professor in 2007, talked up her idea for ImageNet, she had a hard time getting faculty members to help out. Finally, a professor who specialized in computer architecture agreed to join her as a collaborator. 
  14. ^ Gershgorn, Dave (26. 7. 2017). „The data that transformed AI research—and possibly the world”. Quartz. Atlantic Media Co. Приступљено 26. 7. 2017. „Having read about WordNet's approach, Li met with professor Christiane Fellbaum, a researcher influential in the continued work on WordNet, during a 2006 visit to Princeton. 
  15. ^ Gershgorn, Dave (26. 7. 2017). „The data that transformed AI research—and possibly the world”. Quartz. Atlantic Media Co. Приступљено 26. 7. 2017. „Having read about WordNet's approach, Li met with professor Christiane Fellbaum, a researcher influential in the continued work on WordNet, during a 2006 visit to Princeton. 
  16. ^ а б Gershgorn, Dave (26. 7. 2017). „The data that transformed AI research—and possibly the world”. Quartz. Atlantic Media Co. Приступљено 26. 7. 2017. „Having read about WordNet's approach, Li met with professor Christiane Fellbaum, a researcher influential in the continued work on WordNet, during a 2006 visit to Princeton. 
  17. ^ Deng, Jia; Dong, Wei; Socher, Richard; Li, Li-Jia; Li, Kai; Fei-Fei, Li (2009), „ImageNet: A Large-Scale Hierarchical Image Database” (PDF), 2009 conference on Computer Vision and Pattern Recognition, Архивирано из оригинала (PDF) 15. 01. 2021. г., Приступљено 07. 09. 2022 
  18. ^ Li, Fei-Fei, How we're teaching computers to understand pictures, Приступљено 16. 12. 2018 
  19. ^ Robbins, Martin (6. 5. 2016). „Does an AI need to make love to Rembrandt's girlfriend to make art?”. The Guardian. Приступљено 22. 6. 2016. 
  20. ^ „From not working to neural networking”. The Economist. 25. 6. 2016. Приступљено 3. 2. 2018. 
  21. ^ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). „Deep Residual Learning for Image Recognition.”. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR): 770—778. ISBN 978-1-4673-8851-1. arXiv:1512.03385Слободан приступ. doi:10.1109/CVPR.2016.90. 
  22. ^ Markoff, John (10. 12. 2015). „A Learning Advance in Artificial Intelligence Rivals Human Abilities”. The New York Times. Приступљено 22. 6. 2016. 
  23. ^ Aron, Jacob (21. 9. 2015). „Forget the Turing test – there are better ways of judging AI”. New Scientist. Приступљено 22. 6. 2016. 
  24. ^ Gershgorn, Dave (10. 9. 2017). „The Quartz guide to artificial intelligence: What is it, why is it important, and should we be afraid?”. Quartz. Приступљено 3. 2. 2018. 
  25. ^ „New computer vision challenge wants to teach robots to see in 3D”. New Scientist. 7. 4. 2017. Приступљено 3. 2. 2018. 
  26. ^ „The Viral App That Labels You Isn't Quite What You Think”. Wired. ISSN 1059-1028. Приступљено 22. 9. 2019. 
  27. ^ Wong, Julia Carrie (18. 9. 2019). „The viral selfie app ImageNet Roulette seemed fun – until it called me a racist slur”. The Guardian. ISSN 0261-3077. Приступљено 22. 9. 2019. 
  28. ^ Crawford, Kate; Paglen, Trevor (19. 9. 2019). „Excavating AI: The Politics of Training Sets for Machine Learning”. -. Приступљено 22. 9. 2019. 
  29. ^ Lyons, Michael (4. 9. 2020). „Excavating "Excavating AI": The Elephant in the Gallery”. arXiv:2009.01215Слободан приступ. doi:10.5281/zenodo.4037538. 
  30. ^ „Towards Fairer Datasets: Filtering and Balancing the Distribution of the People Subtree in the ImageNet Hierarchy”. image-net.org. 17. 9. 2019. Приступљено 22. 9. 2019. 

Спољашње везе