Више од 14 милиона [1][2] слика је ручно обележено од стране пројекта како би се назначило који су објекти приказани, а на најмање милион слика су такође осигурани ограничавајући оквири. [3]
ImageNet садржи више од 20.000 категорија, [4] са типичном категоријом, попут „балона“ или „јагоде“, која се састоји од неколико стотина слика. [5]
База података о белешкама URL -ова слика са других повезаних програма, је бесплатно доступна директно са ImageNet-а, иако стварне слике нису у њиховом власнишву. [6]
Од 2010. године, ImageNet пројекат, на годишњем нивоу, одржава такмичење у софтверу, ен. ImageNet Large Scale Visual Recognition Challenge (ILSVRC), где се софтверски програми такмиче да правилно класификују и детектују предмете и сцене. Изазов користи „скраћену“ листу од хиљаду класа које се не преклапају. [7]
Значај за дубоко учење
Дана 30. септембра 2012. године, конволуциона неуронска мрежа (CNN) под називом AlexNet[8] постигла је грешку првих 5 од 15,3% у ImageNet 2012 изазову, што је више од 10,8 процената мање него код другопласираног. То је омогућено захваљујући употреби графичких процесорских јединица (GPU) током тренинга, [8] суштинског састојка револуције дубоког учења . Према The Economist -у, „одједном су људи почели да обраћају пажњу, не само унутар заједнице вештачке интелигенције, већ и широм технолошке индустрије у целини“. [9][10][11]
У 2015. години, АлекНет је надмашен од стране Микрософтовог веома дубок CNN-a са преко 100 слојева, који је победио на такмичењу ImageNet 2015. [12]
Историја базе података
Истраживач вештачке интелигенције Феи-Феи Ли почео је да ради на идеји за ImageNet 2006. године. У време када се већина истраживања вештачке интелигенције фокусирала на моделе и алгоритме, Ли је желео да прошири и унапреди доступне податке за обуку AI алгоритама. [13] 2007. године Ли се састао са професором са Принстона Кристијаном Фелбаумом, једним од твораца WordNet-a, да би разговарали о пројекту. Као резултат овог састанка, Ли је наставио да гради ImageNet почевши од WordNet базе података и користећи многе његове карактеристике. [14]
Као доцент на Принстону, Ли је окупио тим истраживача да раде на пројекту ImageNet-a. Користили су Механичког Турка са Амазона да помогну у класификацији слика. [15]
ImageNet цровдсоурцес свој процес бележења. Анотације на нивоу слике указују на присуство или одсуство класе објекта на слици, као што је „на овој слици има тигрова“ или „на овој слици нема тигрова“. Анотације на нивоу објекта пружају гранични оквир око (видљивог дела) наведеног објекта. ImageNet користи варијанту широке WordNet шеме за категоризацију објеката, допуњену са 120 категорија раса паса за приказивање фине зрнасте класификације. [7] Једна од мана коришћења WordNet-а је то што су категорије „узвишеније“ него што би било оптимално за ImageNet: „Већина људи је више заинтересована за Лејди Гагу или iPod Mini него за ову ретку врсту диплодока .“[појаснити] Године 2012. ImageNet је био највећи светски академски корисник Механичког Турка- а. Просечан радник је идентификовао 50 слика у минути. [4]
Историја изазова ImageNet-a
ILSVRC има за циљ да „прати кораке“ PASCAL VOC изазова мањег обима, који је основан 2005. године и садржао је само око 20.000 слика и двадесет класа објеката. [7] Да би „демократизовао“ ImageNet, Феи-Феи Ли је предложио PASCAL VOC тиму сарадњу, почевши од 2010. године, где би истраживачки тимови проценили своје алгоритме на одређеном низу података и такмичили се у постизању веће прецизности на неколико задатака визуелног препознавања. [16]
Резултујуће такмичење које се одржава једном годишње сада је познато као ImageNet велики изазов за визуално препознавање (ILSVRC). ILSVRC користи „подрезану“ листу од само 1000 категорија слика или „класа“, укључујући 90 од 120 раса паса класификованих по целој ImageNet шеми. [7] Током 2010-их су доживели драматичан напредак у обради слика. Отприлике 2011. година, добра стопа грешака у топ-5 класификације ILSVRC била је 25%. У 2012. години, дубока конволуциона неуронска мрежа под називом AlexNet постигла је 16%; у наредних неколико година, стопа грешака је пала у првих 5 на неколико процената. [19] Док је 2012. пролазила „комбиновао делове који су сви раније постојали”, драматично квантитативно побољшање означило је почетак бума вештачке интелигенције широм индустрије. [20] До 2015. године, истраживачи из Мајкрософта су известили да су њихови CNN-ови надмашили људске способности на уским задацима ILSVRC-а. [21][22] Међутим, како је једна од организатора изазова, Олга Русаковски, истакла 2015. године, програми само треба да идентификују слике као да припадају једној од хиљаду категорија; људи могу да препознају већи број категорија, а такође (за разлику од програма) могу да процењују контекст слике. [23]
До 2014. године више од педесет институција је учествовало у ILSVRC-у. [7] У 2017., 29 од 38 такмичарских екипа имало је више од 95% тачности. [24] Године 2017. ImageNet је најавио да ће у 2018. покренути нови нови, много тежи изазов који укључује класификацију 3Д објеката коришћењем природног језика. Будући да је креирање 3Д података скупље од забележивања претходне већ постојеће 2Д слике, очекује се да ће скуп података бити мањи. Примене напретка у овом подручју би се кретале од роботске навигације до проширене стварности . [25]
Пристрасност у ImageNetu-у
Студија историје вишеструких слојева ( таксономија, класе објеката и означавање) ImageNet-а и WordNet-а из 2019. године је описана као је пристрасност дубоко уграђена у већину класификационих приступа за сваку врсту слике. [26][27][28][29] ImageNet ради на решавању различитих извора пристрасности. [30]
^„ImageNet Overview”. ImageNet. Архивирано из оригинала 23. 06. 2019. г. Приступљено 22. 6. 2016.CS1 одржавање: Формат датума (веза)
^ абвгдOlga Russakovsky*, Jia Deng*, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, Alexander C. Berg and Li Fei-Fei. (* = equal contribution) ImageNet Large Scale Visual Recognition Challenge. IJCV, 2015.
^He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). „Deep Residual Learning for Image Recognition.”. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR): 770—778. ISBN978-1-4673-8851-1. arXiv:1512.03385. doi:10.1109/CVPR.2016.90.
^Hempel, Jesse (13. 11. 2018). „Fei-Fei Li's Quest to Make AI Better for Humanity”. Wired. Приступљено 5. 5. 2019. „When Li, who had moved back to Princeton to take a job as an assistant professor in 2007, talked up her idea for ImageNet, she had a hard time getting faculty members to help out. Finally, a professor who specialized in computer architecture agreed to join her as a collaborator.”CS1 одржавање: Формат датума (веза)
^Gershgorn, Dave (26. 7. 2017). „The data that transformed AI research—and possibly the world”. Quartz. Atlantic Media Co. Приступљено 26. 7. 2017. „Having read about WordNet's approach, Li met with professor Christiane Fellbaum, a researcher influential in the continued work on WordNet, during a 2006 visit to Princeton.”CS1 одржавање: Формат датума (веза)
^Gershgorn, Dave (26. 7. 2017). „The data that transformed AI research—and possibly the world”. Quartz. Atlantic Media Co. Приступљено 26. 7. 2017. „Having read about WordNet's approach, Li met with professor Christiane Fellbaum, a researcher influential in the continued work on WordNet, during a 2006 visit to Princeton.”CS1 одржавање: Формат датума (веза)
^ абGershgorn, Dave (26. 7. 2017). „The data that transformed AI research—and possibly the world”. Quartz. Atlantic Media Co. Приступљено 26. 7. 2017. „Having read about WordNet's approach, Li met with professor Christiane Fellbaum, a researcher influential in the continued work on WordNet, during a 2006 visit to Princeton.”CS1 одржавање: Формат датума (веза)
^Deng, Jia; Dong, Wei; Socher, Richard; Li, Li-Jia; Li, Kai; Fei-Fei, Li (2009), „ImageNet: A Large-Scale Hierarchical Image Database”(PDF), 2009 conference on Computer Vision and Pattern Recognition, Архивирано из оригинала(PDF) 15. 01. 2021. г., Приступљено 07. 09. 2022