Ovaj metod se može smatrati vrstom višeklasneklasifikacije slika sa veoma velikim brojem klasa – velikim koliko i veličina rečnika.[1][2] Obično se tehnikama mašinskog učenja koriste analize slike u obliku ekstrahovanih vektora karakteristika i reči napomena za obuku, kako bi pokušali da automatski primene napomene na nove slike. Prve metode su naučile korelacije između karakteristika slike i napomena za obuku, zatim su razvijene tehnike korišćenjem mašinskog prevođenja kako bi se pokušalo da se prevede tekstualni rečnik 'vizuelnim rečnikom', ili grupisanim regionima poznatim kao mrlje. Rad koji prati ove napore uključivao je klasifikacione pristupe, modele relevantnosti i tako dalje.
Prednosti automatskog označavanja slika u odnosu na pronalaženje slika zasnovano na sadržaju (CBIR) su u tome što korisnik može prirodnije da odredi upite.[3] CBIR generalno (trenutno) zahteva od korisnika da pretražuju po konceptima slike kao što su boja i tekstura, ili da pronađu primere upita. Određene karakteristike slike u primerima slika mogu zameniti koncept na koji se korisnik zaista fokusira. Tradicionalne metode pronalaženja slika, poput onih koje koriste biblioteke, oslanjale su se na slike koje su ručno označene, što je skupo i dugotrajno, posebno imajući u vidu velike i stalno rastuće postojeće baze podataka slika.
Reference
^Forsyth, David; Ponce, Jean (2012). Computer vision: a modern approach. Pearson.
Y Mori; H Takahashi; R Oka (1999). „Image-to-word transformation based on dividing and vector quantizing images with words.”. Proceedings of the International Workshop on Multimedia Intelligent Storage and Retrieval Management. CiteSeerX10.1.1.31.1704.
D Blei; A Ng; M Jordan (2003). „Latent Dirichlet allocation”(PDF). Journal of Machine Learning Research. стр. 3:993—1022. Архивирано из оригинала(PDF) 16. 3. 2005. г.CS1 одржавање: Формат датума (веза)
R Maree; P Geurts; J Piater; L Wehenkel (2005). „Random Subwindows for Robust Image Classification”. Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition. стр. 1:34—30.
J Y Pan; H-J Yang; P Duygulu; C Faloutsos (2004). „Automatic Image Captioning”(PDF). Proceedings of the 2004 IEEE International Conference on Multimedia and Expo (ICME'04). Архивирано из оригинала(PDF) 2004-12-09. г.
Changhu Wang; Feng Jing; Lei Zhang; Hong-Jiang Zhang (2007). „content-based image annotation refinement”. IEEE Conference on Computer Vision and Pattern Recognition (CVPR 07). doi:10.1109/CVPR.2007.383221.
Ilaria Bartolini; Paolo Ciaccia (2007). „Imagination: Exploiting Link Analysis for Accurate Image Annotation”. Springer Adaptive Multimedia Retrieval. doi:10.1007/978-3-540-79860-6_3.
Emre Akbas; Fatos Y. Vural (2007). „Automatic Image Annotation by Ensemble of Visual Descriptors”. Intl. Conf. on Computer Vision (CVPR) 2007, Workshop on Semantic Learning Applications in Multimedia. doi:10.1109/CVPR.2007.383484. hdl:11511/16027.
Ameesh Makadia and Vladimir Pavlovic and Sanjiv Kumar (2008). „A New Baseline for Image Annotation”(PDF). European Conference on Computer Vision (ECCV).