La cerca del veí més proper (NNS), com a forma de cerca de proximitat, és el problema d'optimització de trobar el punt d'un conjunt determinat que és més proper (o més semblant) a un punt determinat. La proximitat s'expressa normalment en termes d'una funció de dissimilaritat: com menys semblants són els objectes, més grans són els valors de la funció.[1]
Formalment, el problema de cerca del veí més proper (NN) es defineix de la següent manera: donat un conjunt S de punts en un espai M i un punt de consulta q ∈ M, troba el punt més proper de S a q. Donald Knuth al vol. 3 de The Art of Computer Programming (1973) el va anomenar el problema de l'oficina de correus, fent referència a una aplicació d'assignació a una residència de l'oficina de correus més propera. Una generalització directa d'aquest problema és una cerca k-NN, on hem de trobar els k punts més propers.[2]
S'han proposat diverses solucions al problema NNS. La qualitat i la utilitat dels algorismes estan determinades per la complexitat temporal de les consultes, així com per la complexitat espacial de les estructures de dades de cerca que s'hagin de mantenir. L'observació informal anomenada habitualment la maledicció de la dimensionalitat afirma que no hi ha cap solució exacta de propòsit general per a NNS a l'espai euclidià d'alta dimensió utilitzant preprocessament polinomial i temps de cerca polilogarítmica.[3]
Aplicacions
El problema de cerca de veïns més propers sorgeix en nombrosos camps d'aplicació, com ara: [4]
Puntuació de semblança per predir les trajectòries professionals d'esportistes professionals.
Anàlisi de clúster: assignació d'un conjunt d'observacions en subconjunts (anomenats clústers) de manera que les observacions del mateix clúster siguin similars en algun sentit, normalment basades en la distància euclidiana.