Случайное индексирование

Случайное индексирование — это метод понижения размерности и один из подходов дистрибутивной семантики, основанный на убеждении, что варианты векторной модели (Vector Space Model) с высокой размерностью малоприменимы на практике и что модели не должны наращивать размерность при появлении не виденных ранее объектов (термов, документов и т. д.) Предполагается возможность проецирования модели с большими размерностями в пространство с меньшими — без ущерба для L2-метрик, если правильно подобрать итоговые измерения, что и представляет собой основной подход к случайным проекциям как методу понижения размерности, сформулированный как лемма Джонсона — Линденштрауса.

LSH устроен аналогично. Случайное индексирование как представление объектов естественного языка впервые предлагается в работе Пентти Канерва[англ.] о Sparse Distributed Memory[англ.] и может быть описано как инкрементальное построение случайных проекций.

Можно также показать, что случайное индексирование — это вариант случайных проекций для построения евклидовых пространств.