Лате́нтно-семанти́чний ана́ліз (ЛСА) — метод обробки інформації природною мовою, зокрема, дистрибутивної семантики, що дозволяє аналізувати взаємозв'язок між набором документів і термінами, які в них зустрічаються, шляхом створення набору понять. ЛСА припускає, що слова, близькі за значенням, зустрічатимуться в подібних фрагментах тексту (дистрибутивна гіпотеза). З великої частини тексту створюється матриця, що вміщує кількість слів на параграф (рядки містять унікальні слова, а стовпці — текст кожного параграфа).
При аналізі множини документів як вихідну інформацію ЛСА застосовує терм-документну матрицю, елементи якої свідчать про частоту використання кожного терміна в документах (TF-IDF).
За допомогою математичного методу, що називається сингулярним розкладом матриці, кількість рядків терм-документної матриці зменшують, зберігаючи при цьому структуру подібності у стовпцях. Потім слова порівнюють за допомогою обчислення косинуса кута між двома векторами (скалярний добуток векторів, поділений на добуток їх модулів), що утворено будь-якими двома рядками. Значення, близькі до 1, є дуже схожими словами, тоді як значення, близькі до 0, представляють дуже різнорідні слова.