Терм-документна матриця

Терм-документна матриця (англ. document-term matrix, term-document matrix) — матриця, що описує частоту появи термінів у колекції документів. В терм-документній матриці рядки відповідають документам з колекції, що аналізується, а стовпці асоційовані з термінами. Існують різноманітні схеми для визначення елементів матриці. Одною з них є схема TF-IDF. Такі матриці використовуються при обробці природної мови, зокрема в методах латентно-семантичного аналізу.

Концепція

При створенні бази даних термінів, що задіяні у множині документів, матриця термінів формується як матриця інцидентності, рядки якої описують документи, а елементи рядків свідчать про наявність термінів в цих документах. Наприклад, якщо є два коротких документи:

D1 = «Мені подобаються дані»
D2 = «Мені не подобаються дані», то відповідна терм-документа матриця буде мати вигляд:

	Мені	подобаються	не подобаються	дані
D1	1	1	0	1
D2	1	0	1	1

який показує, що за терміни містяться в тому чи іншому документі, та скільки разів вони зустрічаються. Такий підхід подібний до застосування матриці інцидентності при аналізі речень у корпусі слів одного документу^[1].

Історія

В іншому мовному розділі є повніша стаття Document-term matrix(англ.). Ви можете допомогти, розширивши поточну статтю за допомогою перекладу з англійської.

Не перекладайте текст, який видається недостовірним або неякісним. Якщо можливо, перевірте текст за посиланнями, поданими в іншомовній статті.
Докладні рекомендації: див. Вікіпедія:Переклад.

Див. також

Примітки

↑ Слюсар, В.И. (2020). Применение торцевого произведения матриц в задачах обработки естественного языка (PDF). Нейромережні технології та їх застосування НМТіЗ-2020: збірник наукових праць XIX Міжнародної наукової конференції «Нейромережні технології та їх застосування НМТіЗ-2020». - Краматорськ: Донбаська державна машинобудівна академія. -2020 . с. 156 - 162.

Ця стаття є заготовкою. Ви можете допомогти проєкту, доробивши її. Це повідомлення варто замінити точнішим.

п о р Штучний інтелект
Філософія	Тест Тюрінга • Китайська кімната • Етика ШІ
Напрямки	Агентний підхід • Адаптивне керування • Інженерія знань • Модель життєздатної системи • Машинне навчання • Нейронні мережі • Нечітка логіка • Обробка природної мови • Розпізнавання образів • Ройовий інтелект • Еволюційні алгоритми • Експертна система • Сильний штучний інтелект •
Застосування	Голосове керування • Задача класифікації • Класифікація документів • Кластеризація документів • Кластерний аналіз • Локальний пошук • Машинний переклад • Оптичне розпізнавання символів • Розпізнавання мовлення • Розпізнавання рукописного введення • Комп’ютерні ігри
Дослідники	Джон Маккарті • Аллен Ньюелл • Герберт Саймон • Алан Тюрінг • Клод Шеннон • Артур Семюель • Норберт Вінер • Марвін Мінскі • Едвард Фейгенбаум • Вудро Вілсон Бледсоу • Террі Виноград • Френк Розенблат • Чарлз Беббідж • Ноам Чомскі • Джуда Перл • Сеймур Пейперт • Джозеф Вейценбаум • Патрік Вінстон • Дональд Мікі^[en] • Алан Банді^[en] • В. М. Глушков
Організації	Асоціація з розвитку штучного інтелекту • OpenAI • Інститут Аллена з питань штучного інтелекту^[en] • Міжнародна об'єднана конференція зі штучного інтелекту • Європейська конференція з питань штучного інтелекту • Європейське товариство нейронних мереж^[en] • Інститут інформатики і штучного інтелекту ДонНТУ • Machine Intelligence Research Institute • Artificial Intelligence Applications Institute^[en]

п о р Обробка природної мови
Загальні терміни	Розуміння природної мови Корпус текстів Корпус мовлення Стоп-слова Торба слів AI-повнота N-грама (Біграма, Триграма)
Аналіз тексту	Сегментація тексту^[en] Розмічування частин мови Поверхнево-синтаксичний аналіз Обробка складних слів^[en] Видобування колокацій^[en] Стемінг Лематизація Розпізнавання іменованих сутностей Розв'язання кореферентності Аналіз тональності тексту Виокремлення концептів^[en] Синтаксичний аналіз Вирішення лексичної багатозначності^[en] Навчання онтологій^[en] Видобування термінології Видобування інформації Визначення регістру^[en]
Автоматизоване реферування	Багатодокументне реферування^[en] Видобування речень^[en] Спрощення тексту
Машинний переклад	Автоматизований переклад На основі прикладів На основі правил^[en] На основі словника^[en] На основі трансформації^[en] Нейронний Гібридний^[en] Інтерлінгвіальний^[en] Статистичний
Автоматична ідентифікація і збір даних	Розпізнавання мовлення Синтез мовлення Оптичне розпізнавання символів Генерація природної мови
Тематичне моделювання	Розміщення патінко^[en] Приховане розміщення Діріхле^[en] Латентно-семантичний аналіз
Автоматизоване рецензування^[en]	Автоматизоване оцінювання творів (в освіті)^[en] Конкордансер Система перевірки граматики^[en] Система перевірки орфографії Предиктивне введення тексту Вгадування синтаксису^[en]
Інтерфейс користувача природною мовою^[en]	Автоматизований онлайн-помічник Чат-бот Інтерактивна література Питально-відповідна система Голосовий інтерфейс користувача
Програмне забезпечення	Natural Language Toolkit SpaCy

п о р Основні сфери інформатики
Примітка: Цей шаблон приблизно дотримується ACM Computing Classification System 2012 року.
Апаратне забезпечення	Друкована плата Периферія Мікросхема Надвелика інтегральна схема Споживання енергії Автоматизація проєктування електроніки
Організація комп'ютерних систем	Архітектура комп'ютера Конфігурація комп'ютера Вбудована система Система реального часу Безвідмовність
Мережі	Мережева архітектура Мережевий протокол Мережеві складові Мережевий диспетчер^[en] Оцінка продуктивності мережі^[en] Мережева служба
Організація програмного забезпечення	Інтерпретатор Підпрограмне забезпечення Віртуальна машина Операційна система Якість програмного забезпечення
Системи запису та розробки програмного забезпечення	Парадигма програмування Мова програмування Компілятор Предметно-орієнтована мова програмування Мова моделювання Програмний каркас Інтегроване середовище розробки Керування конфігурацією Бібліотека програм Репозиторій програмного забезпечення
Розробка програмного забезпечення	Процес розробки Аналіз вимог Проєктування Побудова^[en] Розгортання Супровід Команда програмістів^[en] Модель відкритого програмного забезпечення
Теорія алгоритмів	Модель обчислення Формальна мова Теорія автоматів Теорія складності обчислень Логіка Семантика
Алгоритми	Алгоритміка Аналіз алгоритмів Ефективність алгоритму Увипадковлений алгоритм Обчислювальна геометрія
Математика обчислювальної техніки	Дискретна математика Теорія ймовірності Статистика Математичне програмне забезпечення^[en] Теорія інформації Математичний аналіз Чисельні методи
Інформаційні системи	Система керування базами даних Системи зберігання інформації Корпоративна інформаційна система Соціальні інформаційні системи^[en] Геоінформаційна система Система підтримки рішень Система керування процесами Мультимедійна інформаційна система^[en] Добування даних Електронна бібліотека Комп'ютерна платформа Цифровий маркетинг Всесвітнє павутиння Інформаційний пошук
Безпека	Криптографія Формальні методи Послуга безпеки Система виявлення вторгнень Апаратна безпека^[en] Безпека мережі Інформаційна безпека Безпечність застосунків
Людино-машинна взаємодія	Проєктування взаємодії Соціальні інформаційні технології^[en] Повсюдний комп'ютинг Візуалізація Доступність^[en]
Паралелізм	Конкурентні обчислення Паралельні обчислення Розподілені обчислення Багатонитевість Багатопроцесорність
Штучний інтелект	Обробка природної мови Представлення знань Комп'ютерний зір Автоматизоване планування та диспетчеризація Методологія пошуку Методи керування Філософія штучного інтелекту Розподілений штучний інтелект^[en]
Машинне навчання	Кероване навчання Некероване навчання Навчання з підкріпленням Багатозадачне навчання^[en] Алгоритми машинного навчання^[en] Перехресне затверджування
Графіка	Анімація Рендеринг Ретушування зображень Графічний процесор Змішана реальність Віртуальна реальність Стиснення зображень Об'ємне моделювання
Прикладні обчислення	Електронна комерція Програмне забезпечення рівня підприємства^[en] Обчислювальна математика Обчислювальна фізика Обчислювальна хімія Обчислювальна біологія Обчислювальні суспільні науки^[en] Обчислювальна інженерія^[en] Медична інформатика Цифрове мистецтво Електронне видавництво Кібервійна Електронне голосування Відеогра Обробка текстів Дослідження операцій Освітні технології Електронний документообіг