Tekstclassificatie is een proces waarin een tekst wordt ingedeeld in klassen of categorieën, bijvoorbeeld het indelen van recensies in klassen van positief, negatief en neutraal.[1] Dit proces wordt veel gebruikt binnen de informatica, informatiekunde en de bibliotheekwetenschap. Er zijn algoritmes die op grote schaal teksten indelen. Deze classificatie wordt in de bibliotheekwetenschap meestal door de mens gedaan, terwijl binnen de informatica en informatiekunde algoritmes hiervoor worden gebruikt.
Classificatieonderwerpen
Tekstclassificatie wordt gebruikt om documenten en teksten in te delen in verschillende categorieën. Enkele voorbeelden hiervan zijn:[2]
Classificatie tegenover indexeren
Soms wordt er verschil uitgemaakt tussen het indelen van teksten in klassen en het indelen van een tekst onder een bepaald onderwerp. Volgens Frederick Wilfrid Lancaster is deze onderscheiding niet heel nuttig.[3] Dit komt onder andere ook doordat classificatiesystemen kunnen worden gebruikt als thesaurus of synoniemenwoordenboek. Dit betekent dus dat een tekst indelen met een label of onder een onderwerp vrijwel gelijk is aan het indelen van de tekst in klassen.
Algoritmisch teksten indelen (ADC)
Teksten kunnen algoritmisch worden ingedeeld. Dit heet automatic document classification (ADC). Er zijn drie soorten:[4] supervised document classification, waarbij een mens of een ander externe factor informatie geeft over hoe de documenten en/of teksten ingedeeld moeten worden, unsupervised document classification, waarbij de classificatie helemaal zonder extra informatie moet worden gedaan en semi-supervised document classification, waarbij delen van de documenten en/of teksten gelabeld worden door externe factoren en de rest zonder extra informatie moet worden ingedeeld.
Toepassingen
Tekstclassificatie wordt onder andere gebruikt voor: