Textmining

Textmining of tekstmining verwijst naar het proces om met allerhande ICT-technieken waardevolle informatie te halen uit grote hoeveelheden tekstmateriaal. Met deze technieken wordt gepoogd patronen en tendensen te ontwaren. Concreet gaat men teksten softwarematig structureren en ontleden, transformeren, vervolgens inbrengen in databanken, en ten slotte evalueren en interpreteren.

Textmining is verwant aan tekstanalyse; de termen worden vaak door elkaar gebruikt.[1]

Hoewel ook in tekstanalyse kwantitatieve methoden worden gebruikt, verwijst textmining eerder naar analyse op grote schaal: bij ondernemingen in het kader van business intelligence, bijvoorbeeld om feedback van klanten te analyseren, en bijvoorbeeld in de sociale media om de publieke opinie in kaart te brengen (sentiment analysis). In de biotechnologie wordt textmining ingezet om wetenschappelijke informatie te analyseren uit de gigantische hoeveelheid publicaties.[2][3] Textmining wordt ook benut door inlichtingendiensten.[4][5] In die zin kan textmining beschouwd worden als een vorm van datamining. Textmining kan daarbij als doel dienen om een dataset te genereren waarop vervolgens statistische analyses worden toegepast.

Textmining is een toegankelijker woord voor bepaalde onderdelen uit het brede gebied van computationele taalkunde. Dit kennisgebied houdt zich bezig met het verwerken van menselijke taal door computers.

Methodologie

Er zijn twee grote groepen van methodes om textmining te implementeren: regel-gebaseerd en via machinaal leren.

Regel-gebaseerde methoden bestaan uit algoritmen die specifieke patronen in de tekst proberen te herkennen. Deze patronen moeten op voorhand gespecificeerd worden. Bijvoorbeeld kan men zoeken naar de woorden "woont in" of "leeft in" om een patroon in de tekst te vinden dat beschrijft waar een bepaalde persoon momenteel woont.

Algoritmen gebaseerd op machinaal leren (machine learning) maken niet gebruik van voorgedefinieerde patronen, maar leren deze automatisch uit tekst. Er wordt een dataset als "training" opgegeven, waarin reeds een heel aantal juiste voorbeelden geannoteerd werden. Deze voorbeelden worden dan door het algoritme gebruikt om zelf de nodige patronen uit af te leiden, en deze dan toe te passen op ongeziene tekst. Textmining via machinaal leren wordt sinds 2012 vooral gedaan met neurale netwerken.

Over het algemeen is het zo dat regel-gebaseerde systemen preciezer zijn, wat inhoudt dat de feiten die zij vinden, meestal juist zijn. Maar aangezien elke variatie een nieuw patroon nodig heeft, en dit arbeidsintensief is, zijn de resultaten van deze systemen vaak niet volledig en missen zij bepaalde feiten in tekst. Algoritmen gebaseerd op machinaal leren hebben dan weer een grote mogelijkheid tot veralgemening, waardoor zij meer informatie terugvinden in de tekst, hoewel deze niet altijd 100% juist zal zijn.