N-gram er en sekvens av ett eller flere elementer (vanligvis ord) i tekst og tale. Begrepet er mye brukt i datalingvistikk og sannsynlighetsteori. N-grammer genereres vanligvis ut fra et korpus (en avgrenset samling tekst som ofte er digitalt tilrettelagt).
Et n-gram bestående av ett ord betegnes som et "unigram", et "bigram" består av to ord og et "trigram" av tre osv.
En anvendelse av n-gram er Google Ngram Viewer der man kan søke etter ordfrekvenser og ordtrender i hele tekstkorpuset Google Books.
Eksempel
Eksempel på n-gram
Ordsekvens |
1-gram-sekvens |
2-gram-sekvens |
3-gram-sekvens
|
|
unigram |
bigram |
trigram
|
… to be or not to be … |
…, to, be, or, not, to, be, … |
…, to be, be or, or not, not to, to be, … |
…, to be or, be or not, or not to, not to be, …
|
… dette er et eksempel … |
…, dette, er, et, eksempel, … |
…, dette er, er et, et eksempel, … |
…, dette er et, er et eksempel, …
|
Eksterne lenker
Autoritetsdata