Триграми є окремим випадком n-грами, де n дорівнює 3. Вони часто використовуються в обробці природної мови для виконання статистичного аналізу текстів і в криптографії для контролю та використання шифрів і кодів.
Частоти триграм можна використати в криптографії для розв'язання криптограм. (Див. Частотний аналіз)
Частоти триграм є одним з підходів до статистичної ідентифікації мови.
Частота
Контекст дуже важливий, різноманітні рейтинги аналізу та відсотки легко отримати, спираючись на різні розміри вибірки, різних авторів або різні типи документів: поезія, наукова фантастика, технічна документація; і рівні написання: історії для дітей, для дорослих, військові накази та рецепти.
Типовий криптоаналітичний частотний аналіз показує, що є декілька найпоширеніших триграм рівня символів англійською мовою:[1][2]
Рейтин[1]
|
Триграма
|
Частота[3]
|
1
|
the
|
1,81 %
|
2
|
and
|
0,73 %
|
3
|
tha
|
0,33 %
|
4
|
ent
|
0,42 %
|
5
|
ing
|
0,72 %
|
6
|
ion
|
0,42 %
|
7
|
tio
|
0,31 %
|
8
|
for
|
0,34 %
|
9
|
nde
|
|
10
|
has
|
|
11
|
nce
|
|
12
|
edt
|
|
13
|
tis
|
|
14
|
oft
|
0,22 %
|
15
|
sth
|
0,21 %
|
16
|
men
|
|
Оскільки в зашифрованих повідомленнях, надісланих телеграфом, часто відсутні знаки пунктуації та пробіли, криптографічний частотний аналіз таких повідомлень включає триграми, які перетинають межі слів. Це призводить до того, що такі триграми, як «edt», часто трапляються, навіть якщо вони ніколи не зустрічаються в жодному слові цих повідомлень.[4]
Приклади
Речення англійською «the quick red fox jumps over the lazy brown dog» містить такі триграми на рівні словосполучень:
the quick red
quick red fox
red fox jumps
fox jumps over
jumps over the
over the lazy
the lazy brown
lazy brown dog
А триграма на рівні словосполучення «the quick red» має такі триграми на рівні символів (де підкреслення «_» позначає пробіл):
the
he_
e_q
_qu
qui
uic
ick
ck_
k_r
_re
red
Примітки