PROFILPELAJAR.COM

Типичный график, иллюстрирующий закон Хипса. По оси x — размер текста, по оси y — число уникальных слов в тексте. Сравните значения на двух осях

Зако́н Хи́пса — эмпирическая закономерность в лингвистике, описывающая распределение числа уникальных слов в документе (или наборе документов) как функцию от его длины. Описывается формулой

V_{R}(n)=Kn^{\beta }

,

где V_R — число уникальных слов в тексте размера n. K и β — свободные параметры, определяются эмпирически. Для английского корпуса текстов K обычно лежит между 10 и 100, а β между 0,4 и 0,6.

Закон часто приписывается Гарольду Стэнли Хипсу, но впервые был открыт Густавом Герданом.^[1] С некоторым приближением закон Гердана — Хипса асимптотически эквивалентен закону Ципфа о частоте отдельных слов в тексте.^[2]

Примечания

↑ Egghe (2007): «Herdan’s law in linguistics and Heaps' law in information retrieval are different formulations of the same phenomenon».
↑ Kornai (1999); Baeaza-Yates & Navarro (2000); van Leijenhorst & van der Weide (2003).

Ссылки

Baeza-Yates, Ricardo; Navarro, Gonzalo, "Block addressing indices for approximate text retrieval", Journal of the American Society for Information Science, 51 (1): 69–82, doi:10.1002/(sici)1097-4571(2000)51:1<69::aid-asi10>3.0.co;2-c.
Egghe, L. (2007), "Untangling Herdan's law and Heaps' law: Mathematical and informetric arguments", Journal of the American Society for Information Science and Technology, 58 (5): 702, doi:10.1002/asi.20524.
Heaps, Harold Stanley (1978), Information Retrieval: Computational and Theoretical Aspects, Academic Press. Heaps' law is proposed in Section 7.5 (pp. 206—208).
Herdan, Gustav (1960), Type-token mathematics, The Hague: Mouton.
Kornai, Andras (1999), "Zipf's law outside the middle range", in Rogers, James (ed.), Proceedings of the Sixth Meeting on Mathematics of Language, University of Central Florida, pp. 347–356.
Milička, Jiří (2009), "Type-token & Hapax-token Relation: A Combinatorial Model", Glottotheory. International Journal of Theoretical Linguistics, 1 (2): 99–110, doi:10.1515/glot-2009-0009.
van Leijenhorst, D. C; van der Weide, Th. P. (2005), "A formal derivation of Heaps' Law", Information Sciences, 170 (2–4): 263–272, doi:10.1016/j.ins.2004.03.006.

[1] Egghe (2007): «Herdan’s law in linguistics and Heaps' law in information retrieval are different formulations of the same phenomenon».

[2] Kornai (1999); Baeaza-Yates & Navarro (2000); van Leijenhorst & van der Weide (2003).

[1]

[2]

Закон Хипса

Примечания

Ссылки