Зако́н Хи́пса — эмпирическая закономерность в лингвистике, описывающая распределение числа уникальных слов в документе (или наборе документов) как функцию от его длины. Описывается формулой
,
где VR — число уникальных слов в тексте размера n. K и β — свободные параметры, определяются эмпирически. Для английского корпуса текстовK обычно лежит между 10 и 100, а β между 0,4 и 0,6.
Закон часто приписывается Гарольду Стэнли Хипсу, но впервые был открыт Густавом Герданом.[1] С некоторым приближением закон Гердана — Хипса асимптотически эквивалентен закону Ципфа о частоте отдельных слов в тексте.[2]
Примечания
↑Egghe (2007): «Herdan’s law in linguistics and Heaps' law in information retrieval are different formulations of the same phenomenon».
Egghe, L. (2007), "Untangling Herdan's law and Heaps' law: Mathematical and informetric arguments", Journal of the American Society for Information Science and Technology, 58 (5): 702, doi:10.1002/asi.20524.
Heaps, Harold Stanley (1978), Information Retrieval: Computational and Theoretical Aspects, Academic Press. Heaps' law is proposed in Section 7.5 (pp. 206—208).
Herdan, Gustav (1960), Type-token mathematics, The Hague: Mouton.
Kornai, Andras (1999), "Zipf's law outside the middle range", in Rogers, James (ed.), Proceedings of the Sixth Meeting on Mathematics of Language, University of Central Florida, pp. 347–356.
Milička, Jiří (2009), "Type-token & Hapax-token Relation: A Combinatorial Model", Glottotheory. International Journal of Theoretical Linguistics, 1 (2): 99–110, doi:10.1515/glot-2009-0009.
van Leijenhorst, D. C; van der Weide, Th. P. (2005), "A formal derivation of Heaps' Law", Information Sciences, 170 (2–4): 263–272, doi:10.1016/j.ins.2004.03.006.