N-grama

N-grama bat sekuentzia baten barne dagoen eta n elementuk osatutako azpi-sekuentzia da. N-gramak lengoaia naturalen prozesamendu estatistikoan eta sekuentzia genetikoen analisian erabili ohi dira. Elementuok mota ezberdinetakoak izan daitezke: letrak edo hitzak, esate baterako.

1 neurriko n-gramei unigrama deritze; 2 neurrikoei bigrama; 3 neurrikoei trigrama; eta 4tik gorakoei n-grama edo (n-1) ordenako Markoven eredu deitzen zaie, n hori zenbakiagatik ordeztu daitekeelarik (4-grama, 5-grama,...).

Bibliografia

  • Christopher D. Manning, Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press: 1999. ISBN 0-262-13360-1.
  • Ted Dunning, Statistical Identification of Language. Computing Research Laboratory Memorandum (1994) MCCS-94-273.
  • Owen White, Ted Dunning, Granger Sutton, Mark Adams, J.Craig Venter, and Chris Fields. A quality control algorithm for dna sequencing projects. Nucleic Acids Research, 21(16):3829--3838, 1993.
  • Frederick J. Damerau, Markov Models and Linguistic Theory. Mouton. The Hague, 1971.

Kanpo estekak


Hizkuntzalaritza Artikulu hau hizkuntzalaritzari buruzko zirriborroa da. Wikipedia lagun dezakezu edukia osatuz.