Một mô hình ngôn ngữ là mô hình xác suất của một ngôn ngữ tự nhiên[1] có thể tạo ra xác suất của một chuỗi từ, dựa trên ngữ liệu văn bản trong một hoặc nhiều ngôn ngữ mà nó được đào tạo. Năm 1980, mô hình ngôn ngữ thống kê đầu tiên được đề xuất, và trong suốt thập kỷ IBM thực hiện các thử nghiệm theo phong cách 'Shannon', trong đó nhận diện các nguồn tiềm năng để cải thiện mô hình ngôn ngữ thông qua việc quan sát và phân tích khả năng của con người trong việc dự đoán hoặc sửa chữa văn bản.[2]
^Jurafsky, Dan; Martin, James H. (2021). “N-gram Language Models”. Speech and Language Processing (ấn bản thứ 3). Lưu trữ bản gốc ngày 22 tháng 5 năm 2022. Truy cập ngày 24 tháng 5 năm 2022.
^Rosenfeld, Ronald (2000). “Two decades of statistical language modeling: Where do we go from here?”. Proceedings of the IEEE. 88 (8).
^Andreas, Jacob, Andreas Vlachos, and Stephen Clark (2013). "Semantic parsing as machine translation"Lưu trữ 15 tháng 8 2020 tại Wayback Machine. Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers).
^Ponte, Jay M.; Croft, W. Bruce (1998). A language modeling approach to information retrieval. Proceedings of the 21st ACM SIGIR Conference. Melbourne, Australia: ACM. tr. 275–281. doi:10.1145/290941.291008.
^Hiemstra, Djoerd (1998). A linguistically motivated probabilistically model of information retrieval. Proceedings of the 2nd European conference on Research and Advanced Technology for Digital Libraries. LNCS, Springer. tr. 569–584. doi:10.1007/3-540-49653-X_34.
Bài viết này vẫn còn sơ khai. Bạn có thể giúp Wikipedia mở rộng nội dung để bài được hoàn chỉnh hơn.