Share to: share facebook share twitter share wa share telegram print page

Benchmark modelu językowego

Benchmark modelu językowegobenchmark testujący możliwości modeli językowych takich jak duże modele językowe[1]. Testy te mają na celu porównanie możliwości różnych modeli w takich obszarach jak rozumienie języka, generowanie i wnioskowanie.

Testy porównawcze zazwyczaj składają się ze zbioru danych i metryk ewaluacyjnych. Zbiór danych zawiera próbki tekstu i adnotacje, natomiast metryki mierzą wydajność modelu w zakresie takich zadań jak odpowiadanie na pytania, klasyfikacja tekstu i tłumaczenie maszynowe.

Charakterystyka

Wydajność modeli AI w różnych testach na przestrzeni lat 1998–2024

Kategorie

Benchmarki mogą zostać skategoryzowane względem różnych metryk do jednych z poniższych kategorii:

  • Klasyczny – skupiają się na analizie statystycznej i często powstawały przed spopularyzowaniem mechanizmów uczenia głębokiego. Do przykładów zalicza się bank drzew i BLEU
  • Odpowiadania na pytania – ta kategoria testów posiada pary pytań i odpowiedzi, często wielokrotnego wyboru[2][3]
  • Rozumowania – sprawdzająca kwestie rozumowania i wiedzy[4]
  • Agencji – sprawdzająca możliwości działania agenta, który może wykonywać takie operacje jak uruchamianie kodu[5]

Ocena

Można wyróżnić trzy typy oceny wyników benchamarka[6]:

  1. Automatyczna ocena np F1, dokładne dopasowanie, perpleksja[7]
  2. Ocena przez człowieka, pozwalający na jakościową ocenę odpowiedzi[8]
  3. Model jako osoba oceniająca będący alternatywą do oceny przez człowieka[9]

Krytyka

Jedna z najczęściej pojawiających krytyk odnośnie benchmarków jest dopasowanie modeli do danych testowych[10][11]. Aplikowane jest również w tym kontekście prawo Goodharta[12]. Oprócz tego zbiór pytań i odpowiedzi może posiadać błędy[13] lub posiadać ambiwalentne odpowiedzi, gdzie ludzie nie byliby w stanie dać 100% odpowiedzi[14][15][16][17].

Podkreślany jest również fakt wyrywkowego podejścia do wybieranych benchmarków przez twórców modeli[18].

Przykłady

SQuAD

Benchmark SQuAD w wersji 1.1 składa się z 100 tys. pytań stworzonych na bazie ponad 500 artykułów z Wikipedii. Każde zadanie składa się z podania artykułu i pytania, a odpowiedzią jest konkretne zdanie z odpowiedzią[19]. Wersja 2.0 zawiera 50 tys. pytań bez odpowiedzi, gdzie na każde pytanie należy odpowiedzieć spacją[20].

GPQA

GPQA (ang. Google-Proof Q&A) składa się 448 pytań na poziomie doktoratu wielokrotnego wyboru napisanych przez ekspertów w dziedzinie biologii, fizyki i chemii. Podzbiór "Diamond" zawiera 198 najtrudniejszych pytań[21]. OpenAI ustaliło, że eksperci osiągają średni wynik 69,7% w tym podzbiorze[22].

Humanity's Last Exam

Jako przykład benchmarku w kategorii rozumowania można wyróżnić Humanity's Last Exam. Posiada on 3000 multimodalnych pytań z ponad stu przedmiotów akademickich, z nieudostępnionym zbiorem odpowiedzi, aby zapobiec zanieczyszczeniu. 10% pytań wymaga zrozumienia zarówno tekstu, jak i obrazu, reszta opiera się wyłącznie na tekście. 80% pytań jest punktowanych poprzez dokładne dopasowanie ciągu znaków, reszta to pytania wielokrotnego wyboru[23].

Przypisy

  1. David Owen, How predictable is language model benchmark performance?, „arXiv”, 2024, DOI10.48550/arXiv.2401.04757, arXiv:2401.04757 [dostęp 2025-05-11].
  2. Danqi Chen, Wen-tau Yih, Open-Domain Question Answering, Agata Savary, Yue Zhang (red.), „Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: Tutorial Abstracts”, Online: Association for Computational Linguistics, 2020, s. 34–37, DOI10.18653/v1/2020.acl-tutorials.8 [dostęp 2025-05-11].
  3. Lilian Weng, How to Build an Open-Domain Question Answering System? [online], lilianweng.github.io, 29 października 2020 [dostęp 2025-05-11] (ang.).
  4. Tomohiro Sawada i inni, ARB: Advanced Reasoning Benchmark for Large Language Models, „arXiv”, 2023, DOI10.48550/arXiv.2307.13692, arXiv:2307.13692 [dostęp 2025-05-11].
  5. Qian Huang, Jian Vora, Percy Liang, Jure Leskovec, Benchmarking Large Language Models as AI Research Agents [online], 8 listopada 2023 [dostęp 2025-05-11] (ang.).
  6. Md Tahmid Rahman Laskar i inni, A Systematic Survey and Critical Review on Evaluating Large Language Models: Challenges, Limitations, and Recommendations, „arXiv”, 2024, DOI10.48550/arXiv.2407.04069, arXiv:2407.04069v2 [dostęp 2025-05-11].
  7. Taojun Hu, Xiao-Hua Zhou, Unveiling LLM Evaluation Focused on Metrics: Challenges and Solutions, „arXiv”, 2024, DOI10.48550/arXiv.2404.09135, arXiv:2404.09135v1 [dostęp 2025-05-11].
  8. Chris van der Lee, Albert Gatt, Emiel van Miltenburg, Emiel Krahmer, Human evaluation of automatically generated text: Current trends and best practice guidelines, „Computer Speech & Language”, 67, 2021, s. 101151, DOI10.1016/j.csl.2020.101151, ISSN 0885-2308 [dostęp 2025-05-11].
  9. Cheng-Han Chiang, Hung-yi Lee, Can Large Language Models Be an Alternative to Human Evaluations?, „arXiv”, 2023, DOI10.48550/arXiv.2305.01937, arXiv:2305.01937 [dostęp 2025-05-11].
  10. Chunyuan Deng, Yilun Zhao, Xiangru Tang, Mark Gerstein, Arman Cohan, Investigating Data Contamination in Modern Benchmarks for Large Language Models, „arXiv”, 2024, DOI10.48550/arXiv.2311.09783, arXiv:2311.09783 [dostęp 2025-05-11].
  11. Yanyang LI, lyy1994/awesome-data-contamination [online], 9 maja 2025 [dostęp 2025-05-11].
  12. Mostafa Dehghani i inni, The Benchmark Lottery, „arXiv”, 2021, DOI10.48550/arXiv.2107.07002, arXiv:2107.07002 [dostęp 2025-05-11].
  13. Curtis G. Northcutt, Anish Athalye, Jonas Mueller, Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks, „arXiv”, 2021, DOI10.48550/arXiv.2103.14749, arXiv:2103.14749 [dostęp 2025-05-11].
  14. Russell Richie, Sachin Grover, Fuchiang (Rich) Tsui, Inter-annotator agreement is not the ceiling of machine learning performance: Evidence from a comprehensive set of simulations, Dina Demner-Fushman i inni red., „Proceedings of the 21st Workshop on Biomedical Language Processing”, Dublin, Ireland: Association for Computational Linguistics, 2022, s. 275–284, DOI10.18653/v1/2022.bionlp-1.26 [dostęp 2025-05-11].
  15. Ron Artstein, Inter-annotator Agreement, Nancy Ide, James Pustejovsky (red.), Dordrecht: Springer Netherlands, 2017, s. 297–313, DOI10.1007/978-94-024-0881-2_11, ISBN 978-94-024-0881-2 [dostęp 2025-05-11] (ang.).
  16. Yixin Nie, Xiang Zhou, Mohit Bansal, What Can We Learn from Collective Human Opinions on Natural Language Inference Data? Bonnie Webber i inni red., „Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)”, Online: Association for Computational Linguistics, 2020, s. 9131–9143, DOI10.18653/v1/2020.emnlp-main.734 [dostęp 2025-05-11].
  17. Ellie Pavlick, Tom Kwiatkowski, Inherent Disagreements in Human Textual Inferences, „Transactions of the Association for Computational Linguistics”, 7, 2019, s. 677–694, DOI10.1162/tacl_a_00293, ISSN 2307-387X [dostęp 2025-05-11].
  18. Maria Eriksson i inni, Can We Trust AI Benchmarks? An Interdisciplinary Review of Current Issues in AI Evaluation, „arXiv”, 2025, DOI10.48550/arXiv.2502.06559, arXiv:2502.06559v1 [dostęp 2025-05-11].
  19. Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, Percy Liang, SQuAD: 100,000+ Questions for Machine Comprehension of Text, „arXiv”, 2016, DOI10.48550/arXiv.1606.05250, arXiv:1606.05250 [dostęp 2025-05-11].
  20. Pranav Rajpurkar, Robin Jia, Percy Liang, Know What You Don't Know: Unanswerable Questions for SQuAD, „arXiv”, 2018, DOI10.48550/arXiv.1806.03822, arXiv:1806.03822 [dostęp 2025-05-11].
  21. David Rein i inni, GPQA: A Graduate-Level Google-Proof Q&A Benchmark, „arXiv”, 2023, DOI10.48550/arXiv.2311.12022, arXiv:2311.12022 [dostęp 2025-05-11].
  22. Learning to reason with LLMs [online], openai.com [dostęp 2025-05-11] (ang.).
  23. Humanity's Last Exam [online], lastexam.ai [dostęp 2025-02-02].
Kembali kehalaman sebelumnya