Testy porównawcze zazwyczaj składają się ze zbioru danych i metryk ewaluacyjnych. Zbiór danych zawiera próbki tekstu i adnotacje, natomiast metryki mierzą wydajność modelu w zakresie takich zadań jak odpowiadanie na pytania, klasyfikacja tekstu i tłumaczenie maszynowe.
Charakterystyka
Wydajność modeli AI w różnych testach na przestrzeni lat 1998–2024
Kategorie
Benchmarki mogą zostać skategoryzowane względem różnych metryk do jednych z poniższych kategorii:
Klasyczny – skupiają się na analizie statystycznej i często powstawały przed spopularyzowaniem mechanizmów uczenia głębokiego. Do przykładów zalicza się bank drzew i BLEU
Odpowiadania na pytania – ta kategoria testów posiada pary pytań i odpowiedzi, często wielokrotnego wyboru[2][3]
Ocena przez człowieka, pozwalający na jakościową ocenę odpowiedzi[8]
Model jako osoba oceniająca będący alternatywą do oceny przez człowieka[9]
Krytyka
Jedna z najczęściej pojawiających krytyk odnośnie benchmarków jest dopasowanie modeli do danych testowych[10][11]. Aplikowane jest również w tym kontekście prawo Goodharta[12]. Oprócz tego zbiór pytań i odpowiedzi może posiadać błędy[13] lub posiadać ambiwalentne odpowiedzi, gdzie ludzie nie byliby w stanie dać 100% odpowiedzi[14][15][16][17].
Podkreślany jest również fakt wyrywkowego podejścia do wybieranych benchmarków przez twórców modeli[18].
Przykłady
SQuAD
Benchmark SQuAD w wersji 1.1 składa się z 100 tys. pytań stworzonych na bazie ponad 500 artykułów z Wikipedii. Każde zadanie składa się z podania artykułu i pytania, a odpowiedzią jest konkretne zdanie z odpowiedzią[19]. Wersja 2.0 zawiera 50 tys. pytań bez odpowiedzi, gdzie na każde pytanie należy odpowiedzieć spacją[20].
GPQA
GPQA (ang. Google-Proof Q&A) składa się 448 pytań na poziomie doktoratu wielokrotnego wyboru napisanych przez ekspertów w dziedzinie biologii, fizyki i chemii. Podzbiór "Diamond" zawiera 198 najtrudniejszych pytań[21]. OpenAI ustaliło, że eksperci osiągają średni wynik 69,7% w tym podzbiorze[22].
Humanity's Last Exam
Jako przykład benchmarku w kategorii rozumowania można wyróżnić Humanity's Last Exam. Posiada on 3000 multimodalnych pytań z ponad stu przedmiotów akademickich, z nieudostępnionym zbiorem odpowiedzi, aby zapobiec zanieczyszczeniu. 10% pytań wymaga zrozumienia zarówno tekstu, jak i obrazu, reszta opiera się wyłącznie na tekście. 80% pytań jest punktowanych poprzez dokładne dopasowanie ciągu znaków, reszta to pytania wielokrotnego wyboru[23].
↑DanqiD.ChenDanqiD., Wen-tauW.YihWen-tauW., Open-Domain Question Answering, AgataA.Savary, YueY.Zhang (red.), „Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: Tutorial Abstracts”, Online: Association for Computational Linguistics, 2020, s. 34–37, DOI: 10.18653/v1/2020.acl-tutorials.8 [dostęp 2025-05-11].
↑TomohiroT.SawadaTomohiroT. i inni, ARB: Advanced Reasoning Benchmark for Large Language Models, „arXiv”, 2023, DOI: 10.48550/arXiv.2307.13692, arXiv:2307.13692 [dostęp 2025-05-11].
↑Md Tahmid RahmanM.T.R.LaskarMd Tahmid RahmanM.T.R. i inni, A Systematic Survey and Critical Review on Evaluating Large Language Models: Challenges, Limitations, and Recommendations, „arXiv”, 2024, DOI: 10.48550/arXiv.2407.04069, arXiv:2407.04069v2 [dostęp 2025-05-11].
↑TaojunT.HuTaojunT., Xiao-HuaX.H.ZhouXiao-HuaX.H., Unveiling LLM Evaluation Focused on Metrics: Challenges and Solutions, „arXiv”, 2024, DOI: 10.48550/arXiv.2404.09135, arXiv:2404.09135v1 [dostęp 2025-05-11].
↑Cheng-HanCh.H.ChiangCheng-HanCh.H., Hung-yiH.LeeHung-yiH., Can Large Language Models Be an Alternative to Human Evaluations?, „arXiv”, 2023, DOI: 10.48550/arXiv.2305.01937, arXiv:2305.01937 [dostęp 2025-05-11].
↑ChunyuanCh.DengChunyuanCh., YilunY.ZhaoYilunY., XiangruX.TangXiangruX., MarkM.GersteinMarkM., ArmanA.CohanArmanA., Investigating Data Contamination in Modern Benchmarks for Large Language Models, „arXiv”, 2024, DOI: 10.48550/arXiv.2311.09783, arXiv:2311.09783 [dostęp 2025-05-11].
↑MariaM.ErikssonMariaM. i inni, Can We Trust AI Benchmarks? An Interdisciplinary Review of Current Issues in AI Evaluation, „arXiv”, 2025, DOI: 10.48550/arXiv.2502.06559, arXiv:2502.06559v1 [dostęp 2025-05-11].
↑PranavP.RajpurkarPranavP., JianJ.ZhangJianJ., KonstantinK.LopyrevKonstantinK., PercyP.LiangPercyP., SQuAD: 100,000+ Questions for Machine Comprehension of Text, „arXiv”, 2016, DOI: 10.48550/arXiv.1606.05250, arXiv:1606.05250 [dostęp 2025-05-11].
↑PranavP.RajpurkarPranavP., RobinR.JiaRobinR., PercyP.LiangPercyP., Know What You Don't Know: Unanswerable Questions for SQuAD, „arXiv”, 2018, DOI: 10.48550/arXiv.1806.03822, arXiv:1806.03822 [dostęp 2025-05-11].