Модель Брэдли — Терри

Модель Брэдли–Терри — это вероятностная модель для результатов попарных сравнений между элементами, командами или объектами.

Для пары элементов i и j взятых из некоторой совокупности, она оценивает вероятность того, что попарное сравнение i > j окажется верным, как

[1]

где pi — положительная реальная оценка.

Сравнение объектов i > j можно интерпретировать как «i предпочтительнее j», «i ранжируется выше j» или «i превосходит j», «i выигрывает у j», в зависимости от приложения.

Например, pi может представлять рейтинг команды в спортивном турнире, а вероятность того, что команда i выиграет игру против j . [1] [2] Или pi может представлять качество коммерческого продукта и тогда вероятность того, что потребитель предпочтет продукт i продукту j .

Модель Брэдли–Терри может использоваться в прямом направлении для прогнозирования результатов, как описано выше, но чаще используется в обратном направлении для выведения оценок pi с учетом результатов наблюдений. [2] При таком применении pi представляет собой некоторую меру качества или рейтинг объекта , а модель позволяет нам оценить pi на основе серии попарных сравнений. Например, при опросе о винных предпочтениях респондентам может быть сложно дать полную оценку большому набору вин, но им относительно легко сравнить пары образцов вин и сказать, какое из них, по их мнению, лучше. На основе набора таких попарных сравнений можно затем использовать модель Брэдли–Терри для выведения полного рейтинга вин.

После расчета оценок pi модель можно использовать и в прямом направлении, например, для прогнозирования вероятного результата матчей, которые еще не были проведены. Например, в примере с опросом о вине можно рассчитать вероятность того, что кто-то предпочтет вино за вином , даже если никто из участников опроса напрямую не сравнивал эту конкретную пару.

История создания

Модель названа в честь Ральфа А. Брэдли и Милтона Э. Терри, [3] которые представили ее в 1952 году, [4] хотя она уже была изучена Эрнстом Цермело в 1920-х годах. [1] [5] [6] Приложения модели включают в себя ранжирование участников спортивных, шахматных и других соревнований, [7] ранжирование продуктов в парных сравнительных исследованиях потребительского выбора, анализ иерархий доминирования в сообществах животных и людей, [8] ранжирование журналов, ранжирование моделей ИИ, [9] и оценку релевантности документов в поисковых системах с машинным обучением . [10]

Определение

Модель Брэдли–Терри можно параметризовать различными способами. Уравнение [1], пожалуй, самое распространенное, но есть и ряд других. Брэдли и Терри сами определили экспоненциальные функции оценки , так что [2].

Тогда вероятность можно представить через сигмоиду

Эта формулировка подчеркивает сходство между моделью Брэдли–Терри и логистической регрессией . Оба используют по сути одну и ту же модель, но по-разному. В логистической регрессии обычно известны параметры и попытки вывести функциональную форму ; при ранжировании по модели Брэдли–Терри известна функциональная форма и делается попытка вывести параметры.

При масштабном коэффициенте 400 это эквивалентно системе рейтинга Эло для игроков с рейтингами Эло Ri и Rj .

Оценка параметров

Наиболее распространенное применение модели Брэдли–Терри — вывод значений параметров учитывая наблюдаемый набор результатов , например, победы и поражения в соревновании. Самый простой способ оценки параметров — это оценка максимального правдоподобия, т. е. максимизация вероятности наблюдаемых результатов с учетом значений модели и параметров.

Предположим, что мы знаем результаты набора парных соревнований между определенной группой лиц, и пусть wij будет числом раз, когда лицо i побеждает лицо j . Тогда вероятность этого набора результатов в модели Брэдли–Терри равна а логарифм правдоподобия вектора параметров p = [p1, ..., pn] равен [1]

Цермело [5] показал, что это выражение имеет только один максимум, который можно найти, дифференцируя по и приравнивая к нулю, что приводит к

[2]

Это уравнение не имеет известного замкнутого решения, но Цермело предложил решить его методом простой итерации. Начиная с любого удобного набора (положительных) начальных значений для , итеративно выполнять обновление:

[3]

для всех i в свою очередь. Результирующие параметры являются произвольными с точностью до общей мультипликативной константы, поэтому после вычисления всех новых значений их следует нормализовать путем деления на их среднее геометрическое следующим образом:

[4]

Эта процедура оценки улучшает логарифмическое правдоподобие на каждой итерации и гарантированно в конечном итоге достигает уникального максимума. [5] [11] Однако сходимость происходит медленно. [1] [12] Совсем недавно было отмечено [13], что уравнение [2] можно также переписать как

которую можно решить путем итерации

[5]

снова нормализуем после каждого раунда обновлений с использованием уравнения [4]. Эта итерация дает идентичные результаты, что и в [3], но сходится гораздо быстрее и поэтому обычно предпочтительнее, чем [3]. [13]

Рабочий пример процедуры решения

Рассмотрим спортивное соревнование между четырьмя командами, которые в общей сложности играют между собой 22 игры. Победы каждой команды указаны в строках, а соперники указаны в столбцах:

Результаты
A B C D
A 2 0 1
B 3 5 0
C 0 3 1
D 4 0 3

Например, команда A дважды обыграла команду B и трижды проиграла команде B; вообще не играла с командой C; выиграла один раз и проиграла четыре раза команде D.

Мы хотели бы оценить относительную силу команд, что мы делаем путем расчета параметров , причем более высокие параметры указывают на большую доблесть. Для этого мы произвольно инициализируем четыре записи в векторе параметров p, например, присваивая каждой команде значение 1: [1, 1, 1, 1] . Затем мы применяем уравнение [5] для обновления , что дает

Теперь снова применяем [5] для обновления , убедившись, что используете новое значение что мы только что подсчитали:

Аналогично для и мы получаем

Затем мы нормализуем все параметры, разделив их на их среднее геометрическое чтобы получить оценочные параметры p = [0.516, 1.413, 0.672, 2.041] .

Чтобы еще больше улучшить оценки, мы повторяем процесс, используя новые значения p . Например,

Повторяя этот процесс для оставшихся параметров и нормализуя, получаем p = [0.677, 1.034, 0.624, 2.287] . Повторение еще 10 раз дает быструю сходимость к окончательному решению p = [0.640, 1.043, 0.660, 2.270] . Это означает, что команда D является сильнейшей, а команда B — второй по силе, в то время как команды A и C почти равны по силе, но уступают командам B и D. Таким образом, модель Брэдли–Терри позволяет нам сделать вывод о взаимоотношениях между всеми четырьмя командами, даже если не все команды играли друг с другом.

Расширение модели на случай игр с ничьей

Если в игре присутствует вероятность ничьи то модель можно расширить введя дополнительный параметр[14] . Тогда вероятности исходов:

- вероятность что i побеждает j

- вероятность что j побеждает i

- вероятность ничьей

Смотрите также

Ссылки

  1. 1 2 3 4 Hunter, David R. (2004). "MM algorithms for generalized Bradley–Terry models". The Annals of Statistics. 32 (1): 384–406. CiteSeerX 10.1.1.110.7878. doi:10.1214/aos/1079120141. JSTOR 3448514.
  2. 1 2 3 Agresti, Alan. Categorical Data Analysis. — John Wiley & Sons, 2014. — P. 436–439.
  3. "Bradley-Terry model". Encyclopedia of Mathematics. Дата обращения: 2014-11-18.
  4. Bradley, Ralph Allan; Terry, Milton E. (1952). "Rank Analysis of Incomplete Block Designs: I. The Method of Paired Comparisons". Biometrika. 39 (3/4): 324–345. doi:10.2307/2334029. JSTOR 2334029.
  5. 1 2 3 Zermelo, Ernst (1929). "Die Berechnung der Turnier-Ergebnisse als ein Maximumproblem der Wahrscheinlichkeitsrechnung". Mathematische Zeitschrift. 29: 436–460. doi:10.1007/BF01180541. S2CID 122877703.
  6. Heinz-Dieter Ebbinghaus (2007), Ernst Zermelo: An Approach to His Life and Work, Springer, pp. 268–269, ISBN 9783540495536
  7. Shev, A.; Fujii, K.; Hsieh, F.; McCowan, B. (2014). "Systemic testing on Bradley-Terry model against nonlinear ranking hierarchy". PLOS One. 9: e115367. doi:10.1371/journal.pone.0115367. PMC 4274013. PMID 25531899.
  8. Boyd, Robert; Silk, Joan B. (1983). "A method for assigning cardinal dominance ranks". Animal Behaviour. 31: 45–58. doi:10.1016/S0003-3472(83)80172-9. S2CID 53178779.
  9. Chatbot Arena: New models & Elo system update | LMSYS Org (англ.). lmsys.org. Дата обращения: 30 января 2024.
  10. http://research.microsoft.com/pubs/154323/SzummerYilmaz-semisupervised-ranking-cikm11.pdf. {{cite conference}}: |title= пропущен или пуст (справка)
  11. Ford, Jr., L. R. (1957). "Solution of a ranking problem from binary comparisons". American Mathematical Monthly. 64: 28–33. doi:10.1080/00029890.1957.11989117.
  12. Dykstra, Jr., Otto (1956). "A note on the rank analysis of incomplete block designs". Biometrics. 12: 301–306. doi:10.2307/2334029. JSTOR 2334029.
  13. 1 2 Newman, M. E. J. (2023). "Efficient computation of rankings from pairwise comparisons". Journal of Machine Learning Research. 24: 1–25.
  14. Сергей Николенко. Байесовские рейтинг-системы, стр. 16. Казанский Федеральный Университет (2014).