Как оценивать статистику через биномиальное распределение. На примере Месси и вратарей ФНЛ | Контрпресс.ру — сайт о футбольной тактике Как оценивать статистику через биномиальное распределение. На примере Месси и вратарей ФНЛ — Контрпресс.ру — сайт о футбольной тактике
Статистика
28 мая 2019, 17:18
28 мая 2019, 17:18
Как оценивать статистику через биномиальное распределение. На примере Месси и вратарей ФНЛ
Артемий Коротченко погружается в математику.
Содержание
01Почему обычные отношения и разности необъективны
02Метод моделирования
03Метод Монте-Карло
04Биномиальное распределение (Binomial Ranking)
05Главный момент
06Анализ голкиперов
07Заключение

Метод биномиального распределения для оценки устойчивости статистики игрока на дистанции известен достаточно давно. Но во-первых, среди российских клубов он распространения так и не получил, и во-вторых, я встречал только один материал, где затрагивался бы именно сам метод, а не конечные результаты.

Почему обычные отношения и разности необъективны

Достаточно логичный пункт, но упомянуть его всё же стоит. Речь идёт об отношении допущенного xG к пропущенным голам (xG/GC) и разности ожидаемых и реально пропущенных голов (xG-GC). Предположим, голкипер X пропустил с 80-ти xG 100 голов. Разность xG-GC=-20, отношение xG/GC=⅘=0,8. Голкипер Y пропустил 30 голов с 10 xG. Разность абсолютно одинаковая: -20, но отношение составляет ⅓=0,3(3). То есть голкипер с меньшим количеством ударов получил преимущество в отношении ожидаемых к пропущенным голам, хотя разница xG-GC у вратарей одинаковая. Обратная ситуация: X пропустил 5 голов с 10 xG, Y — 10 с 20. Отношения равны (по ½), но у первого разница +5, а у второго: +10. То есть здесь, наоборот, голкипер с меньшим количеством ударов получил то же отношение, что и вратарь с лучшей разницей xG-GC.

Метод моделирования

Итак, мы выяснили, что обычная математика бывает необъективна в оценке отражения ударов. Но что такое в принципе удар? Давайте рассматривать каждый удар как отдельное событие, удовлетворяющее распределению Бернулли (Bernoulli Trial). То есть как событие, которое имеет только два возможных исхода: 0 (не конвертироваться в гол) или 1 (конвертироваться в гол). Соответственно, вероятность конвертирования — это xG-коэффициент удара или средний xG/sh для нескольких ударов. С ударами в створ (нас в будущем будут интересовать именно они) всё аналогично.

Обозначим количество ударов через ‘n’. Суммарный xG всех этих ударов — через ‘y’. Тогда средняя вероятность реализации удара (конвертирования в гол) равна суммарному xG, разделённому на количество попыток: =y/n. Теперь у нас есть число испытаний (количество ударов), число успехов (голы) и вероятность успеха (среднее качество удара). Проблема в том, что не все из этих n ударов имеют равную вероятность конвертирования (и в этом тоже одна из проблем обычных отношений). Но при этом у нас есть все данные для проведения статистического моделирования, которое решит проблему усреднённого показателя xG/shots. Дальше есть два сценария. Первый — моделирование Монте-Карло. Второй — биномиальное распределение.

Метод Монте-Карло

Суть моделирования заключается в следующем. У нас есть сценарий: игрок X наносит n ударов по воротам. Мы знаем, что вероятность реализации одного удара равна z. И затем мы генерируем процесс (запускаем этот сценарий) снова и снова при помощи генератора случайных величин. После — к примеру — 100 000 симуляций мы получаем данные на основе случайных распределений.

Пример: игрок наносит 25 ударов. Средняя вероятность реализации — 0,125. Запускаем Монте-Карло на 100 000 точек. Ниже представлена вероятность того, что при таких вводных он забьёт менее N (от 0 до 12) голов:

Биномиальное распределение (Binomial Ranking)

Позволяет определить вероятность выбранного количества “успехов” на заданном количестве испытаний с заданной вероятностью. Опять-таки на основе генерации случайных величин. Каждое отдельное испытание проходит независимо, его результат никак не связан с результатами остальных испытаний. При наличии числа испытаний (удары), числа успехов (голы) и вероятности успеха (average xG/shot), мы можем вычислить вероятность того, что игрок забьёт определённое (известное заранее и равное числу успехов) количество голов при таких вводных.

То есть разница с методом Монте-Карло в том, что в первый раз мы искали наиболее вероятное количество голов при таких вводных, а биномиальное распределение оценивает вероятность наступления заранее известного исхода при заданных вводных.

В таблице выше приведены вероятности наступления определённых итогов по обоим методам. Результаты биномиального распределения и моделирования Монте-Карло очень близки. В некоторых ситуациях (как те, что будут рассмотрены далее) биномиальное распределение проводить удобнее, так что схожесть результатов (и, соответственно, возможность использовать один метод вместо другого без потери в качестве результата) очень полезна.

Главный момент

Ранее уже отмечалось, что каждая симуляция Монте-Карло и каждый запуск сценария в биномиальном распределении происходят независимо от других результатов. То есть каждый удар качества 0,125 наносится как бы заново и в вакууме. Не существует овер- и андер- перфоманса, не существует регрессии к среднему: каждый удар — независимое событие.

С одной стороны, это похоже на реальную ситуацию на поле: удар — это действительно отдельное событие, которое мало зависит от остальных факторов. С другой — не учитываются обстоятельства каждого отдельного матча: дождь, ливерпульский ветер, состояние поля, психология, эффект одного матча, в конце концов. И здесь как раз проявляется важность объёма выборки (sample). Монте-Карло и биномиальное распределение необъективны на малых сэмплах. Очевидно, что с 3,125 xG практически невозможно забить 12 голов 25 ударами.

Но что если увеличить выборку? Возьмём ту же вероятность, но 1000, а не 25 ударов. Тогда суммарный xG равен 125. Наиболее вероятное — p=99,9981647% — количество голов — 168.

Гораздо ближе к реальности. В качестве примера возьмём Месси. Аргентинец имеет очень большой ударный сэмпл и стабильно перебивает свои ожидаемые голы из сезона в сезон. Если исключить пенальти, то на дистанции в 861 удар Лео забил 156 голов со средним качеством 0,16. Вероятность такого исхода — 99,62%. Такая высокая вероятность основана прежде всего на большой выборке: если реальное число успехов каждый раз превосходит ожидаемое (согласно коэффициенту вероятности), то вероятность того, что и в следующий раз случится оверперфоманс (относительно коэффициента вероятности) возрастает. Второй пример стабильного оверперфомера — Хён Мин Сон. 53 гола при 37 ожидаемых и средним качеством 0,11. Устойчивость его реализации — 95%.

Здесь важно отметить, что из-за низкой усреднённой вероятности успеха (среднее качество удара в топ-5 чемпионатах ≈0,11) биномиальное распределение может выдавать не совсем понятные (с логической точки зрения) результаты даже на выборке в >300 ударов. Результаты любого математического моделирования тем выше, чем выше вероятность успеха. Увеличение сэмпла повысит “адекватность”, но всё равно для анализа устойчивости реализации игрока моделирование применяется редко.

Другая ситуация с ударами в створ, среднее качество которых примерно в три раза выше. Но для анализа полевых игроков опора на удары в створ в качестве количества испытаний — сомнительная затея по двум причинам. Первая (основная) — очень трудно собрать базу из хотя бы из 200 ударов в створ. Вторая — если использовать меньшие выборки, то вмешается фактор короткой дистанции, и моделирование может выдать необъективные результаты. Будет примерно как с той вероятностью 12-ти голов с 25-ти ударов, только в меньших масштабах.

Анализ голкиперов

С малым количеством ударов в створ у полевых игроков ясно, но что если тогда рассмотреть тех, кто встречается абсолютно со всеми ударами в створ — голкиперов? Средний вратарь за сезон собирает базу в ≈110 ударов в створ. При этом рекомендуемый фильтр объективного моделирования при p≈0,3 составляет 200 ударов. То есть голкиперу достаточно провести два сезона в чемпионате для оформления необходимой выборки.

Результаты биномиального распределения для голкиперов ФНЛ. Фильтр >150 ударов. Столбцы, начиная с третьего: суммарное качество допущенных моментов; пропущенные голы; разница моментов и пропущенных голов; количество ударов в створ; среднее качество удара в створ;
рейтинг xGa/SoT относительно остальных игроков в выборке. Ранжирование проводилось по возрастанию.

Последнее приведено главным образом для объяснения BINOM Георгия Шелии. Среднее качество удара в створ ворот Шелии — 0,3025, 22-е место из 23. Ну то есть прям высокое. Именно из-за высокой вероятности реализации Шелия возглавляет список. Причём в играх за “Тамбов” в этом сезоне среднее качество составляет 0,328. Это самый высокий показатель в лиге. Если при аналогичных остальных вводных понизить качество допущенных ударов до среднего по лиге значения, то по биномиальному распределению Шелия будет во второй половине рейтинга. Смотрится логичнее.

Заключение

Метод биномиального распределения наиболее применим при оценке шот-стоппинговых способностей. Он позволяет на начальном этапе поиска голкипера сразу отсечь откровенных пассажиров. Алгоритм применим исключительно на больших выборках и в целом с увеличением сэмпла повышается точность результатов. Но в любом случае полезно понимать принципы работы метода и влияние каждой переменной, чтобы не повестись, например, на дутые числа Шелии (хотя конкретно там на этапе видео-анализа всё понятно стало бы).