В начале 2019-го года на сайте StatsBomb вышло исследование, посвященное оценке уникальности передач через ивент-данные. До сих пор этот подход является одним из самых интересных и успешных, но у него есть недостатки, о которых писал автор: уникальный пас не обязательно является хорошим (хотя, как показали результаты в оригинальной статье, чаще всего это действительно так). Также автор обозначил следующий текст, в котором он собирался выделять именно хорошие пасы, но пока не выпустил.
В этой работе будет предложена и реализована идея об улучшении модели уникальности пасов через веса значимости пространства для обороняющейся команды в момент передачи.
Я не буду подробно описывать реализацию и работу модели оценки уникальности передач: в оригинальной статье все разобрано максимально подробно и понятно, даже есть ссылка на исходники на R. В этом разделе кратко опишу отличия от оригинальной модели и данные, по котором ее строил. И, конечно, продемонстрирую результаты.
Идея заключается в том, чтобы сформировать вектор из признаков паса (из ивент-данных) и найти N (в оригинале 20) ближайших соседей в выборке из всех таких векторов пасов с помощью алгоритма knn search. Далее просуммировать расстояния от сформированного вектора до ближайших соседей: чем большее число получилось, тем более уникальным считается пас.
В отличие от оригинальной модели, вместо того, чтобы строить уникальность по каждому чемпионату и потом аппроксимировать все результаты, я просто построил уникальность по одному сезону РПЛ. Для наглядности этого будет достаточно, однако, для использования в клубе будет правильнее изучать передачи в текущем сезоне через модель, построенную на предыдущем. Так будут лучше выделяться новые тренды и поощряться развитие игрока (так как если сравнивать с текущим сезоном, то одним из N ближайших соседей будет этот самый пас, расстояние до которого будет нулевым, а если игрок в текущем сезоне начал отдавать передачи нового типа, которые не делал в предыдущем, то расстояние до первого ближайшего соседа не будет нулевым, что увеличит итоговую сумму).
Напоследок продемонстрирую список игроков с наибольшим средним значением уникальности за матч. Важно отметить, что в выборке присутствуют матчи текущего сезона до остановки чемпионата из-за коронавируса.
На изображении выведены 25 игроков с самыми уникальными передачами в чемпионате. Штрих справа обозначает погрешность – чем он больше, тем меньше игр сыграл футболист (считается, как обратное количество игр). Погрешности условны – нужны исключительно для понимания того, сколько матчей сыграл футболист.
На последних форумах, посвященных исследованием в футболе все чаще работы основываются на трэккинговых данных, то есть данных о позициях игроков и мяча на поле с каким-то временным шагом.
Одна из таких работ, “Wide Open Spaces: A statistical technique for measuring space creation in professional soccer”, с помощью трэккинговых данных позволяет оценить умение игрока создавать свободное пространство для партнеров. В следующем году тот же автор, основываясь на этой работе, выпустил одно из важнейших исследований за все время существования таких форумов – Expected Position Value (в народе называется трэккинговым ноншотом).
Я уже писал текст с разбором первой статьи, поэтому далее будет немного самоповторов.
Все начинается с создания инструмента для разделения поля на зоны, которые контролирует атакующая и обороняющаяся команда. Возможно, многие видели пример такого разбиения поля с помощью диаграммы Вороного:
Однако у этого способа есть много недостатков, например, полное игнорирование движения игроков и дискретизация. Поэтому автор создал модель Pitch Control с помощью многомерного нормального распределения, учитывающую позицию игрока, его скорость и направление. В итоге этот вариант не только учитывает движение игроков, но и, как бонус (далее мы поймем, насколько это важный бонус), для каждого игрока для каждой точки футбольного поля вычисляется число, описывающее степень его контроля над этим небольшим пространством. Затем берется сумма по всем игрокам для каждой точки поля и получается своего рода тепловая карта по владению территорией:
Следующим этапом необходимо построить модель, определяющую важные зоны относительно положения мяча и игроков. Например, в билд-апе наиболее важная зона – опорная зона атакующей команды и центр для продвижения, эту же зону должна перекрывать или прессинговать обороняющаяся команда.
Задача решается с помощью нейронной сети, состоящей из двух линейных слоев. Несмотря на простоту архитектуры, сложность состоит в том, как построить датасет для обучения. В результате обученная модель должна по координатам мяча и заданной точке на поле генерировать значение, описывающее важность этой точки. Для этого автор выдвигает гипотезу о том, что в большинстве случаев оборонительная команда пытается занять наиболее важную зону относительно положения мяча. Действительно, в это легко поверить – конечно, будут исключения в виде позиционных ошибок или ошибок в структуре обороны, но в среднем на большом объеме данных это скорее погрешность. Далее для каждого элемента в датасете (положение мяча в конкретный момент времени и точка на поле) нужно определить target-значение – то, к чему будет приближаться нейронная сеть. Тут нам и поможет бонус из предыдущей части: в каждом эпизоде будет считаться сумма Pitch Control среди оборонительных игроков в заданной точке.
На графиках продемонстрирован результат работы нейронной сети — тепловая карта поля в зависимости от положения мяча (белая точка).
На карте видны некоторые «помехи» — они практически не влияют на качество и вызваны недостаточным количеством нейронов, поэтому модель немного сжимает свое представление. Проблема решается небольшим увеличением слоев, но для обучения такой модели необходимо очень много ресурсов.
Как применить Pitch Value для оценки паса и что это дает? Если взять координаты начала паса, то по ним можно построить тепловую карту важности зон для обороны. Зная конечную точку паса, можно определить важность зоны, в которую был направлен пас. Важность варьируется от нуля до единицы – таким образом получается приближенная к объективной оценка задумки паса с точки зрения развития атаки, ведь, если пас идет в ненужную для обороны зону или в туже самую прессинг ловушку, то коэффициент важности будет стремиться к нулю.
Вспоминаем, что уникальность паса – число, являющееся суммой расстояний до векторов похожих пасов. Это число можно умножить на коэффициент важности зоны, таким образом, уникальные передачи, направленные в неопасные для обороны зоны и, вероятнее всего, не приведшие к дальнейшему развитию атаки будут зануляться.
Интересно посмотреть на то, как сопоставляется уникальность паса со взвешенной уникальностью. То есть, у каких игроков уникальные передачи помогают развитию атаки, а у каких – нет. Для этого построены три визуализации: на первой нормализованные значения уникальности и взвешенной уникальности напрямую сравниваются друг с другом, на второй выводится топ игроков по тому, насколько часто уникальные передачи не являются полезными с точки зрения pitch value, а в третьей наоборот.
На данном графике по x отображено значение pvpu, а по y – значение уникальности паса в среднем за матч
Грубо говоря, с помощью графика выше можно определить, какие игроки отдают более обостряющие уникальные передачи (располагаются ближе к главной диагонали), а какие отдают уникальные передачи, не влияющие на обострение напрямую (или не обостряющие вообще).
На графике слева игроки c завышенной уникальностью паса, на правом игроки, уникальность паса которых практически совпадает со взвешенной уникальностью.
Какие выводы из всех предоставленных визуализаций и объяснений можно сделать? Лично у меня результаты совпали во многих моментах с личными ощущениями от просмотра (не то, чтобы я смотрел все матчи РПЛ). Также модель вполне несложная и все значения интуитивно понятны. Эту метрику есть где дорабатывать, но точно можно использовать в клубах, так как она ни чем не уступает всем нынешним пасовым метрикам (кроме тех, которые полностью основываются на трэккинге, конечно), а во многом их превосходит. Из недостатков хочу отметить то, что pitch value не учитывает расстояние до ворот, поэтому передачи на своей и чужой половине поля расцениваются практически одинаково и что некоторые передачи назад в неопасную зону часто сильно помогают продвинуть мяч или перевести в другую, более перспективную зону. Первая проблема решается добавлением еще одного коэффициента, поощряющего передачи, которые ближе к воротам соперника. А по поводу второй проблемы нужно понимать, что эта метрика не дает ответ на вопрос – кто лучше всех пасует, она помогает определить наиболее правильные уникальные передачи, явно обостряющие игру или помогающие выйти из под прессинга.
Далее в постах в сообществе постараюсь привести видеофрагменты с наиболее уникальными и взвешенными уникальными пасами, а также поделюсь результатами после добавления коэффициента расстояния до ворот.
Если есть вопросы по модели или по интерпретации графиков, на все отвечу в комментариях или лично (контакт должен быть на сайте).