跳转至主要内容
团队绩效

识别蝙蝠侠原型

作者:丹尼·丁斯代尔

关键的外卖

-我们展示了如何将局数进展的聚类分析用于将具有相似击球原型的球员分组, 如 低风险的球员,在最后一局增加超过平均节奏的跑动率. 

 英格兰队的中位(3-5位) 与澳大利亚相比,具有更高的运行和控制率预测. 

- odi的最后10个回合, 我们的算法将英格兰队的乔斯·巴特勒单独分组,认为他拥有无与伦比的高得分率, 但澳大利亚的格伦·麦克斯韦也被认为是下一个最危险的球员. 

世界杯冠军澳大利亚队将迎战东道主英格兰队, 我们应用了OptaPro的两个新的高级指标来突出双方击球方法的差异.

在我们之前的博客中,我们介绍过 基于对跑动率和控球率的预测来模拟球员的局数进程. 这些方法提供了一种在精细尺度上可视化比赛数据的方法, 这使我们能够提取更多关于玩家表现的详细信息. 利用这些方法的下一步是使用我们的模型输出来识别相似的玩家原型, 哪些可以用来理解团队组成.

分组类似的击球手类型

简单回顾一下,我们在之前的博客中定义的指标是:

预测每次交付的运行次数: 我们考虑的是每批货物的运力而不是击中率. 这是为了区分打击率, 哪个通常考虑总局数得分率, 以及每次交付的预测运行次数, 这纯粹是对某局投球得分率的预测.

预测可控投篮概率: 这是击球手控制投球的概率. 我们将控制击球定义为击球者所期望的击球结果, 从一个适时的高射到一个判断正确的离树桩.

使用这些指标, 我们可以将玩家分配到不同的小组, 基于他们结果的相似性. 例如, 我们可以根据每个传送进程将玩家分组, 或者类似的控制速率级数. 我们也可以将这些参数结合起来,将具有相似跑动和控制速度进化的玩家分组. 例如, 我们可以使用这个工具来识别低风险的球员,他们在最后一局的跑动率超过了平均节奏.

为此,我们使用聚类算法. 基本思想是,我们根据它们在感兴趣的时间框架内之间的距离对曲线进行分组. 通常非常接近的曲线很可能被放在同一组中. 关于这个算法的更多细节可以在这篇博客的末尾找到.

比较英国和澳大利亚的机舱

在今年的世界杯上,英格兰队与其他许多球队的主要区别之一是他们在整个打击阵容中始终如一的攻击性, 特别是在他们的“机舱”(位置3-5).

探究英格兰和澳大利亚的关键球员如何构建他们的局, 我们模拟了他们的每次投球跑动和控制射门概率,以及2019年世界杯其他所有球队相同位置的击球手.

识别击球手原型, 然后我们使用聚类算法同时根据玩家的控制和跑动率对他们进行分组. 我们可以观察到每个群体的独特特征, 我们在这里任意选择了组的数量(6个),并且可以增加以获得进一步的描述性聚类.

下面的图表代表了六组引擎室玩家,并显示了他们的预测运行和控制率, 澳大利亚和英格兰的球员分别用金色和蓝色标出. 虚线表示所有玩家的平均表现.

 

 

这个分析中的每个组都有一个独特的特征. 第5组和第6组在跑步累积方面是两个最谨慎的集群, 但控制率分别较低和较高. 请注意,没有澳大利亚或英格兰球员出现在这个组中, 强调两个团队的引擎室始终是积极主动的.

第三组和第四组有点相似, 但与第四组相比,第三组的运行率始终较高,对应的初始控制率降低, 尽管这提高了与第四组的控制率相匹配的50个分娩. 最后,第一组和第二组是大赢家.

有趣的是,注意到英国和澳大利亚发动机室的相似和不同之处. 在三和四击球, Root和Morgan分别与Smith和Khawaja归为一类. 它们的运作方式非常相似, 但英格兰队击球成功的关键可以从他们每对击球的持续较高的跑动率和控制率中观察到. 例如, 乔·鲁特一贯较高的跑动率和控制率对应着60的打击率.每罚出局39分,好球率91.自2015年世界杯以来,他的平均击球率为80次,而史蒂夫·史密斯的平均击球率为43次.每罚出局36分,好球率84.59. 观察它们相似的方法被我们的算法组合在一起, 很明显,他们是每个团队的粘合剂,稳定的跑动积累和高控制率, 但鲁特在这两个方面的观点都比较一致.

同样,我们可以观察到大击球手(第一组和第二组)之间的差异. 这里我们可以看到麦克斯韦, 谁和哈迪克·潘迪亚在一起, 以持续高的跑球率击中. 巴特勒要多花点时间, 但他的加速度比麦克斯韦的要大. 此外, 巴特勒的控制率在前50次分娩中比麦克斯韦有更高的预测, 谁的控制概率在整局中稳定下降,而失分率没有增加.

10强赛分组

我们如何使用聚类来区分球员类型和了解球队实力的另一个例子是,将最后10名击球手的表现进行分组, 我们在之前的博客中分析过这个指标, 在这个实例中,分组仅仅基于每次交付的运行次数.

这个集群将玩家分组, 自2015年世界杯以来至少有400次ODI得分的球员, 谁在一局最后10局的跑动累积方面有相似的方法. 重点是来自英国、澳大利亚和印度的一些关键球员.

 

 

首先,让我们观察第三组,其中包括英格兰队的本·斯托克斯. 虽然在开始的时候,每交货次数超过41-46次, 与其他组相比,这一组在最后四场比赛中表现出相当大的下降. 这些球员的跑动率似乎达到了1左右的极限.00-1.在比赛的这段时间里,每次投球得25分. 这仍然是一个非常快的得分速度, 但他们似乎并没有持续地使用额外的齿轮来提高他们每次投球的跑动数超过1.50. 本·斯托克斯甚至表现出了每球跑动率的下降,可能是由于试图过度击球. 这可能是英格兰在最后几场比赛中的潜在弱点, 但对于数据点很少的球员来说,在比赛最后阶段的预测可能是不确定的, 斯托克斯就是最好的例子. 在这篇博文的最后会进一步讨论.

该算法还将巴特勒单独分组. 在之前的博客中讨论过, 他在最后10个回合的加速在这组球员中是无与伦比的. 因此,聚类算法认为他的曲线是唯一的,没有等价的. 然而,剩下的两组玩家之间的比较有些有趣.

一方面, 第二组和第四组在最后10圈中遵循类似的加速模式. 事实上, 一瞥可能无法看出它们之间的任何重大区别, 因为两组都有相似的预测在50 / 1左右.25-2.00. 然而,这两组之间的关键区别在于得分率的提高.

第二组, 其中包括英国的Moeen Ali, 印度的维拉特·科利和澳大利亚的格伦·马克斯韦尔, 在第45场比赛中得分已经超过了平均预测. 他们倾向于早期加速,但在最后10圈稳定. 然而,第四组的印度选手多尼(MS Dhoni)往往会推迟这种加速. 因此, 尽管第四组的玩家在第50次结束时的跑动率会增加, 他们比第二组的选手在比赛中加速更深入.

结论

本文中的两个例子展示了基于跑动率和控制率对玩家进行分组的各种方法,可以用来了解团队和玩家的实力.

通过将本届世界杯的“引擎室”球员按各自的局数组成进行分组, 这就很清楚为什么英格兰队一直以其他任何球队都无法比拟的速度进球了. 与澳大利亚同行相比, 英格兰的中路球员在跑动率和控球率方面都表现出色.

除了, 我们也可以看到为什么英格兰队在一局的最后10个回合中如此强大, 他们的打击顺序包含了极具破坏性的后期顺序球员,他们倾向于在这一阶段的局中比大多数球员更早地加速.

这些例子只是触及了运行和控制速率建模的表面, 还有聚类算法, 能否识别玩家原型. 我们观察了对外直接投资中的特定类别的国际参与者, 但是,我们的模型和方法可以适用于其他各种各样的国际和国内比赛.

*进一步的模型细节:

为了对相似曲线进行分组,我们使用欧氏距离完全链接层次聚类. 我们聚类的特征是每次交付时预测的GAM值, 所以超过50的交付段, 每个玩家将拥有50个功能. 这可以通过查看交付的子集来比较曲线来减少. 虽然我们不归一化的特征时,聚类在一个单一的措施, 当我们根据跑动率和控制率对玩家进行分组时, 需要跨测量的归一化.

在不确定性方面, 我们还可以估计运行率和控制率的相应置信区间, 为了给出围绕我们每次交付的平均运行的预测的不确定性. 这些只是一个粗略的指南,因为使用我们的方法进行稳健区间估计所需的主要假设并不成立(高斯响应变量),但它确实给出了我们的结果中不太确定的地方的想法. 我们还可以考虑预测区间, 但由于通过一次射击获得的运行的很大的可变性, 这些间隔往往很宽,信息量不大. 下面我们展示了Ben Stokes的95%置信区间, 为了显示在我们的模型输出中不确定性较大的一段时间内,他的每次交付估算的运行次数是如何减少的, 因此,这很可能是斯托克斯在这一时期缺乏数据所致.

 

 

值得注意的是,这些置信区间最有可能在一局的极端结束时增加, 击球手面对投球的机会更少. 这就是为什么我们在这段时间内为我们的图表选择了400次的分界点. 这个截点可以降低,但需要注意样条计数和模型拟合中使用的平滑参数值. 在英格兰和澳大利亚的中间顺序图中,输出的不确定性不是一个问题, 因为我们看的是一个球员每局的时间段,而不是一个球队每局的时间段.