跳转至主要内容
团队绩效

英格兰向世界杯竞争者进化的模型

作者:Will Gurpinar-Morgan

关键的外卖

-英格兰队出色的打击阵容可以与几支传奇的世界杯冠军球队相媲美.

-与世界杯上的对手相比,英格兰队的保龄球实力相对较弱.

-基于国内50制板球, 詹姆斯·文斯是接替亚历克斯·黑尔斯成为替补顶级击球手的杰出人选.

Jofra Archer在T20爆炸中的表现水平, IPL和Big Bash可以与这些联赛中的精英快速投球手相媲美, 虽然所需的技能与50岁以上的格式不同.

对于英国板球来说,这个夏天是一个重要的夏天,这超出了cliché的范围. 早期的国内赛季作为开始,提高审查鉴于 顶级击球手的潜在机会 在测试团队和灰烬系列的甜点课程在夏末的地平线上. 不过,主要的支柱将是为期一天的国际(ODI)世界杯,它将从30日开始在英格兰和威尔士举行th 5月14日th 7月.

英格兰队不仅以官方ICC排名第一的身份进入比赛, 但他们通过一种积极而令人兴奋的板球运动取得了成功. 2016年,他们创造了444局的最高局数的新纪录,并在2018年对澳大利亚队的481局打破了自己的纪录. Prior to this World Cup cycle, England had passed 350 twice; they’ve done it 13 times since 五月 2015. 这是一支不同于以往的英格兰队.

下面的文章介绍了optpro数据科学团队开发的球队和球员表现评级模型. 目的是概述英格兰队的实力, 他们开始为世界杯做最后的准备,并确定他们的阵容.

量化团队实力

从建模和分析的角度来看,国际板球是一个具有挑战性的环境. 日程极不平衡, 五大洲广泛的条件定期举办固定设施和场地阵列对表现和形式有重大影响. 经常性地修补规章制度, 此外,快速得分的进化和能力也使得历史视角变得困难. 此外, 业余选手和年收入数百万的明星们势均力敌, 团队之间的相对能力可能存在鸿沟.

表现和结果可能波动很大,比如27号th 今年二月, 英格兰队输了6个三柱,在50个回合中得了418分, 最终以29分的优势击败西印度群岛. 仅仅三天后的2nd 三月,英格兰队在28场比赛中以113分出局.1越过, 最终以7个三柱出局,在西印度群岛的比赛还剩38个回合. 考虑到这些因素和可变性,量化性能水平是一项艰巨的任务.

然而, cricket is a sport rich with accumulated knowledge and wisdom; conditions in Australia and Bangladesh are generally different, 就像英格兰和西印度群岛一样. 某些场地以适合击球手而闻名, 而其他人则为保龄球队提供鼓励. 虽然球队之间不会在一个系统的赛程中进行比赛, 常规的比赛确实提供了他们相对优势和劣势的信息,尤其是在多场比赛系列中. 而实力较弱的“准”成员每年的比赛数量并不多, 我们可以对他们相对于发达国家的能力做出广泛的假设,从而为我们的方法提供信息.

这些信息对于制定贝叶斯建模方法非常理想,可以利用这种先验智慧并利用它来确定可能影响性能的因素的影响. 我们使用 PyMC3 定义一个层次结构 马尔科夫链蒙特卡洛(MCMC)model to determine the strengths of international cricket teams over individual World Cup cycles; these 3-4 year cycles are a compromise between increased sample size at the expense of real smaller scale changes in performance. 类似的方法已经在以前的学术文献中使用 等级测试赛击球手.

就模型的输入而言, 我们使用的是自1979年世界杯以来不受天气影响而改变比赛条件的完整ODI比赛. 在此之前的比赛在比赛条件方面不太统一,在许多情况下,每次比赛的次数和球数都有所不同. 在20世纪70年代, 比赛胜负最明显的预测因素是第二击球的球队,因为设定目标的能力是一个重大障碍, 在抛硬币时施加不适当的影响. 下面给出的评分和分析只考虑世界杯之间的比赛(1).e. 他们不包括世界杯比赛本身, 因为我们的目标是量化参加比赛的球队的实力).

我们为每支球队确定单独的击球和保龄球优势,因为这是广义上独立的学科. 根据这里的定义,守备能力可以概括为球队的保龄球实力.

关于建模方法的进一步细节包含在本文的末尾.

英国健康检查

从模型的结果来看, 我们确定球队的实力,并将其表示为在中立场地与“普通”球队对抗的局数总和. 为了比较不同时代, 评级给出的时候,就好像一支球队正在参加当前的世界杯周期一样.

在分析中考虑了40年和10个世界杯周期, 排名前五的击球手是2003年和2007年的澳大利亚队, 2011年的印度队和1987年的西印度队. 在保龄球方面, 前五名在1983年至1996年期间被西印度群岛队占据,他们的快速保龄球攻击令人生畏, 1996年的南非队将在4点悄悄进入.

下图显示了英格兰在不同时期的评级, 更高的总跑数意味着一个更好的击球团队,更低的局跑数与更好的保龄球团队相关. Keen-eyed readers will have noted that only four teams were listed in the top-five batting teams; the omitted team was the current England line-up who sit second in our historical ratings. 印度的击球持续出色,这反映在他们占据了第6和第7位.

 

 

根据我们的历史评级, 英格兰队的击球通常在平均水平或平均水平以上. 这些评级的不确定性也得到了说明,我们可以相当有信心,这支英格兰队与他们的同行和以前的英格兰队相比,都是非凡的. 很明显,这支英格兰队与他们的祖先非常不同,同时也是现代板球的先锋, 我们的评级说明和量化了什么.

另一方面, 英格兰的保龄球引起了人们的关注,我们对他们过去四年表现水平的最佳估计是一个平均水平的球队. 有资格参加2019年世界杯的球队中, 只有西印度群岛和斯里兰卡被认为明显较弱,英格兰的保龄球与孟加拉国并列. 我们最好的估计是南非和印度有最强的保龄球队伍进入比赛.

进入比赛的大部分叙事都围绕着英格兰队的保龄球进攻, 我们的评级明确量化与他们的同行. 基于这些评级,我们当然有理由考虑其他选择.

量化击球能力

为了衡量个人的表现水平, 我们调整了球队实力模型来研究击球手和投球手,重点是2015年世界杯以来的比赛.

对于击球手,该模型考虑了一局的得分和该局的好球率. ODI球员的理想特征是能够快速大量得分,这样的设置将隔离更好的击球手,同时考虑到主场优势等因素, 反对意见及地点. We do not explicitly prescribe the relative importance of runs scored and strike-rate in the model in determining batting ability; examining the relationship between the batsman ratings and runs scored and strike-rate reveals that the former is more strongly related to the overall rating, 尽管击球率显然是一个重要的方面.

模型的输出如下所示,其中包括2015-2019年在odi中出现的个人球员,这些球员由标记代表,根据他们在这段时间内最频繁的击球位置. 从广义上讲,击球手的评级会随着顺序的下降而下降——该模型没有将击球位置作为一个特征,因此对这一预期视而不见.

 

 

评分的一个有趣的方面是由于同时考虑了得分和好球率, 与顶级击球手相比,低级别击球手可以有相对较高的评级,这通常与他们比平均得分更快有关. 这不应该被解释为这些球员一定比顶级球员更有能力, 只是他们在他们通常玩耍的环境中表现得很好.

该图突出了英格兰球员在这段时间的表现, 以及维拉特·科利,他是评分最高的球员. 从这个数字中可以清楚地看出,英格兰的顶级联赛是例外的, 而他们的低阶也非常能干. 英格兰队击球的质量和深度决定了他们的表现评级,这是由上面介绍的球队实力模型所概述的.

寻找黑尔斯的潜在替代者

亚历克斯·黑尔斯的缺席意味着在大名单中有一个意外的空缺来填补顶级击球手的空缺. 黑尔斯的记录非常出色,他经常提供英格兰所珍视的进攻性战术. 英格兰击球阵容的固定性质意味着,现在被考虑取代他的人的机会相对较少. 詹姆斯·文斯和本·达克特在ODIs中分别只打了5局和3局,因此很难在这种情况下判断.

基于模型的初步版本,国内50人制板球, 文斯是过去2-4年里出色的候选人,他的得分很高,而且很快. 黑尔斯和达克特的诺丁汉队友, 本·斯莱特和沃里克郡的山姆·海恩将是其他明确的候选人,仅根据国内表现. 然而,应该指出的是,国内比赛数量相对较少,这使得评级更具不确定性.

无论英格兰如何前进, 他们已经失去了一位久经考验的国际球员黑尔斯,如果他的替代者在世界杯期间被推到中路,他们将没有同样的国际比赛记录可以利用.

量化保龄能力

对投球手, 该模型考虑了经济利率和所采取的小数点, 同时考虑对手和地点. 一般来说,理想的ODI投球手应该是一个常规的发球者,并且具有较低的经济率, 模型试图隔离哪一个. 类似于击球手的评级, 我们没有规定这些因素在决定保龄球能力方面的相对重要性,但似乎wicket- take和economy-rate在评级方面是相对均匀的.

模型的输出如下所示,并根据玩家的保龄球动作进行分组. 对于投球手来说,数值越低就意味着水平越高,因此坐标轴就会反过来反映这一点. 拉希德汗是一名出色的投球手,他有着令人难以置信的发球能力和非常低的经济率. Jasprit Bumrah被认为是最优秀的速度投球手.

 

 

除了可汗和布姆拉, 英格兰的投球手以阿迪勒·拉希德(Adil Rashid)为重点, 克里斯·沃克斯和利亚姆·普伦基特是其中的佼佼者, 有Moeen Ali的有力支持. 考虑中的其他保龄球选项被认为相对一般或较差, 虽然评级目前不考虑投球手通常被雇用时的一局阶段. 然而,这样的评级确实表明,英格兰考虑其他选择可能是明智的举动.

乔弗拉·阿切尔的优点

在比赛筹备过程中,大部分注意力都集中在才华横溢的快速投球手约弗拉·阿彻(Jofra Archer)身上, 在满足居留要求后,哪些人可以被选择. 阿彻已经被列入扩大阵容,为世界杯做最后的准备,明天对阵爱尔兰的比赛开始, 其次是一场T20比赛和对巴基斯坦的五场odi. 阿彻没有入选英格兰队最初的15人大名单,但他们有机会在23日之前改变这一名单rd 五月.

阿切尔的声誉在很大程度上是在包括IPL和Big Bash在内的各种20场比赛中建立起来的. 基于T20 Blast中投球手的初步模型, 在过去两年的BBL和IPL, 阿彻在快速投球手中排名第六,这表明他的表现水平一直很出色. 他参加的比赛数量意味着他的评级比许多同龄人更稳健. 布姆拉再次成为排名最高的快速投球手,阿切尔与他不相上下, 以及在对外直接投资评级中排名很高的Kagiso Rabada. 在将20分钟的技能转换为更长时间的一天格式时,需要注意的是,由于在较短的格式中相对较难获得三柱出局,该模型更强烈地将经济率作为保龄球能力的标志.

阿彻将在赛前比赛中获得延长的试镜时间,如果他的20胜的表现能够很好地转化为ODIs的话, 那么英格兰的保龄球进攻就会及时得到欢迎和提升.

结论

这里列出的球队和球员的表现评级为英格兰队在世界杯上的前景提供了乐观的空间,也提供了令人担忧的地方. 与其他竞争者相比,打击单位是非凡的,它的深度是非凡的. 在历史背景下, 这支球队的打击可以与几支传奇的世界杯冠军球队相媲美,并且有能力统治他们的对手,或者追逐通常被视为令人生畏的总数.

英格兰队的主要问题当然是他们的保龄球进攻. 比赛的安排和长度可能意味着偶尔的击球失误不会影响小组赛出线. 然而, 如果击球手在一场关键比赛中低于平时的水平,打出200-250的分数, 球队是否有能力防守这样的总防守,这将是一个严重的问题. 考虑到他们在比赛前的保龄球选择显然是谨慎的做法.

在我们的分析中,英格兰队在过去四年的整体进步令人瞩目,他们大胆而激动人心的板球加上主场优势,使他们比以往任何一支英格兰队都更有资格赢得世界杯. 这是一支不同于以往的英格兰队.

*进一步的模型细节

通过MCMC方法求解的似然函数使用了一局中得分的次数和倒下的三柱数,并考虑了主场优势, 场地加上击球和保龄球队的身份. First and second innings are separated so that the target run-rate can be included as a variable in the model for the second innings; this provides additional context for a given match with higher first innings totals on average leading to higher second innings totals. 一局中被击出的次数也被作为一个变量来考虑跑动率, 在第二局,当球队因为超过目标分数而结束一局比赛时,哪个尤为重要.

局数是根据负二项分布来计算的, 这是泊松分布的一种特殊情况,但具有更大的变异或“分散”,以反映板球中普遍存在的显著变异. 失球率被建模为泊松分布.

有效地, 在考虑对手和模型中包含的其他因素的同时,模型设置将把较强的打击球队孤立出来,因为他们的总得分更高,失球更少. 另一方面,更强的保龄球队是那些失分更少,却有更多三柱出局的球队.

为了解释游戏随着时间的演变, 我们定义了相对于全球平均跑动总数和每届世界杯周期中可能不同的投球数的变化. 这里的目标是捕获规则e中的更改.g. 权力游戏规则,以及潜在的战术和方法.g. “pinch-hitters”、ODI专家或20 -20比赛的出现. 我们观察到相对稳定的局数,直到1996年世界杯, 然后在接下来的两个周期内上涨,然后在本世纪头十年末和本世纪初再次上涨, 自2015年世界杯以来,这一数字达到新高.

分离到这些更改, we attempt to isolate changes in conditions at venues over time across each decade; such an approach is a compromise between sample size and real short-term changes at a venue. 使用更长的时间范围也在一定程度上使场馆调整与世界杯周期调整脱钩, 哪些艾滋病可以分离这些潜在的高度相关因素. 大多数场馆, 变化相对较小和/或大小不确定, 尽管在黑丁利等地也有明显的趋势, 哪个环境对20世纪80年代的击球手来说特别具有挑战性.5%的场地. 然而,自从世纪之交以来, 在考虑了模型中所有其他因素后,它已经变得更加友好,超过平均运行总量.