剑客
关注科技互联网

解码棒球微瞬间︰ 你能听到通过数据游戏?

当世界系列赛今晚开始时,我将看游戏作为一个球迷,也通过谷歌云平台开发人员倡导的镜头。作为数据的牧马人,我想看看可以要是有点接近微瞬间接近实时的游戏。

棒球是最统计学驱动的运动项目之一。但是球迷、 播音员、 教练和球员也谈到”让游戏跟他们说”要超出统计的击球平均数、 时代和鞭子的见解。这真的是什么意思?”谈话”可以感觉像 30 对话同时发生的事情 — — 大量的噪声和大量的信号。

试着和解码它,我将使用谷歌云数据流来转换数据,谷歌 BigQuery 存储和查询数据和谷歌云 Datalab 切片,切成小块并将其呈现。棒球数据,特别是细粒度的实况统计数据,ETL 和交互式分析周围很多的挑战 — — GCP 工具特别适合于任何大小的数据地址的地区。

要那里我出版一套新的公共数据中包含每个步距的 BigQuery 每个击球从所有的大联盟棒球 2016年常规赛和季后赛。此数据是导数的游戏原木从 Sportradar,慷慨地让我非规范化和丰富这个练习。这个打开的数据集提供详细的音调 (类型、 位置、 速度) 和情境因素像跑步者基地、 字段等球员。从本质上说,此数据集可以重播每个游戏,因为它发生在音高水平。

哈利多伊尔方法

在世界系列赛比赛中,我将跑计算面临的每个球场的投手的情境压力分数并计数管理、 位置控制和成果的基础每个球场的得分分析。这种分析是灵感来自电影大联盟并称为哈利 · 多伊尔法。我选择了它,主要是因为我想要找点乐子,和因为没有人更多的乐趣比先生棒球,aka 鲍勃雷格,aka 哈利 · 道尔。

哈利多伊尔法的解释基于两个数字 — — 沃恩得分和海伍德得分。沃恩分数是一个务实的投手做好征兆。海伍德分数是相对值的投手是下多少压力。分数被排列在球场,然后出场击球次数之前的水平。我们可以使用这些分数和他们之间的关系来看看压力对性能的影响,然后潜入内得分来发掘更深层次的因素。

解码棒球微瞬间︰ 你能听到通过数据游戏?

与此数据和分析的技术,你可以做一些有趣事情喜欢比较投手能力”控制计数”— — 在沃恩得分的因素之一。例如,下面是比较印第安人的投手科里克鲁勃 vs 小熊队的投手乔恩 · 莱斯特在各自最后 30 常规赛开始。本例中的计数管理基于跟踪计数 (不只是看到计数) 之间的过渡,然后用来计算沃恩分数,也受到出场击球次数之前结果出来或对基地及其他相关成果像得分。

解码棒球微瞬间︰ 你能听到通过数据游戏?

高计数管理分数意味着投手他的优势,例如,0 球和 2 罢工,而不是 3 个球和 1 罢工保持计数。在游戏的过程中,投手,他在计数是更有可能避免由于可能少走跑和减少点击次数。这是一个方向性的指标,但它很快帮助为克鲁勃挑性能异常喜欢游戏 9 和 16。简单的拟合线你可以看到总体的差异和趋势。

另一个方法是分析一个击球手的”热”的区域 (有的打的可能性高) 通过建立赔率比基于每个从每个球。这然后反馈到投手的情境压力计算 — — 海伍德得分。如果投手感觉”弱”他可不想扔在该区域中。

下面的图形是在本垒板的垂直平面内,0,0 是死的好球区中间。越大的点,(基于以前的性能) 的可能性就越高击球手将球如果那里抛出。在图形下面面糊是右手,所以扔给他任何地方在中东,特别是里面在区域 1,0 可能是投手的坏消息。如果投手在上 3-1 的计数是背后,他有更大的压力来定位以外的区域,但他还想要避免散步。同时,他可能是超级自信的感觉和 102 英里/小时球扔中间,让面糊的捷径。

解码棒球微瞬间︰ 你能听到通过数据游戏?

作为每个世界系列游戏的进展,我们将看看趋势、 异常和即将举行的风险和给 @googlecloud Twitter 追随者的我们所”听到”的游戏,回答问题喜欢的味道”是这个投手在他最好的表演吗?””三网合一的概率是什么”和”如何强是印第安人的剩余牛棚吗?”我也会奥运会期间,通过媒体发布,扩大这些推进一步。

另外,我已经写的白皮书,详细说明如何以及为什么我们基于 GCP 的我们哈利 Doyle 方法。它包含的代码片段和详细的分步指导来帮助您建立您自己的哈利多伊尔方法。你可以在这里查看它。

如果你想去 2016年赛季头之外的更多数据在 Sportradar 的 API 页面申请免费试用。还有其他令人惊叹像 Retrosheet 和美国职棒大联盟的棒球博学,仅举几例棒球数据来源。

武装起来所有的数据和 GCP 工具,也许你也可以找到一些奇怪的掘金,来打动你生命中的棒球球迷。或更好的是,甚至预测谁会赢得这个系列。

[剑客-翻译]

分享到:更多 ()

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址