1. 引言
在竞技团队运动中,团队合作的重要性不可否认。同时,竞赛运动的规则和场地也为我们提供了判断团队个人表现和团队整体表现的标准。因此,与在其它领域进行数据处理和分析相比,以足球为研究对象,探讨诸如团队合作和战略结构等配置方法对团队整体绩效或水平的影响要容易得多。但是,团队成员之间的互动以及每个团队成员的优劣,以及在有限时间内团队成员的默契,都是影响整体绩效的因素。
至于比赛过程中球员形态和队员配合的变化,大多数体育数据分析师通常使用录像来手动记录 [1],这既费时又不准确。因此,许多研究人员花费大量时间、精力和金钱来分析体育视频,提取和研究视频中的图像,确定运动员的运动轨迹和习惯,并使用复杂的算法来模拟和预测互动运动员之间。当然,这对于了解团队是输是赢具有重要意义,但是这种评估系统既昂贵又复杂,也使其很难被推广到足球比赛的各个方面 [2]。而且,在许多著名的球队中,各自比赛的数据被保存为商业秘密,这使得我们很难从数学的角度来分类球员和球队的表现数据。即使使用数据进行数学建模,也仅限于分析团队内部固定组合 [3],并且很少研究对手策略的调整和团队整体绩效。
在量化球员表现的过程中,大多数研究人员使用传球次数的增加作为表现指标 [4]。Dush等人 [5] 提出了一种利用量化指标评价运动员之间互动效果的算法,获得了较好的成效;Buldú等人 [6] 以巅峰时期的巴塞罗那队为例,应用网络科学的方法对团队互动的效果进行评价,得出了球员间内在的隐含关系,发掘出了巴塞罗那队的战术要领。尽管该评估方法与实际游戏结果相符,但缺乏尺寸丰富性,从而导致传球次数权重过大的问题。有鉴于此,我们的团队还在以下建模中提出了改进计划。如图1所示,基于上文中提到的先前研究的空白,本文将对其进行一一解决。
为了探索团队中球员合作的动态特征,并提出有效的策略来指导下赛季的获胜比赛,本文作者提出了一套用于足球战术优化的网络科学模型,并以美国职业足球联盟Huskies队在2018~2019年的比赛数据为蓝本,对模型进行效果检验。以下为本模型为解决问题所提出的策略。
首先,本文使用无向图模型构建矩阵来处理玩家数据并解决“最大团队”问题和阵型问题,以研究Huskies团队中两个、三个或三个以上频繁互动的球员的内部传球组合。在解决第一个问题的过程中,我们使用了各种方法来可视化数据。通过编程,从时间过程,空间分布以及参与者之间的相应交互中构建问题所需的网络模型。从微观的角度,我们研究了赫斯基团队的特定游戏的区间分布,并绘制了替换前后的网络图,并观察了三合会人员的复杂交互配置。从宏观的角度,我们研究了Huskies团队中整体互动和形成结构的强度和频率,并在过滤后将相应的值附加到网络节点之间的连接中。
其次,本文从不同的文献中选择了效果良好且相关性强的技术指标,并在量化模型中对其进行了组合和优化,以基于合理的假设对足球队的整体实力水平进行量化。从通过事件的数量到入侵指数,从加速度指数到模拟标量H,我们对这些指标和通过次数进行了回归分析,并获得了误差值内的有偏差结果。尔后,我们将获得的团队水平量化模型应用于19个对立的团队,以研究团队的策略是否通用并且得到否定的结果。
第三,本文基于上述两个数学模型总结了影响团队在团队合作和互动中的力量的主要因素。我们还对不同获胜率下的不同编队进行了统计,以便为教练提供最佳的编队安排和替换时间。然后,根据偏微分方程的模型原理对上述技术指标进行加权,得出最能代表团队互动和整体实力水平的公式。通过公式的系数,我们为教练提供了更准确的分析以及下赛季的多重胜利计划。然后,我们将其扩展到存在团队合作的其他社会领域,以讨论最佳团队球员分配策略和整体协调。
2. 模型假设及数据集分析
2.1. 符号假设
![](Images/Table_Tmp.jpg)
Table 1. Table of the symbol assumption description
表1. 符号假设描述表
本文所建立模型,对各类变量进行了相应的符号假设,其假设情况如表1所示。为简化陈述,本文中所有相关变量均用符号假设中的符号表示。
2.2. 条件假设
· 假设球员的个人身体及精神状态是理想的,并且所有球员处于同一状态,因此我们不考虑个人的影响,而是关注团队合作。
· 假定与匹配有关的所有事件都包含在给定的数据集中。
· 假设任何事件P的得分概率都在二维高斯分布的分布下,即
,其中
。
2.3. 数据及分析
![](//html.hanspub.org/file/17-2580627x21_hanspub.png)
Figure 2. Field distribution of effective passing
图2. 有效传球区域分布
在数据处理的过程中,我们收集了球队所有传球的坐标位置,筛选出球队中的有效传球点,通过传球行为在场上的分布,直观地显示出球队中传球行为的具体位置,并结合入侵指数和加速指数来分析球队的整体实力。为了说明数据集情况,我们选择了Huskies队数据集中的其中一场比赛,图2中,红点代表Huskies队,棕点代表对手。
此外,我们对各种事件发生的数据时空分布进行分析。如图3右面板所示,当比赛接近20分钟左右的时候,哈士奇队的活跃度较高。另外如图3左面板所示,射门(Shot)和传球(Pass)的时间有很大的差距,这代表着从传球到射门的转化率较低,Huskies队的攻击力不强。
之后,我们决定以Huskies队的首场主场比赛为例,对数据进行筛查。据观察,如图4所示,Huskie队在下半场比赛中做出了三次换人,相反,对手做出了两次换人,如下图所示。这三次换人分别发生在下半场开始后的60秒、90秒和1920秒,都是在下半场开始后。我们以替补队员的出场时间作为比赛日程的分界点,将比赛的半场时间划分为若干段,从而研究球员的角色调整以及球队结构和阵容的变化。此外,通过更换替补球员,还可以更新球队的网络结构,观察替补球员在球队中的作用是否相同,甚至在团队合作中的表现是否更好。
![](//html.hanspub.org/file/17-2580627x22_hanspub.png)
Figure 3. Field distribution of distinctive events
图3. 不同事件的区域分布
3. 网络分析模型
3.1. 模型建立
首先,我们建立了一个无定向图模型来分析Huskies队的战术和模式。为此,我们假设每个球员都是一个节点,而球员两两之间的传球线路则定义为边。由于在没有数据集的情况下,球员之间的连接强度(传球频率)是未知的,所以我们将网络初始化为所有边权重均为1的全连接无向图,如图5所示。此外,基于我们对数据集的了解和对足球比赛的常识,我们发现列表中的球员分为前锋(F)、中场(M)、后卫(D)和守门员(G),所以我们将网络分为4层:前锋层,中场层,后卫层和门将层。此外,足球比赛中的球员限定为11人,包括守门员,因此节点设计为11个。
![](//html.hanspub.org/file/17-2580627x24_hanspub.png)
Figure 5. Idealized initial formation of the team
图5. 球队的理想化初始阵型布局
作为无向图,邻接权重矩阵是至关重要的。第一步是建立状态向量
,用“1”来表示,然后用零矩阵定义不同阶段比赛的邻接权重矩阵
。
首先,我们将Huskies队所有球员与另一个球队所有球员的传球事件进行计数,然后将它们应用到邻接权重矩阵
中。矩阵可以表示为:
(1)
其中
是球员x到球员y的传球次数,为了评估每个球员的传球次数,提出传球事件向量
:
(2)
显示的是球员的传球次数,而其他不在场上的球员的传球次数为“0”。在此基础上,我们可以知道,如果某个球员在场上,则矩阵中对应列或对应行向量中,至少有一个元素不为0,而其他缺席的球员都是0,基于这种分析,我们就可以获得球员的分布和位置。
3.2. 模型检验与结果评估
在MATLAB中进行编程,导入数据处理所有的传球事件并利用一个高通滤波器进行滤波后,我们根据替补球员的时间进行了赛程的划分,将Huskies队的阵容结构做成了四段式的队形结构,并且进行了队友间的组合使他们能更好地配合,球员组合包括三元配置和菱形配置。
如图6(a)所示,在Huskies队的第一阶段中,三元配置为虚线所圈出的三个三角形,即M1,F2,F1;D3,M2,M3;以及D1,M1,M3,由此图我们可以得出结论,中场球员在传球网络中起到了协调作用,因此让所有球员之间的配合更为默契。
在第二名替补出场后,Huskies队的中场、后卫和前锋形组成了菱形配置,中场休息时由中场组成了三元配置,如图6(c)所示。值得注意的是,在菱形队形中,任意两个顶点之间可以形成传球较多的二元队形,这增强了整体球队阵型的稳定性。
在第三名替补出场后,也是在比赛的最后阶段,Huskies队的球员之间配合次数明显减少,有效传球也明显减少,没有形成稳固的三元或两元结构。
![](//html.hanspub.org/file/17-2580627x33_hanspub.png)
Figure 6. Huskies formation changes in a half game
图6. Huskies队半场比赛中的阵型变化
4. 球队绩效指标模型
4.1. 模型建立
为了评价战术和阵型的效果,我们建立了一个球队性能指数模型,共有5个指标:进攻指数、加速指数、多个传球数据的调和平均值、控球率和对抗率。这里将指标定义如下:
· 进攻指数:
![](//html.hanspub.org/file/17-2580627x35_hanspub.png)
为了计算进攻指数,该程序可以总结如下:i) 统计在控球阶段发生的每个事件,并计算从该事件发生的位置进球的概率; ii) 取这些概率中的最高者。参考 文献5提供了进攻指数
的定义。为了明确每个位置进球的概率,我们建立了如图7所示的二维高斯分布,概率分布函数可以写为:
(3)
其中
和
是x和y的标准差,
和
是x和y的平均值。此处需注意,x和y代表事件发生的坐标。
· 加速指数
![](//html.hanspub.org/file/17-2580627x43_hanspub.png)
参考文献 [5] 也提供了加速度指数
的定义。与进攻指数类似,加速指数也可以直接从文献中得到。
· 多个传球数据的调和平均值H
![](//html.hanspub.org/file/17-2580627x45_hanspub.png)
显然,如何解决这五个动态指标的表述问题是此步的关键。基于此,我们将公式修改如下:
(4)
其中
是时间t时球场上的球员数量,s是球场的面积。
· 控球率
![](//html.hanspub.org/file/17-2580627x49_hanspub.png)
· 对抗率
![](//html.hanspub.org/file/17-2580627x51_hanspub.png)
4.2. 模型检验与结果分析
4.2.1
. 进攻指数对比
下图7右边显示的是第一场比赛期间Huskies队的进攻指数和对手球队进攻指数的变化情况。此处将时间设置为横轴,通过分析不同时间段球队的进攻指数来讨论球队的策略是否合理。虽然Huskies队的进攻指数在比赛进行到45分钟左右时达到顶峰,但从蓝线上看,对手队也踢进了不少制胜球,其进攻指数在比赛的最后15分钟达到顶峰。
![](//html.hanspub.org/file/17-2580627x52_hanspub.png)
Figure 7. Left: Average Invasion index changes of this season; Right: Team invasion index contrast in Match 1
图7. 左:本赛季平均进攻指数变化图;右:第一场比赛中球队进攻指数对比
4.2.2. 加速指数对比
在进攻指数的基础上,我们引入了加速指数来研究球队在某一时间段的进攻强度,即图8中的曲线斜率。在整个赛季的38场比赛中,我们可以看到Huskies队的进攻强度在前半段比较大,后期逐渐趋于缓和,这也与上面所分析的进攻指数的情况相吻合。
![](//html.hanspub.org/file/17-2580627x53_hanspub.png)
Figure 8. Average acceleration index changes of this season
图8. 本赛季平均加速度指数变化情况
图9为H队与对手在第一场比赛中的加速指数。可以看出,Huskies队主要在比赛进行到中间时进攻,即在替补上场前和替补上场后的时间段内。除此之外,H队的进攻强度始终弱于对手。
![](//html.hanspub.org/file/17-2580627x54_hanspub.png)
Figure 9. Team acceleration index contrast in Match 1
图9. 第一场比赛中的球队加速指数对比图
4.2.3
. 球队水平比较
![](//html.hanspub.org/file/17-2580627x55_hanspub.png)
![](//html.hanspub.org/file/17-2580627x56_hanspub.png)
Figure 10. The correlation analysis between the performance indexes and passing times for each team of the league
图10. 联赛各队成绩指标与传球次数的相关性分析图
在评价球队的表现时,除了以上两个变化指标外,我们还根据文献得出了以下结论:一场比赛中,球队的传球次数越多,则得分越多。因此,我们取球队的总传球数、每名球员的平均传球数、球员之间传球数的方差,得到与传球数密切相关的指标——H的调和平均数 [5],作为衡量球队实力的指标。
为了验证我们设置的评价指标与团队合作之间的相关性,我们通过传球次数作为横轴来表示队员之间的互动性,并观察其他四组指标之间的偏差大小,偏差越大,相关度越小。
从图10中可以看出,其他四个指标都表现出不同程度的相关性,这也为我们用这五个指标来量化和评价球队的整体表现和球队内部的配合情况奠定了合理的基础。
![](//html.hanspub.org/file/17-2580627x57_hanspub.png)
Figure 11. The radar graph of the represented teams for contrast of the indexes
图11. 四支代表性球队用于对比实力的雷达图
图11中,(a)代表了Huskies队基于各项评价指标的综合表现,而(b)、(c)、(d)分别代表了其对手3、6、16的实力情况。如果说Huskies队的控球策略广泛适用于各种类型的对手,那么其实力雷达图至少应该有相同的趋势和拐点,但实际上,我们通过对Huskies队与其他19组对手的表现的观察,由上图可知,对手的实力很不均衡,有的球队之间存在指标相差较大的问题。因此,我们可以得出结论,虽然H队各方面实力均衡,但这种策略并不具有普遍性。显然,对于不同水平的对手,应及时调整球队的表现。
5. 综合加权得分模型
5.1. 模型建立
在建立模型之前,我们首先制定了一个评估各队战术效果的方法,如下所示。我们使用上述方法计算出本赛季使用的每一种战术的胜率,用以评估战术和策略的有效性。同时,我们设计了一种用加权偏导函数来直观评估效果的评分方法。
如图10 (雷达图)所示,面积S是公认的重要评估指标,此外,它还受到其他5个因素的影响:进攻指数
、加速指数
、通过指数的平均值H、控球率
、对抗率
。在此基础上,可以将 用这些指数来表示成一个函数。
(5)
为了明确战术所得分,我们将加权得分函数C定义如下:
(6)
上式涉及到模型二所提出的各个评价指数。这里我们为了构造加权得分函数定义了权重系数
,如下:
(7)
一个自然的问题是权重的定义。权数可以从公式(S)的部分导数中得出:
(8)
但是,存在的问题是我们需要确定面积S的计算公式。如前所述,面积 是雷达图中五边形的面积,在这种情况下,可以通过面积函数求出S。
(9)
事实上,S也可以被认为是时间t的一个函数。当比赛持续进行时,S也是动态的。而且,从时间的角度看,比赛中的每一个成绩指标也都是动态的。在此基础上,面积S和战术得分C与时间t息息相关:
(10)
(11)
权重,与导数一样,也涉及到时间t:
(12)
因此,加权得分函数可以改写为:
(13)
简而言之,利用上述性能指标可以得到C。总分
最终可以通过计算极限获得:
(14)
根据以上分析,在具体的比赛中,我们可以不考虑对手的情况来评估Huskies 队的表现情况。
5.2. 模型评估与结果分析
在本节中,我们采用加权得分模型对Huskies队在整个赛季的表现进行分析,如图12所示。C值越高,表示Huskies球队表现的越好。根据这个规律,我们可以得出,Huskies队的得分情况一般反映了Huskies队的表现情况。比如说,第32场比赛,Huskies队一败涂地,其得分也较低。同样的,第36场比赛中Huskies队伍是大胜,其得分也较高。不过,有一场比赛似乎与真正的进球情况并不对应。值得注意的是,比分只是反映球队战绩的一个维度,其并没有考虑对手的情况。一旦对手的实力大大超过了Huskies队,那么无论Huskies队的表现有多精彩,进球差可能也是巨大的。总之,我们可以得出结论,此分析模型在具体比赛中是可以使用的。
至于对教练的建议,在不参考对手的情况下,我们呼吁教练可以用模型中得分高的战术作为参考,但是这只是基于球队自身情况而得出的结论,因为我们已经明确了这个模型并不是每个对手都能通用的,所以教练可以把得分模型和其他模型结合在一起进行决策。
![](//html.hanspub.org/file/17-2580627x74_hanspub.png)
Figure 12. The contrast between matches situation of Huskies in the season and its performance scoring situation
图12. 本赛季Huskies队的比赛情况与战绩得分情况的对比
5.3. 战术与球员配置建议
根据我们的网络模型分析,我们计算出各队的战术变化情况和相应的胜率如表2所示。在每场比赛开始和结束的大部分时间内Huskies队和对手的阵型都进行了调整,表2中的空白部分是指:通过位置坐标分析发现在比赛的第一阶段球队并没有确定具体的阵型,这可以被认为是处置失误或者是已经对球员的位置进行了安排,但球员并没有认真执行。
![](Images/Table_Tmp.jpg)
Table 2. The winning rate of the Huskies when adopting the corresponding tactics structure
表2. Huskies队采取相应战术结构时的胜率
![](Images/Table_Tmp.jpg)
Table 3. The winning rate of the Huskies when opponents adopted the corresponding tactics structure
表3. 当对手采用相应的战术结构时,Huskies队的胜率
同时,我们建立了Huskies队应用各种阵型时,对阵各个对手的胜率统计情况,胜率情况如表3所示。通过观察表3中胜率大于0.5的比赛对应的球员阵容,我们发现,后卫的数量最好控制在4人左右。如果后卫人数过多,前锋力量不足,不便于进攻;如果后卫人数过少,则容易失去防守,使对方队伍获得优势。
![](//html.hanspub.org/file/17-2580627x75_hanspub.png)
Figure 13. The formation (Tactics) frequency using in the season
图13. 阵型(战术)在本赛季使用的频率
Huskies队最常见的阵型显然是“442”,这与上面提出的“四后卫”阵型一致。第二种最常见的阵型是 433。虽然对手的阵型明显多变,但从图13右下角的横轴上可以看出,尤其是在下半场和比赛快结束时,对手开始不断变换阵型,中场球员的数量增加,有效传球增多,全队的凝聚力增强,这就意味着Huskies队教练在下半场要根据球员的实力和对手的战术来考虑让Huskies队在阵型上做更多的改变(见图14)。
6. 结论
我们通过无向图模型建立了传球网络,从数据中研究了Huskies队的三元配置和二元配置,发现菱形配置等结构在比赛中也起到了重要的作用。以上是从微观的角度进行了初步分析。从整队和长周期(整个赛季)来看,我们还对Huskies队与其他19个对手的比赛过程进行了对比。这在下面的两个模型中可以看到。
之后,我们通过设定入侵指数、加速指数等指标,进一步对球队的整体实力水平进行量化评价。通过入侵指数的变化,我们可以实时分析出球队的攻击力,通过对比加速指数,我们可以发现球队阵容的问题。我们还可以巧妙地利用雷达图中的属性和区域来判定Huskies队的表现水平和其他19个对手的实力。通过与19个对手的对比,我们证明了Huskies队的阵型结构策略并不是普遍适用于所有对手。
![](//html.hanspub.org/file/17-2580627x76_hanspub.png)
Figure 14. The winning rate of Huskies when the corresponding player is on the ground
图14. 当相应球员在场时,Huskies队的胜率
通过统计分析和对比Huskies队与对手的阵型胜率,我们对Huskies教练员提出了一个建议:在保持阵型灵活多变的基础上,尽量保持中后卫和中场的4人均衡配置,呈现出整体的“443”阵型。因为我们发现,有针对性地破解对手的阵型,是Huskies队胜利的关键,所以一个阵型不能使用时间太长,要及时调整和变化,才能有效地战胜对手。同时要保持严格的替补队员的选择,在上半场要教会队员们储备力量。
团队合作给了我们一定的启示,人与人之间的沟通和互动不仅在生活的方方面面十分重要,在体育运动中更是彰显其重要性。社会系统中充满了更多无形的指标,包括心理健康、团队成员荣誉感的变化、个人的收获等。量化和评价一个高效的团队,不仅仅是为了赢得比赛,更重要的是团队成员从团队合作中获得的优势互补。
致谢
本文作者向Huskies队比赛数据集的提供者:美国数学及其应用联合会表示感谢!