1. 引言
当今世界,人们收录的数据形式越来越多样化,传统数据分析已经不能满足人们的需求,所以我们运用函数型数据分析来研究这些数据间的关系。回归分析 [1] 、主成分分析 [2] 、方差分析 [3] 等统计方法已经很好地融入到了函数型数据分析中,但是仍然需要做进一步的探究。
Ramsay [4] 明确指出了什么是函数型数据,并将经典数据分析技术扩展到函数型数据的问题中。Ramsay和Dalzell [5] 对函数型数据进行分析与讨论,提出了函数型数据分析的方法,Ranmsay和Silverman [6] 利用已有的函数型数据分析研究成果,总结了函数型线性模型的基本形式和估计算法,并举例说明了函数型数据的处理方法。Nelder & Wedderburn [7] 首次引入广义线性模型,该模型通过一个连接函数建立了连续型响应变量和预测变量之间的相关关系,并分析了不同的离散型响应变量和预测变量之间的关系。James [1] 提出了一种将广义线性模型扩展到预测变量是曲线或函数的方法,Müller和Stadtmüller [8] 针对响应变量是标量,预测变量是随机函数的回归情况,提出了广义函数型线性回归模型。在进行实际数据分析时,预测变量之间往往会存在一定的关系,因此,许多研究者对带有交互项的回归模型展开了研究。Yang等人 [9] 考虑深度谱图和温度时间序列之间的函数交互作用,提高了对密苏里河下游鲟鱼产卵率的预测,Usset [10] 提出了一种能适应双向交互作用的具有标量响应变量和函数型预测变量的函数回归模型,Luo和Qi [11] 、Fuchs [12] 、H. Matsui [13] 、Yifan Sun [14] 等人在带有交互项的回归模型的研究上也有所成就。
粮食作为人们生活的必需品,是影响着人们的生活、生存与发展的重要问题。近年来由于极端天气的肆虐,粮食面临减产的危机,为了应对即将到来的粮食危机,采用科学有效的方法提高粮食产量迫在眉睫。因此本文提出了连接函数已知、预测变量是函数和向量的混合变量,且函数型预测变量之间具有交互效应的广义部分函数型线性模型,并应用此模型研究粮食产量的部分影响因素。
2. 模型及其估计
2.1. 模型简介
我们假设有响应变量
,函数型预测变量
和标量型预测变量
,其中
,连接函数
已知,且二阶导连续。定义响应变量
和预测变量
、Z有以下关系:
(1)
其中
是截距,
和
是两个函数型预测变量和交互项对应的回归函数,
是标量型预测变量Z对应的未知回归系数,且
满足
,
。
由于函数型数据具有无穷维的特点,因此我们首先运用主成分分析法对函数型数据进行降维,
使用K-L展开为
其中,
为函数型主成分得分,
为函数型主成分基,且
。
同理,回归系数函数
使用K-L展开分别为:
将上述展开式带入模型(1),预测变量在
处截断,且
随着
渐近增加,得到截断模型(2)
(2)
其中,
。
2.2. 参数估计
定义参数向量
以及
利用最大似然估计,有
(3)
引入矩阵
引入向量
,
,
则方程(3)可被写成
(4)
通过加权最小二乘法对(4)进行迭代求解即得
的估计值
其中,
。
3. 实例研究
本文使用的数据来源于中国环境监测总站和各地区统计公报中收集的2020年1月1日至2020年12月31日的北京、成都、包头、新乡等58个城市的降水量、气温、农作物总播种面积、农用机械总动力、化肥使用量和粮食产量等数据。
我们的目的是利用所提的模型研究降水量、气温、农作物总播种面积、农用机械总动力和化肥使用量对粮食产量的影响。其中,以2020年各城市的降水量和气温作为2个函数型预测变量,分别记为
和
;以农作物总播种面积、农用机械总动力和化肥使用量作为3个标量型预测变量,分别记为
和
;以2020年各城市的粮食产量作为响应变量,记为Y。我们首先对各城市的粮食产量数据进行预处理,规定当粮食产量大于200万吨时,该城市的粮食产量较高,用1来表示,反之,粮食产量较低,用0来表示。图1展示了部分城市2020年的降水量和气温的情况。
![](//html.hanspub.org/file/17-2623395x60_hanspub.png?20230619101149021)
Figure 1. Precipitation and temperatures in selected cities
图1. 部分城市的降水量和气温
将预处理的数据代入到模型中,回归系数
的结果如表1所示,可以看出农作物总播种面积、农用机械总动力和化肥使用量与粮食产量之间呈正相关关系,其中农作物总播种面积对粮食产量的影响最为显著。即在一定条件下,农作物总播种面积、农用机械总动力和化肥使用量越多,粮食产量越多,沈一鸣 [15] 、祝正芳 [16] 等人的研究与我们得出的结果是一致的。农作物总播种面积是粮食生产的载体和基础,播种面积越大,资源投入越大,粮食产量越多。农业机械化的发展能够推动农业的生产发展,提高农业生产效率 [17] ,因此农用机械总动力越高,粮食产量越多。而农用化肥中含有许多农作物生长所需的营养物质和微量元素,因此科学的增加化肥施用量能够促进农作物生长,从而增加粮食产量。
![](Images/Table_Tmp.jpg)
Table 1. Estimates of regression coefficients and their significance levels
表1. 回归系数的估计值及其显著性水平
回归系数函数
和
的结果见图2,我们可以看出降水量和粮食产量具有明显的正相关性,即降水量越大,粮食产量越多。但是在雨季,降水量过大可能会影响农作物的呼吸作用,使农作物根系受到伤害,土壤养分流失,增加农作物病害的风险,从而造成粮食产量降低。对于气温和粮食产量的关系,我们可以从图中看出,除夏季外,气温与粮食产量总体上呈正相关关系。在一定范围内,温度升高能够加快农作物的生长,增加粮食产量,但是夏季温度过高则会对农作物的传粉、受精、灌浆等过程造成不良影响,导致农作物籽粒减产,粮食产量降低,这一结论在郭军伟 [18] 、樊廷海 [19] 等人的研究中得到了印证。图3和图4显示了
在置信区间内的变化特征,当
时,
随着
的增大而减小,
时,
随着
的增大而增大,
时,
随着
的增大而减小,说明降水量和气温具有一定的相互作用,共同影响着粮食产量。
![](//html.hanspub.org/file/17-2623395x78_hanspub.png?20230619101149021)
Figure 2.
and its 95% confidence interval band
图2.
及其95%的置信区间带
![](//html.hanspub.org/file/17-2623395x83_hanspub.png?20230619101149021)
Figure 3. Visualisation of
in three dimensions
图3.
的可视化三维图
![](//html.hanspub.org/file/17-2623395x86_hanspub.png?20230619101149021)
Figure 4. Contour map of
图4.
的等高线图
4. 结论
本文介绍了带有交互项的广义部分函数型线性模型,既考虑了函数型预测变量和标量型预测变量的影响,又考虑了函数型预测变量之间的交互作用,并运用模型来研究降水量、气温、农作物总播种面积、农用机械总动力、化肥使用量对粮食产量的影响。将数据代入到模型中,我们得出结论:降水量和气温对粮食产量的影响总体上呈正相关性,但是在雨季,降水量与粮食产量呈负相关性;在夏季,气温与粮食产量也呈现出负相关性。而农作物总播种面积、农用机械总动力、化肥使用量对粮食产量的影响均是正相关的。因此为了增加粮食产量,抵御粮食危机,我们应该保护耕地,积极处理现有的环境问题,防止土地荒漠化,优化农业生产模式,加大对农业科技的投入,用科学的方法合理种植农作物。
基金项目
北方工业大学毓杰人才项目,No. 107051360023XN075-04。
NOTES
*通讯作者。