带有交互项的广义部分函数型线性模型的应用
Application of Generalized Partially Function Type Linear Models with Interaction Terms
DOI: 10.12677/AAM.2023.126279, PDF, HTML, XML, 下载: 198  浏览: 313  科研立项经费支持
作者: 毛可敬, 李颂萱, 肖维维*:北方工业大学理学院,北京
关键词: 函数型数据分析交互项主成分分析粮食产量Functional Data Analysis Interaction Items Principal Component Analysis Grain Production
摘要: 随着科技的发展,数据信息逐渐呈现出多元化的特点,传统数据分析已经不能再满足人们的需求,因此越来越多的学者开始关注函数型数据分析。目前,函数型数据分析被应用到医学、气象学、环境学、经济学等各个领域。本文针对预测变量是函数型和标量型的混合变量,且考虑函数型预测变量之间的交互作用的情况,提出了一个带有交互项的广义部分函数型线性模型,利用主成分分析法对函数型预测变量进行降维处理,再运用加权最小二乘法对未知参数迭代求解,最后将此模型应用于粮食产量的研究中。研究结果表明:除特定时期外,降水量和气温在一定程度上均会促进粮食产量的增加,农作物总播种面积、农用机械总动力、化肥使用量对粮食产量的增加同样具有促进作用。
Abstract: With the development of technology, data information is gradually presenting more and more di-versified characteristics, traditional data analysis can no longer meet people’s needs, so more and more scholars are beginning to focus on functional data analysis. At present, functional data analy-sis has applications in a wide range of fields such as medicine, meteorology, environmental science and economics. In this paper, a generalized partially functional linear model with interaction terms is proposed for the case where the predictor variables are a mixture of functional and scalar varia-bles, and the interaction between the functional predictor variables is considered. The functional predictor variables are reduced in dimensionality using principal component analysis, and then the weighted least squares method is applied to iteratively solve for the unknown parameters. The re-sults of the study show that, except for certain periods, precipitation and temperature contribute to the increase in grain yield to a certain extent, and that the total area sown, total power of agricul-tural machinery and fertiliser use also contribute to the increase in grain yield.
文章引用:毛可敬, 李颂萱, 肖维维. 带有交互项的广义部分函数型线性模型的应用[J]. 应用数学进展, 2023, 12(6): 2781-2787. https://doi.org/10.12677/AAM.2023.126279

1. 引言

当今世界,人们收录的数据形式越来越多样化,传统数据分析已经不能满足人们的需求,所以我们运用函数型数据分析来研究这些数据间的关系。回归分析 [1] 、主成分分析 [2] 、方差分析 [3] 等统计方法已经很好地融入到了函数型数据分析中,但是仍然需要做进一步的探究。

Ramsay [4] 明确指出了什么是函数型数据,并将经典数据分析技术扩展到函数型数据的问题中。Ramsay和Dalzell [5] 对函数型数据进行分析与讨论,提出了函数型数据分析的方法,Ranmsay和Silverman [6] 利用已有的函数型数据分析研究成果,总结了函数型线性模型的基本形式和估计算法,并举例说明了函数型数据的处理方法。Nelder & Wedderburn [7] 首次引入广义线性模型,该模型通过一个连接函数建立了连续型响应变量和预测变量之间的相关关系,并分析了不同的离散型响应变量和预测变量之间的关系。James [1] 提出了一种将广义线性模型扩展到预测变量是曲线或函数的方法,Müller和Stadtmüller [8] 针对响应变量是标量,预测变量是随机函数的回归情况,提出了广义函数型线性回归模型。在进行实际数据分析时,预测变量之间往往会存在一定的关系,因此,许多研究者对带有交互项的回归模型展开了研究。Yang等人 [9] 考虑深度谱图和温度时间序列之间的函数交互作用,提高了对密苏里河下游鲟鱼产卵率的预测,Usset [10] 提出了一种能适应双向交互作用的具有标量响应变量和函数型预测变量的函数回归模型,Luo和Qi [11] 、Fuchs [12] 、H. Matsui [13] 、Yifan Sun [14] 等人在带有交互项的回归模型的研究上也有所成就。

粮食作为人们生活的必需品,是影响着人们的生活、生存与发展的重要问题。近年来由于极端天气的肆虐,粮食面临减产的危机,为了应对即将到来的粮食危机,采用科学有效的方法提高粮食产量迫在眉睫。因此本文提出了连接函数已知、预测变量是函数和向量的混合变量,且函数型预测变量之间具有交互效应的广义部分函数型线性模型,并应用此模型研究粮食产量的部分影响因素。

2. 模型及其估计

2.1. 模型简介

我们假设有响应变量 Y i , i = 1 , , n ,函数型预测变量 X i j ( t j ) , j = 1 , 2 和标量型预测变量 Z = ( Z 1 , Z 2 , , Z q ) ,其中 X i j ( t j ) L 2 ( T j ) ,连接函数 g ( ) 已知,且二阶导连续。定义响应变量 Y i 和预测变量 X i j ( t j ) 、Z有以下关系:

Y i = g ( α + T 1 X i 1 ( t 1 ) β 1 ( t 1 ) d t 1 + T 2 X i 2 ( t 2 ) β 2 ( t 2 ) d t 2 + T 1 T 2 X i 1 ( t 1 ) X i 2 ( t 2 ) β ( t 1 , t 2 ) d t 1 d t 2 + Z T γ ) + ε i (1)

其中 α R 是截距, β 1 ( t 1 ) , β 2 ( t 2 ) β ( t 1 , t 2 ) 是两个函数型预测变量和交互项对应的回归函数, γ = ( γ 1 , γ 2 , , γ q ) T 是标量型预测变量Z对应的未知回归系数,且 ε i 满足 E ( ε i ) = 0 V a r ( ε i ) = σ 2

由于函数型数据具有无穷维的特点,因此我们首先运用主成分分析法对函数型数据进行降维, X i j ( t j ) 使用K-L展开为

X i j ( t j ) = k = 1 ξ i j k ϕ j k ( t j )

其中, ξ i j k 为函数型主成分得分, ϕ j k ( t j ) 为函数型主成分基,且 T j ϕ j k 2 ( t j ) d t j = 1

同理,回归系数函数 β j ( t j ) , β ( t 1 , t 2 ) 使用K-L展开分别为:

β j ( t j ) = k = 1 β j k ϕ j k ( t j )

β ( t 1 , t 2 ) = k = 1 l = 1 u k l ϕ 1 k ( t 1 ) ϕ 2 l ( t 2 )

将上述展开式带入模型(1),预测变量在 p j 处截断,且 p j 随着 n 渐近增加,得到截断模型(2)

Y i = g ( α + k = 1 p 1 ξ i 1 k β 1 k + l = 1 p 2 ξ i 2 l β 2 l + k = 1 K l = 1 L ρ i k l u k l + Z T γ ) + ε i , i = 1 , 2 , , n (2)

其中, K = p 1 , L = p 2

2.2. 参数估计

定义参数向量

ϑ = ( β 11 , , β 1 p 1 , β 21 , , β 2 p 2 , u 11 , , u 1 L , u 21 , , u 2 L , , u K 1 , , u K L , γ 0 , γ 1 , , γ q ) T

以及

η i = α + k = 1 p 1 ξ i 1 k β 1 k + l = 1 p 2 ξ i 2 l β 2 l + k = 1 K l = 1 L ρ i k l u k l + Z T γ

μ i = g ( η i )

δ i = ( ξ i 11 , , ξ i 1 p 1 , ξ i 21 , , ξ i 2 p 2 , ρ i 11 , , ρ i 1 L , ρ i 21 , , ρ i 2 L , , ρ i K 1 , , ρ i K L , z 0 , z 1 , , z q ) T

利用最大似然估计,有

U ( ϑ ) = i = 1 n ( Y i g ( η i ) ) g ( η i ) σ 2 ( μ i ) δ i = 0 (3)

引入矩阵

V = d i a g ( σ 2 ( μ 1 ) , , σ 2 ( μ n ) )

H = d i a g ( g ( η 1 ) , g ( η 2 ) , , g ( η n ) )

A 0 = A n , q + 1 = ( z i m ) 1 i n , 0 m q

A j = A n , p j = ( ξ i j r ) 1 i n , 0 r p j , 1 j 2

A 12 = A n , K L = ( ρ i k l ) 1 i n , 1 k K , 1 l L

A = A n , q + 1 + p 1 + p 2 + K L = d i a g ( A 1 , A 2 , A 12 , A 0 )

引入向量 Y = ( Y 1 , , Y n ) T μ = ( μ 1 , , μ n ) T b j , γ , u 则方程(3)可被写成

A T V 1 H ( Y μ ) = 0 (4)

通过加权最小二乘法对(4)进行迭代求解即得 β j , γ , u 的估计值

β ˜ j = ( A j T I A j ) 1 A j T I g 1 ( Y )

γ ˜ = ( A 0 T I A 0 ) 1 A 0 T I g 1 ( Y )

u ˜ = ( A 12 T I A 12 ) 1 A 12 T I g 1 ( Y )

其中, I = V 1 H 2

3. 实例研究

本文使用的数据来源于中国环境监测总站和各地区统计公报中收集的2020年1月1日至2020年12月31日的北京、成都、包头、新乡等58个城市的降水量、气温、农作物总播种面积、农用机械总动力、化肥使用量和粮食产量等数据。

我们的目的是利用所提的模型研究降水量、气温、农作物总播种面积、农用机械总动力和化肥使用量对粮食产量的影响。其中,以2020年各城市的降水量和气温作为2个函数型预测变量,分别记为 X 1 X 2 ;以农作物总播种面积、农用机械总动力和化肥使用量作为3个标量型预测变量,分别记为 Z 1 , Z 2 Z 3 ;以2020年各城市的粮食产量作为响应变量,记为Y。我们首先对各城市的粮食产量数据进行预处理,规定当粮食产量大于200万吨时,该城市的粮食产量较高,用1来表示,反之,粮食产量较低,用0来表示。图1展示了部分城市2020年的降水量和气温的情况。

Figure 1. Precipitation and temperatures in selected cities

图1. 部分城市的降水量和气温

将预处理的数据代入到模型中,回归系数 γ ^ 的结果如表1所示,可以看出农作物总播种面积、农用机械总动力和化肥使用量与粮食产量之间呈正相关关系,其中农作物总播种面积对粮食产量的影响最为显著。即在一定条件下,农作物总播种面积、农用机械总动力和化肥使用量越多,粮食产量越多,沈一鸣 [15] 、祝正芳 [16] 等人的研究与我们得出的结果是一致的。农作物总播种面积是粮食生产的载体和基础,播种面积越大,资源投入越大,粮食产量越多。农业机械化的发展能够推动农业的生产发展,提高农业生产效率 [17] ,因此农用机械总动力越高,粮食产量越多。而农用化肥中含有许多农作物生长所需的营养物质和微量元素,因此科学的增加化肥施用量能够促进农作物生长,从而增加粮食产量。

Table 1. Estimates of regression coefficients and their significance levels

表1. 回归系数的估计值及其显著性水平

回归系数函数 β ^ 1 ( t 1 ) β ^ 2 ( t 2 ) 的结果见图2,我们可以看出降水量和粮食产量具有明显的正相关性,即降水量越大,粮食产量越多。但是在雨季,降水量过大可能会影响农作物的呼吸作用,使农作物根系受到伤害,土壤养分流失,增加农作物病害的风险,从而造成粮食产量降低。对于气温和粮食产量的关系,我们可以从图中看出,除夏季外,气温与粮食产量总体上呈正相关关系。在一定范围内,温度升高能够加快农作物的生长,增加粮食产量,但是夏季温度过高则会对农作物的传粉、受精、灌浆等过程造成不良影响,导致农作物籽粒减产,粮食产量降低,这一结论在郭军伟 [18] 、樊廷海 [19] 等人的研究中得到了印证。图3图4显示了 β ^ ( t 1 , t 2 ) 在置信区间内的变化特征,当 t 2 [ 30 , 10 ] 时, β ^ ( t 1 , t 2 ) 随着 t 1 的增大而减小, t 2 [ 10 , 20 ] 时, β ^ ( t 1 , t 2 ) 随着 t 1 的增大而增大, t 2 [ 20 , 30 ] 时, β ^ ( t 1 , t 2 ) 随着 t 1 的增大而减小,说明降水量和气温具有一定的相互作用,共同影响着粮食产量。

Figure 2. β ^ ( t ) and its 95% confidence interval band

图2. β ^ ( t ) 及其95%的置信区间带

Figure 3. Visualisation of β ^ ( t 1 , t 2 ) in three dimensions

图3. β ^ ( t 1 , t 2 ) 的可视化三维图

Figure 4. Contour map of β ^ ( t 1 , t 2 )

图4. β ^ ( t 1 , t 2 ) 的等高线图

4. 结论

本文介绍了带有交互项的广义部分函数型线性模型,既考虑了函数型预测变量和标量型预测变量的影响,又考虑了函数型预测变量之间的交互作用,并运用模型来研究降水量、气温、农作物总播种面积、农用机械总动力、化肥使用量对粮食产量的影响。将数据代入到模型中,我们得出结论:降水量和气温对粮食产量的影响总体上呈正相关性,但是在雨季,降水量与粮食产量呈负相关性;在夏季,气温与粮食产量也呈现出负相关性。而农作物总播种面积、农用机械总动力、化肥使用量对粮食产量的影响均是正相关的。因此为了增加粮食产量,抵御粮食危机,我们应该保护耕地,积极处理现有的环境问题,防止土地荒漠化,优化农业生产模式,加大对农业科技的投入,用科学的方法合理种植农作物。

基金项目

北方工业大学毓杰人才项目,No. 107051360023XN075-04。

NOTES

*通讯作者。

参考文献

[1] James, G.M. (2002) Generalized Linear Models with Functional Predictors. Journal of the Royal Statistical Society Series B: Statistical Methodology, 64, 411-432.
https://doi.org/10.1111/1467-9868.00342
[2] Locantore, N. and Marron, J.S. (1998) Robust Principal Component Analysis for Functional Data. Test, 8, 1-73.
https://doi.org/10.1007/BF02595862
[3] Brumback, B.A. and Rice, J.A. (1998) Smoothing Spline Models for the Analysis of Nested and Crossed Samples of Curves. Journal of the American Statistical Association, 93, 991-994.
https://doi.org/10.2307/2669843
[4] Ramsay, J.O. (1982) When the Data Are Functions. Psychometrika, 47, 379-396.
https://doi.org/10.1007/BF02293704
[5] Ramsay, J.O. and Dalzell, C.J. (1991) Some Tools for Func-tional Data Analysis. Journal of the Royal Statistical Society, 53, 539-572.
https://doi.org/10.1111/j.2517-6161.1991.tb01844.x
[6] Ramsay, J.O. and Silverman, B.W. (1997) Principal Components Analysis for Functional Data. In: Ramsay, J.O. and Silverman, B.W., Eds., Functional Data Analysis, Springer, New York, 285-290.
https://doi.org/10.1007/978-1-4757-7107-7_6
[7] Nelder, J.A. and Wedderburn, R.W.M. (1972) Generalized Linear Models. Journal of the Royal Statistical Society: Series A (General), 135, 370-384.
https://doi.org/10.2307/2344614
[8] Müller, H.G. and Stadtmüller, U. (2005) Generalized Functional Linear Models. The Annals of Statistics, 33, 774-805.
https://doi.org/10.1214/009053604000001156
[9] Yang, W.H., Wikle, C.K., Holan, S.H. and Wildhaber, M.L. (2013) Ecological Prediction with Nonlinear Multivariate Time-Frequency Functional Data Models. Journal of Agricul-tural, Biological, and Environmental Statistics, 18, 450-474.
https://doi.org/10.1007/s13253-013-0142-1
[10] Usset, J., Staicub, A.M. and Maity, A. (2016) Interaction Models for Functional Regression. Computational Statistics and Data Analysis, 94, 317-329.
https://doi.org/10.1016/j.csda.2015.08.020
[11] Luo, R.Y. and Qi, X. (2019) Interaction Model and Model Selec-tion for Function-on-Function Regression. Journal of Computational and Graphical Statistics, 28, 309-322.
https://doi.org/10.1080/10618600.2018.1514310
[12] Fuchs, K., Scheipl, F. and Greven, S. (2015) Penalized Sca-lar-on-Functions Regression with Interaction Term. Computational Statistics and Data Analysis, 81, 38-51.
https://doi.org/10.1016/j.csda.2014.07.001
[13] Matsui, H. (2020) Quadratic Regression for Functional Response Models. Econometrics and Statistics, 13, 125-136.
https://doi.org/10.1016/j.ecosta.2018.12.003
[14] Sun, Y.F. and Wang, Q.H. (2020) Function-on-Function Quad-ratic Regression Models. Computational Statistics and Data Analysis, 142, Article ID: 106814.
https://doi.org/10.1016/j.csda.2019.106814
[15] 沈一鸣. 粮食产量预测模型研究与应用[D]: [硕士学位论文]. 武汉: 武汉轻工大学, 2022.
[16] 祝正芳. 我国粮食产量与播种面积、施肥量、降水量关系实证研究[J]. 中国市场, 2013(16): 85-86, 94.
[17] 方方. 京津冀地区农业生产效率的时空格局及收敛性研究[J]. 世界地理研究, 2019, 28(5): 130-140.
[18] 郭军伟, 吴志岐, 祁国梅. 温度升高对水稻生长及品质的影响[J]. 农业科技与信息, 2022(6): 22-25.
[19] 樊廷海. 温度对玉米生长发育及产量的影响[J]. 种子科技, 2022, 40(14): 17-19.