1. 引言
目前为减少实际工程基本随机变量个数,一种可靠的方法是通过数学上的正交变换方法缩减随机变量个数。下面以随机过程的描述为例。Karhunen-Loève分解法 [1] 将随机过程分解为各分量不相关的正交函数叠加,大约需要200~600个基本随机变量。李杰等 [2] [3] 进一步研究基于标准正交基的随机过程展开法,通过随机向量的相关分解对展开系数实施正交化,基本随机变量一般为10~20个左右。汤保新 [4] [5] 对李杰等采用的不相关的基本随机变量再次采用单源随机向量(正交函数)表达,随机过程的描述仅需1个基本随机变量。
本文给出了“单源随机向量”概念的更一步解释,并探讨了单源随机向量的近似独立性和构造方法。
2. 单源随机向量的概念
“单源”是遗传学上的概念,它在模糊数学和力学领域已有借用的范例 [6] [7] 。
所谓单源随机向量 [8] (monophyletic random vector),是指以同一个随机变量为自变量的一组随机函数序列。如
,其中,
,
为唯一的随机源变量,则称
为单源随机向量。可以构造一个分量服从反正弦分布的单源随机向量,
(1)
式中,
为
上均匀分布的唯一随机变量,
为任意确定的常量。容易推导,
的概率密度函数形式同为,
(2)
概率分布函数为
(3)
由此可见,
的各分量服从同一分布,均值
,均方差
。任意两个分量之间的相关系数
,即各分量之间不相关,但并不相互独立。单源随机向量的性质将决定其应用,下一节介绍其性质的研究。
3. 单源随机向量的近似独立性
因为随机源相同,单源随机向量的各分量之间通过唯一随机源相联系,所以各分量之间是不独立的,存在一定的相依关系。这种关系,经典概率论一般采用独立性和线性相关系数描述,但这种描述存在一定局限性 [9] 。
这里仅研究三角函数形式的单源随机向量
或
的近似独立性,这里
,
服从
上的均匀分布(以下记为
)。
1) 先考虑用联合概率分布是否等于各边缘分布的乘积来判断。
公式推导发现联合概率分布不等于各边缘分布的乘积。在严格的概率意义上,
是不相互独立的。但从数值计算结果看,
与
很接近,见图1。误差大小跟
的取值有关,当
时,最大误差0.0063;当
时,最大误差0.0067。由于
,所以,在不太严格的概率意义上说,
是接近相互独立的,不妨称之为近似独立。
2) 其次考虑按统计学方法通过样本检验来判断。
这里采用二维列联表的独立性
检验 [10] 。将
的值域离散为
个区格,抽样统计每个区格的频数
,与每个区格的理论频数
进行比较,计算统计量
(4)
当该统计量服从自由度为
的
分布时,说明抽样数据相互独立。取显著水平为
,检验结果见表1。由表可见,
,所以无法拒绝抽样数据的独立性。
3) 最后按高阶相关系数度量单源随机向量的近似独立性。
基于多边矩阵理论 [11] ,罗纯、王晓迪、张应山 [12] 给出了两组随机向量相互独立和相互观测独立的定义,推出了框架的正交性与随机变量的独立性等价定理。崔瑞峰、牛新军 [13] 以高阶相关系数描述随机变量之间的非线性关系,定义了两个随机变量
的n阶协方差矩阵,
,当
时,称
为n阶不相关。研究证明,对两个
连续型随机变量,任意高阶不相关与相互独立等价。
由于协方差的计算会受到量纲的影响,这里定义两个随机变量
的n阶相关系数矩阵(无量纲),
,那么,可将高阶相关系数矩阵接近不相关矩阵
的程度作为两个随机
变量逼近相互独立的判据。本文研究了两个随机变量的情形。由定义
(5)
不难推导各阶相关系数。
这里以四阶相关系数(
)为例。此时有
,或
,或
三种情形。利用对称性,仅需讨论前2种情形,结果如下:
,
,
(6)
其它各阶相关系数最大值见表2。
研究发现,
均与
的取值有关。当
经过约简后,如果
值较大,则各阶相关系数较小。可以通过适当的
选值,达到一定的接近独立的程度。
4. 任意分布单源随机向量的构造
由均匀分布单源随机向量
(7)
可构造任意类型的概率分布
,
(8)
由式(7)所构造的均匀分布函数近似独立,如图2所示。
用正态分布作为媒介,通过变换,进行单源构造后,可将实际随机变量的数量减少到1个。
(a) 边缘分布的乘积 (b) 联合概率分布
Figure 1. Two dimensional joint probability distribution function
图1. 二维联合概率分布函数
![](Images/Table_Tmp.jpg)
Table 1. The independence test of two dimensional contingency table
表1. 二维列联表的独立性检验
![](Images/Table_Tmp.jpg)
Table 2. Higher order correlation coefficients of two random variables
表2. 两个随机变量的高阶相关系数
注:
为相关系数绝对值的最大值。
图2. 二维均匀分布直线网格
5. 结论
综上所述,单源随机向量
在概率论上本质是不独立的,但相当接近于独立。高阶相关系数足够小且统计检验又无法拒绝抽样数据的独立性,可以说,单源随机向量所表现的统计意义上的观测独立性达到了“以假乱真”的效果,甚或掩盖了概率意义上的不相互独立的本质。对数值模拟来说,如果单源随机向量近似独立,当抽样次数不多时亦可满足样本点的独立性要求,这为有效减少抽样次数提供了方法论上的依据,也为结构随机分析提供了新的手段。
基金项目
国家自然科学基金资助项目(51541805)。