指数型分布族熵与方差的关系
Relationship between Entropy and Variance of Exponential Family
DOI: 10.12677/sa.2024.133070, PDF, HTML, XML, 下载: 16  浏览: 36  科研立项经费支持
作者: 杨家琦, 何义俊:中国矿业大学(北京)理学院,北京
关键词: 指数型分布族方差Family of Exponential Distributions Entropy Variance
摘要: 熵在经济学与统计学的研究中占有重要地位。国外研究学者Mukherjee和Ratnaparkhi (1986)以图形的方式呈现了一些分布的熵和方差之间的关系。本文从指数型分布族的一般形式入手,通过熵的定义推导指数型分布族熵的一般表达形式,然后利用相关参数计算分布的方差与熵,并推导出两者之间关系的一般表达形式。
Abstract: Entropy plays an important role in the research of economics and statistics. In a graphical way Mukherjee and Ratnaparkhi (1986) presented the relationship between the entropy and variance for some distributions. This paper starts from the general form of exponential distribution families, derives the general expression of entropy of exponential distribution families through the definition of entropy, and then calculates the variance and entropy of the distribution using the relevant parameters, and derives the general expression of relationship between the two.
文章引用:杨家琦, 何义俊. 指数型分布族熵与方差的关系[J]. 统计学与应用, 2024, 13(3): 696-706. https://doi.org/10.12677/sa.2024.133070

1. 引言

1.1. 背景介绍

熵在经济学与统计学的研究中占有重要地位,是评估模型的重要指标之一[1] [2] [3]。通过熵的计算,可以评估模型的拟合程度和预测能力,帮助研究人员选择最佳模型。在经济学中,熵被广泛应用于信息论和决策理论。信息论中通过熵的计算,可以找到最佳的数据压缩方法,提高数据传输和存储的效率;在决策理论中,信息熵可以帮助分析决策者在不确定环境下的选择。在统计学中,熵可以用来描述数据的分布和变化,例如在市场分析中熵可以帮助分析市场波动和风险,对于制定投资策略和风险管理至关重要。总的来说,熵在经济学和统计学中有着广泛的应用,可以帮助分析信息、数据和决策,为各种经济和统计问题的研究提供重要的工具和方法。

1.2. 现状分析

国内外对熵与方差的关系开展了多方面探索。Golan、Judge和Miller的论文为最大熵计量经济学在经济研究中的理论和应用提供见解。他们讨论了最大熵方法在计量经济学中的应用,当可用信息有限时,通过最大熵找到适合观察数据的最无偏分布(最大熵计量经济学是一种方法,旨在估计满足一组约束条件的概率分布,同时最大化熵或不确定性) [3]。Mukherjee和Ratnaparkhi (1986)提出的研究以图形的方式展示了一些分布的熵和方差之间的关系。通过图形化呈现,他们揭示了不同分布之间熵和方差的变化规律,有助于更直观地理解这些参数之间的关系。这种可视化方法可以为熵和方差之间的关系提供新的认识和启发,有助于深入研究和理解不同概率分布的特性和性质[4]

再综合国内其他学者成果发现:杨晓珍、李光辉主要讨论了指数型分布族的数字特征及充分统计量。他们研究了指数型分布族的数字特征,包括均值和方差等重要统计量。此外,还讨论了如何找到指数型分布族的充分统计量,这对于推断和建模具有重要意义[5]。部分论文在研究分布的信息熵时,前期对于熵的计算更多的是利用熵的定义直接计算:周介南、丁勇在泊松分布研究过程中根据定义,较多应用基础数学知识得到信息熵的近似结果,此过程也较为繁杂[6]。都力瑶在研究某些分布熵和方差的函数关系时,也是分别求解了熵和方差,通过整合得到两者关系。

指数型分布族是一类非常重要的概率分布族,其在统计学、信息论等领域具有广泛的应用。熵和方差作为两个重要的数字特征,考虑两者之间的关系对于描述和分析分布族的特性具有重要意义。计算这两个数字特征并建立二者的关系,对于了解指数族分布中的发散程度具有重要的理论和实际意义。本文研究的出发点便是简化计算熵与方差关系的过程。首先从指数型分布族统一表达形式出发,计算熵的统一表达形式,结合指数族分布方差的参数表达性质,可以计算得到指数型分布族熵与方差关系的统一表达形式。并且利用统一形式计算五种典型的指数族分布“Bernoulli分布、Poisson分布、指数分布、Gamma分布、Gauss分布”熵与方差的关系。

2. 预备知识

2.1. 指数型分布族

指数型分布族是指具有如下特定形式的概率分布的参数集合:

一维: p( x )=c( x )exp( θxb( θ ) )dv( x )

多维: p( x )=c( x )exp( θ xb( θ ) )dv( x )

(此时 X=( X 1 , X 2 ,, X n ) n 中的Borel集)

其中 θ 是自然参数, b( θ ) θ 的已知函数,为一测度(不一定是概率测度)。常见的有两种可能:

a. 当 x 为连续变量时, dv( x ) 为Lebesgue测度: dv( x )=dx

b. 当 x 为离散变量时, x 的取值有有限个值 a 1 , a 2 ,, a k ,或可列个值 a 1 , a 2 ,, a k 这时有 v( { a j } )=1( i=1,2,,k ) v( { a j } )=1( i=1,2, )

连续情况: c d  c( x )exp( θxb( θ ) )dx=1 对一切 θΘ ( c,d ) x 的取值区间(无限或有限)。

离散情况: j  c( a j )exp( θxb( θ ) )=1 对一切 θΘ c( a j )exp( θ a j b( θ ) ) x a j 的概率(参数为 θ 时) [5]

2.1.1. 性质

a. 指数型分布族的自然参数空间 Θ n 的凸集;

b. 指数型分布族必有共同的支撑集;

c. 若 θ 0 =( θ 0 ,···, θ k ) Θ 0 ( θ 为内点构成的集合),则 c 1 ( θ ) θ 0 点连续并且它在 θ 0 点的任意阶偏导数都存在,同时求导可以穿过积分符号进行;

d. 一个指数型分布族一定满足:分布族绝对连续且对任意的显著水平和任意的样本量都存在一致最优检验[5]

2.1.2. 期望与方差

指数型分布族的期望与方差具有以下结论:[5]

一维:

E( x )= b ( θ ),Var( x )= b ( θ ) (1)

多维:

E( x )= b ( θ )=( b( θ ) θ 1 , b( θ ) θ 2 ,, b( θ ) θ n ),Cov( x )= b ( θ )= 2 b( θ ) θ θ (2)

2.2. 熵

2.2.1. 定义

信息本身就伴随着不确定性(或者说信息自身存在随机性)。设一个事件发生的概率为p,那么他的信

息量是 ln 1 p ,其信息量与概率成反比。信息量大小用来表示信息消除不确定性的程度。从信息量的角度,

熵是事件的信息量在事件发生概率分布下的期望[7]

2.2.2. 熵的表达形式

记事件x熵为 ( x ) ,其表达形式为:

( x )= E P( x ) [ h( x ) ]= E P( x ) [ ln 1 p ] (3)

如果概率分布p (x)是连续型随机变量, ( x ) 可表示为:

( x )= p( x )lnp( x )dx (4)

如果概率分布p (x)是离散型随机变量, ( x ) 可表示为:

( x )= p( x )lnp( x ) (5)

假设某数据集合 χ 包含数量为N的样本:

χ= x ( 1 ) , x ( 2 ) , x ( 3 ) ,, x ( N ) (6)

关于数据集合的熵 ( x ) 表示如下:

( x )= i=1 N  p( x ( i ) )lnp( x ( i ) ) (7)

3. 前期工作

3.1. 确定各类分布的相关参数θb (θ),c (x)

受指数型分布族的一般表达式与熵的定义的启发,若想推导出熵的一般公式,需要统一参数进行表达,所以我们遵循从特殊到一般,先考虑指数族中几个特殊分布对于一般参数时熵和方差的表达式,然后推广至一般场景。

3.1.1. 离散型分布

(1) Bernoulli分布 b( 1,p )

f( x )= p x ( 1p ) 1x ={ p q if x=1 if x=0 (8)

p( x )=exp{ ln( p x ( 1p ) 1x ) }=exp{ xln p 1p +ln( 1p ) }

所以 θ=ln p 1p ,b( θ )=ln( 1+ e θ ),c( x )=1, b ( θ )= 1 1+ e θ e θ =p, b ( θ )=p( 1p )

(2) Poisson分布 p( λ )

p( X=x )= λ x x! e λ ,x=1,2, (9)

p( x )= 1 x! exp{ xlnλλ }

所以 θ=lnλ,b( θ )= e θ ,c( x )= 1 x! , b ( θ )= e θ =λ, b ( θ )= e θ =λ

3.1.2. 连续型分布

(1) 指数分布

p( x )λ e λx (10)

p( x )=exp{ λx+lnλ }

所以 θ=λ,b( θ )=ln( θ ),c( x )=1, b ( θ )= 1 λ , b ( θ )= 1 λ 2

(2) Gamma分布

p( x )= λ α Γ( α ) x α1 e λx (11)

p( x )= 1 Γ( α ) x α1 e λx+αlnλ

所以 θ=λ,b( θ )=αln( θ ),c( x )= 1 Γ( α ) x α1 , b ( θ )= α λ , b ( θ )= α λ 2

(3) Gauss分布

p( x )=c( x )exp( θ ϕ( x )b( θ ) ) (12)

ϕ( x ) :充分统计量, b( θ ) :对数配分函数

该分布参数: θ=( μ, σ 2 )

p( x|θ )= 1 2π σ e ( xμ ) 2 2 σ 2 = 1 2π σ e 1 2 σ 2 ( xμ ) 2 =exp{ ln ( 2π σ 2 ) 1 2 }exp{ 1 2 σ 2 ( x 2 2μx+ μ 2 ) } =exp{ 1 2 σ 2 ( x 2 2μx ) μ 2 2 σ 2 1 2 ln( 2π σ 2 ) }

p( x )=exp{ ( μ σ 2 1 2 σ 2 )( x x 2 )( μ 2 σ 2 + 1 2 ln2π σ 2 ) } (13)

θ=( θ 1 θ 2 )=( μ σ 2 1 2 σ 2 )        ϕ( x )=( x x 2 ) 

所以 μ= θ 1 2 θ 2 σ 2 = 1 2 θ 2 b( θ )= θ 1 2 4 θ 2 + 1 2 ln( π θ 2 )c( x )=1

利用 Var( x )= b ( θ ) 进行验证:

E( ϕ( x ) )=( E( x ) E( x 2 ) )=( μ μ 2 + σ 2 )

b (θ)=( b(θ) θ 1 b(θ) θ 2 )=( θ 1 2 θ 2 θ 1 2 4 ( 1 θ 2 2 ) 1 2 θ 2 )=( μ μ 2 + σ 2 )

验证成立。

3.2. 指数型分布族熵的统一表达式

公式推导过程如下:

( x )= p( x )lnp( x )dx,p( x )=c( x )exp( θxb( θ ) )lnp( x )=lnc( x )+θxb( θ )

连续型分布熵的统一表达形式:

( x )= p( x )lnp( x )dx = e b( θ )  c( x ) e θx ( b( θ )lnc( x )θx )dx (14)

离散型分布熵的统一表达形式:

( x )= e b( θ ) c  ( x ) e θx ( b( θ )lnc( x )θx ) (15)

3.3. 指数型分布族方差与熵关系的统一表达式

计算指数型分布族方差与熵的关系,用t表示方差,利用指数型分布族特有的数字特征方差与已知函数 b( θ ) 的关系: Var( x )= b ( θ ) 反解出相应参数,代入熵的一般表达形式即可得到方差与熵的统一表达形式。

b ( θ )=t,θ= b 1 ( t )

连续型分布方差与熵的统一表达形式:

( t )= e b( b 1 ( t ) )  c( x ) e b 1 ( t )x ( b( b 1 ( t ) )lnc( x ) b 1 ( t )x )dx

离散型分布方差与熵的统一表达形式:

( t )= e b( b 1 ( t ) )  c( x ) e b 1 ( t )x ( b( b 1 ( t ) )lnc( x ) b 1 ( t )x ) (16)

(x的取值范围取决于分布类型)

4. 熵与方差的关系

部分论文直接利用定义直接计算分布的熵[7],传统方法难以避免会出现计算复杂、耗时等问题。本文使用参数计算,简化求解分布熵以及熵与方差关系的过程。下面我们将利用上述参数形式下方差与熵的关系一般表达形式针对几种常见的指数型分布给出其熵和方差的函数关系。

4.1. 离散型分布的熵与方差的关系

4.1.1. Bernoulli分布b (1, p)

定理1Bernoulli分布熵与方差的关系为:

( t )= ( 1+ 14t 2 ) 14t t 1 14t 2 (17)

证明:

已知条件: e b( θ ) = e ln( 1+ e θ ) = 1 1+ e θ

t=Var( λ )=p( 1p ) p=± 1 4 t + 1 2 ( 0t 1 4 )

( x )= e b( θ ) c ( x ) e θx ( b( θ )lnc( x )θx ) = e b( θ ) ( p 1p ) x [ ln( 1+ e θ )ln ( p 1p ) x ]

= e b( θ ) ln( 1+ e θ )+ p 1p [ ln( 1+ e θ )ln( p 1p ) ] = e b( θ ) ( ln( 1p )+ p 1p lnp ) (18)

( t )= e b( b 1 ( t ) ) c ( x ) e b 1 ( t )x ( b( b 1 ( t ) )lnc( x ) b 1 ( t )x ) = ( 1± 14t 2 ) ± 14t t 1± 14t 2 (19)

即证成立。

4.1.2. Poisson分布P(λ)

定理2Poisson分布熵与方差的关系为:

( t )= 1 2 ln( 2πet ) 1 12t 1 24 t 2 19 360 t 3 (20)

证明:

已知条件: θ=lnλ,b( θ )=λ,c( x )= 1 x!

t=Var( λ )=λ,θ=lntb( θ )=t

( x )= e b( θ ) c ( x ) e θx ( b( θ )lnc( x )θx ) = e λ 1 x!   λ x ( λln 1 x! xlnλ ) = 1 2 ln( 2πeλ ) 1 12λ 1 24 λ 2 19 360 λ 3 (21)

( t )= e b( b 1 ( t ) ) c ( x ) e b 1 ( t )x ( b( b 1 ( t ) )lnc( x ) b 1 ( t )x ) = 1 2 ln( 2πet ) 1 12t 1 24 t 2 19 360 t 3 (22)

即证成立(借用《泊松分布信息熵的性质和数值运算》中的方法求得近似解[6])。

4.2. 连续型分布的熵与方差的关系

4.2.1. 指数分布Exp(λ)

定理3:指数分布熵与方差的关系为:

( t )=1+ 1 2 lnt (23)

证明:

已知条件: θ=λ,b( θ )=ln( θ ),c( x )=1

t=Var( λ )= 1 λ 2 ,θ= 1 t ,b( θ )= 1 2 lnt

( x )= e b( θ )  c( x ) e θx ( b( θ )lnc( x )θx )dx =1lnλ (24)

H( t )= e b( b 1 ( t ) ) c( x ) e b 1 ( t )x ( b( b 1 ( t ) )lnc( x ) b 1 ( t )x )dx =1+ 1 2 lnt (25)

即证成立。

4.2.2. Gamma分布Ga (α, 1)

定理4:Gamma分布熵与方差的关系为:

H( t )=ln Γ( α ) α +( 1α )φ( α )+α+ 1 2 lnt (26)

证明:

已知条件: θ=λ,b( θ )=αln( θ ),c( x )= x α1 Γ( α )

t=Var( λ )= α λ 2 ,θ= α t ,b( θ )= α 2 ln α t

引入digamma函数: φ( x )= 0 +   α x1 e x lnxdx o +   α x1 e x dx

( x )= e b( θ ) c( x ) e θx ( b( θ )lnc( x )θx )dx = λ α + 1 Γ( α ) x α1 e θx [ αlnλ+lnΓ( α )( ln x α1 +θx ) ] dx = t λ α [ 1 Γ( α ) ( αlnλ+lnΓ( α ) ) 0 + ( t λ ) α1 e t 1 λ dt+ 1α Γ( α ) 0 + ( t λ ) α1 e t ln t λ 1 λ dt+ λ Γ( α ) 0 + ( t λ ) α e t 1 λ dt ] = λ α 1 λ α [ αlnλ+lnΓ( α )+( 1α )φ( α )( 1α )lnλ+α ] =lnΓ( α )+( 1α )φ( α )lnλ+α (27)

H( t )= e b( b 1 ( t ) ) c( x ) e b 1 ( t )x ( b( b 1 ( t ) )lnc( x ) b 1 ( t )x )dx =ln Γ( α ) α +( 1α )φ( α )+α+ 1 2 lnt (28)

即证成立。

4.2.3. Gauss分布N (μ, 1)

Gauss分布可以推导出线性模型,由线性模型的假设函数可知:Gauss分布的方差与假设的函数无关。因而为简便计算,我们将方差设为1;即使不简化,计算结果与该结果也仅相差一个系数。

N( μ,1 )= 1 2π exp[ 1 2 ( xμ ) 2 ] = 1 2π exp( 1 2 x 2 )exp (29)

θ=μ,b( θ )= 1 2 μ 2 ,c( x )= 1 2π exp( 1 2 x 2 ), b ( θ )=1

引入Gauss误差函数: erf( x )= 2 π 0 x   e t 2 dt, lim x erf( x )=1

定理5:Gauss分布熵与方差的关系为:

( t )= 1 2 e 1 2 μ 2 ( μ 2 +1+ln2π μ 2π ) (30)

证明:

( x )= e b( θ ) c( x ) e θx ( b( θ )lnc( x )θx )dx = e 1 2 μ 2 + 1 2π exp( 1 2 x 2 )[ 1 2 ( xμ ) 2 + 1 2 ln2π ] dx = 1 2 2π e 1 2 μ 2 [ ( μ 2 +ln2π ) + e 1 2 x 2 dx + e 1 2 x 2 μxdx + + e 1 2 x 2 x 2 dx ] = 1 2 2π e 1 2 μ 2 [ ( μ 2 +ln2π ) 2π μ+ 2π ] = 1 2 e 1 2 μ 2 ( μ 2 +1+ln2π μ 2π ) (31)

H( t )= e b( b 1 ( t ) )  c( x ) e b 1 ( t )x ( b( b 1 ( t ) )lnc( x ) b 1 ( t )x )dx = 1 2 e 1 2 μ 2 ( μ 2 +1+ln2π μ 2π ) (32)

即证成立。

5. 结语

本文提出一种更简便、高效的方法,用于计算指数型分布族的熵与方差,并分析其数学关系。首先,在指数型分布族统一表达式“ p( x )=c( x )exp( θxb( θ ) )dv( x ) ”的条件下推理了该分布族熵的统一表达形式为:

( x )= e b( θ ) c ( x ) e θx ( b( θ )lnc( x )θx )

( x )= e b( θ ) c( x ) e θx ( b( θ )lnc( x )θx )dx

利用指数型分布族熵的统一表达形式计算了指数型分布族中常见的离散型分布与连续型分布的熵。此外,基于已知的指数型分布族特有的数字特征方差与已知函数 b( θ ) 的关系: E( x )= b ( θ ),Var( x )= b ( θ ) ,表达出了指数型分布族熵与方差关系的统一表达形式:

( t )= e b( b 1 ( t ) ) c ( x ) e b 1 ( t )x ( b( b 1 ( t ) )lnc( x ) b 1 ( t )x )

( t )= e b( b 1 ( t ) ) c( x ) e b 1 ( t )x ( b( b 1 ( t ) )lnc( x ) b 1 ( t )x )dx

该统一表达形式简化了计算指数型分布族熵与方差关系的过程,利用公式我们相应计算表达出“Bernoulli分布、Poisson分布、指数分布、Gamma分布、Gauss分布”熵与方差的关系式,避免了繁杂计算可能出现的错误。这里考虑的分布是在原始分布基础上重新参数化的分布,这样的参数化是有必要的,可以让分布具有共同方差,也为进一步分析两者的关系打下了良好的基础。

研究结果汇总见表1

Table 1. Relationship between entropy and variance of exponential family distributions

表1. 指数型分布族熵与方差的关系

分布

θ

b( θ )

E( θ )

Var( θ )

( x )

( x )t( t=Var( θ ) )

b( 1,p )

ln p 1p

ln( 1+ e θ )

p

p( 1p )

ln( p p ( 1p ) 1p )

( 1± 14t 2 ) ± 14t t 1± 14t 2

p( λ )

lnλ

e θ

λ

λ

1 2 ln( 2πeλ ) 1 12λ 1 24 λ 2 19 360 λ 3

1 2 ln( 2πet ) 1 12t 1 24 t 2 19 360 t 3

Exp( λ )

λ

ln( θ )

1 λ

1 λ 2

1lnλ

1+ 1 2 lnt

Ga( α,λ )

λ

αln( θ )

α λ

α λ 2

ln 1 λ +lnΓ( α )+( 1α )ψ( α )+α

1 2 ln t α +ln α Γ( α )+( 1α )ψ( α )+α

N( μ,1 )

μ

μ 2 2

μ

1

1 2 e μ 2 2 ( μ 2 +1+ln2π μ 2π )

1 2 e μ 2 2 ( μ 2 +1+ln2π μ 2π )

在本论文的研究中,尽管得出了指数型分布族熵与方差之间的理论关系,并对指数型分布族五种典型分布进行了充分的计算和讨论,但仍存在一些不足之处需要改进。首先,讨论范围还不够广泛,对于研究高维指数型分布熵与方差的关系,我们借用Gauss分布线性模型的假设函数下“Gauss分布的方差与假设的函数无关”的特点,直接转化为一维计算,所以本文对指数型分布族多维状态下熵与方差关系的讨论是不完整的。另外,在高维度或复杂情况下,本文的计算方法可能不足,计算指数型分布族的熵和方差可能会面临挑战,需考虑结合应用数学软件等。此外,对于熵与方差关系的数学定理证明还需要全面深入的论证,以提高此次研究结论的严谨性与可靠性。

基于以上不足,在后续研究中,我们将继续探索不同类型的指数型分布族,包括指数分布、负指数分布等,进一步研究它们的熵和方差之间的关系。此外,继续拓展研究对象,将指数型分布族熵与方差的关系扩展至多变量和高维空间,以满足更加复杂、多样化的实际问题需求。更多的,考虑将指数型分布族的熵和方差与其他统计量或信息度量进行比较和综合分析,以寻求更全面和深入的研究。指数型分布族作为非常重要的概率分布族,其在统计学、信息论等领域具有广泛的应用。基础性的研究都是在为实际问题中的应用打基础,如金融、生物、工程等领域,以期将研究成果转化为实际应用的效益。

致 谢

本文是在我们大学生创新训练项目组的指导教师李再兴教授的悉心指导下完成的(从选题、写作、修改、投稿至最后的修改等工作)。同时衷心感谢期刊的编委和审稿专家对我们的论文提出宝贵的意见,帮助我们改进论文质量!

基金项目

中国矿业大学(北京)大学生创新性训练项目的资助。

参考文献

[1] Holm, J. (1993) Maximum Entropy Lorenz Curves. Journal of Econometrics, 234, 20-34.
[2] Maasoumi, E. (1993) A Compendium to Information Theory in Economics and Econometrics. Econometric Reviews, 12, 137-181.
https://doi.org/10.1080/07474939308800260
[3] Golan, A., Judge, G.G. and Miller, D. (1996) Maximum Entropy Econometrics: Robust Estimation with Limited Data. Wiley, UK-New Jersey, 255-302.
[4] Jee, D.M. and Ratnaparkhi, M.V. (1986) On the Functional Relationship between Entropy and Variance with Related Applications. Communications in Statistics-Theory and Methods, 15, 291-311.
https://doi.org/10.1080/03610928608829122
[5] 杨晓珍, 李光辉. 指数型分布族的数字特征及充分统计量[J]. 凯里学院学报, 2012, 30(6): 24-26.
[6] 周介南, 丁勇. 泊松分布信息熵的性质和数值计算[J]. 郑州大学学报(理学版), 2014, 46(2): 24-30.
[7] 机器学习笔记之指数族分布——最大熵角度观察指数族分布(一)最大熵思想[EB/OL].
https://blog.csdn.net/qq_34758157/article/details/126247721, 2023-10-13.