1. 从统计学角度阐述人工智能
人工智能是指一种使机器能够模拟和执行人类智能任务的科学与技术。它涉及了对计算机系统赋予智能的研究和开发,使其能够感知环境、理解和处理信息、学习和适应、推理和决策等。目标是使计算机系统能够执行类似于人类智能的任务,如语言理解和处理、图像识别、自然语言处理、专家系统、机器学习、推荐系统等 [1] 。人工智能的发展领域包括机器学习、深度学习、自然语言处理、计算机视觉、机器人技术等。通过模拟和实现人类智能的特征和功能,人工智能有望为社会和各个领域带来广泛的影响和应用,包括自动驾驶、医疗诊断、智能助理、智能制造等。
人工智能有很多不同的类型,但有一个共同点:需要海量的数据进行训练以达到既定的效度。训练的目的是为了得到程序当中各种权重与偏置,因此,这个训练过程也被称之为人工智能的学习过程。人工智能有很多算法,其中比较著名的有神经网络、深度学习等。
人工神经网络如图1所示,图中是一个包含H层的前馈神经网络,箭头实线表示加权连接的数值传递关系,
表示第i层的第j个神经元与前一层的第k个神经元之间的权值系数,i,j分别表示神经网络的层数和第i层中的神经元索引,
,
表示第i层的第j个神经元的偏置,于是第i层的第j个神经元的输出
可以表示为
(1)
式(1) f(·)表示激活函数,它将输入进行非线性转换。神经网络的性能很大程度上取决于这些参数的设置和优化,即偏置
和连接权值
,决定了网络的拟合能力和学习能力。通过调整这些参数,神经网络可以学习从输入到输出之间的复杂映射关系,从而实现任务的解决和知识的表示,优化这些参数是神经网络训练的关键过程,通常使用反向传播算法等方法来调整参数以最小化损失函数,以使网络的预测更准确。
这种运算形式类似于生物体大脑神经组织的运作,所以很多文献倾向于从生物学的角度来阐述或者理解人工智能运作过程,但实际上,从统计学的角度来看待会有更加独特的理解:人工智能模型当中求解权重系数的过程本质上是数理回归过程,只不过是回归模型中的特殊形式而言。比如,利用统计学中线性回归的知识,当我们对人工智能模型输入相关数据进行训练时,实际上是对函数Y(x)的观测值输入,通过海量的观测值进行回归分析,无限对函数Y(x)进行逼近。由于函数Y(x)的理论取值范围及空间趋近于无穷大,实际操作中通过输入数据来实现全覆盖是不可能事件,因此,人工智能的训练集要求具备真实性和代表性,才能确保利用有限的样本空间所拟合的函数以很高的概率接近真实值。当函数的维度越来越复杂时,即自变量和因变量的个数越来越庞大,就需要借助机器帮助完成。
综上所述,如果从统计学中回归的思想上出发,其本质并没有发生变化,只是人们的观念发生变化,所以,人工智能与统计学相结合时,往往依赖智能算法等平台实现数据的回归建模任务。
2. 人工智能在统计学的应用
统计学擅长数字特征的提取和描述,而人工智能专注于符号的处理,这两者的结合将对传统统计学领域产生深远影响。人工智能在统计学中的应用不仅能够扩展统计学方法的应用范围,还能够提供更强大的分析能力和决策支持 [2] 。
首先,人工智能在大规模数据分析和预测方面发挥着重要作用。通过机器学习算法和统计模型,人工智能能够从海量的数据中发现隐藏的信息和关联性,从而提供更准确的预测和决策支持。比如在金融风险评估方面,人工智能可以通过分析大量的市场数据和经济指标,识别潜在的风险因素,并为投资决策提供可靠的依据。其次,人工智能在数据挖掘方面为统计学家发现有价值的信息提供了新的工具和方法。比如在市场调研和客户关系管理等方面,人工智能可以分析大规模的数据集,识别出数据中的规律和趋势,并提取出对于业务决策有用的特征。这有助于统计学家更好地理解和解释数据,并为相关领域的决策提供支持。最后,人工智能的优化算法和自动化方法可以改进统计模型的性能和效率。在统计学中的实验设计、参数估计和模型选择等问题中,人工智能可以应用遗传算法、模拟退火算法等优化技术,自动搜索最佳参数配置,从而提高模型的拟合能力和泛化能力,这样的方法可以加速统计分析的过程,并帮助统计学家更好地利用数据进行推断和预测。
下面举一个利用神经网络方法进行解决实际问题的例子。数据来源于哈佛-哈斯金斯定时语音数据库、麦吉尔大学电信与信号处理实验室(TSP)语音数据库主页、VoxForge语音语料库主页、卡内基梅隆大学的FestvoxCMU_ARCTIC语音数据库。该数据是为了根据声音和语音的声学特性将声音识别为男性或女性,由3168个从男性和女性说话者组成录制的语音样本,使用seewave和tuneR软件包在R中进行声学分析进行预处理,分析频率范围为0 hz~280 hz (人类声音范围)。数据集共有21个变量,且最后一行为二分类目标变量,如表1所示,测量每个声音的以下声学特性。
将数据集以7:3划分为训练集与测试集,将模型的隐藏层的层数设置为10层,神经元个数为25个,学习率为0.001,进行迭代,如图2所示,可以看出神经网络模型测试集准确率得分在经过200次迭代后达到最高且趋于稳定收敛,为95.8123%。
综上所述,人工智能的出现对传统的统计学应用进行了拓展,为统计学方法的发展带来了新的机遇。人工智能在统计学中的应用使得数据分析更加准确和高效,帮助我们从海量的数据中挖掘有价值的信息,以支持决策和解决实际问题。然而,在应用人工智能的过程中,也需要重视伦理和道德问题,确保数据的隐私和公正性,避免偏见和歧视的影响。
3. 人工智能的伦理危机
人工智能以其独特的运算逻辑深刻地改变着人类社会,尤其是ChatGPT这种现象级的产品,给人带来便利的同时,还反客为主地对人实现支配关系,甚至使人成为“奴仆”。学者马长山认为:“谁掌握了数据,谁就掌握了财富和资本;谁掌握了算法,就掌握了话语权和规制权 [3] 。”这种极其隐蔽的算法权力如果使用不正确往往会给人带来系统性的灾难后果,剥夺人的主体地位,侵犯公民隐私等基本权利 [4] ,引发一系列伦理道德危机。
人工智能会对以幸福、权力优先的现代社会伦理带来巨大挑战。现代社会的方法论要求以人为本为指导原则,将人民幸福作为基本出发点,而人工智能却以目的性为先导,为实现既定目的而“绞尽脑汁”。如果不改变算法目标,这将会产生巨大矛盾,任其野蛮生长或许会导致机器取而代之。首先,人工智能算法会导致人客体化。在智能算法中,个人逐步被一串串冰冷的数据所标识和计算,在进行数据处理和整合的过程中,人工智能将各种自动化区分标准排列组合,并赋予其相对应的含义。而个人一旦进入“数据化时代”,就成为被智能算法所定义和计算的对象,这种算法权力的出发点并不是从主体的角度,而是从可以计算和预测识别的客体角度来运作的。其次,人工智能算法容易将人封闭在“信息茧房”当中。“信息茧房”概念是由桑坦斯 [5] 提出的,他认为在互联网信息化时代,随着信息技术的飞速发展以及数据量的激增,任何人都能选择自己感兴趣的话题,并为自己量身打造一份个人日报,但是,这种信息获取会使得“信息茧房”的发生。智能算法推送或者传达的信息将会对人们的思想及观念行为产生潜移默化地影响,导致个人只关注自我选择或者取悦自己的信息,减少对其他信息的获取,时间一长,就会像蚕一样把自己封闭在蛹中,失去了与外界的接触,不利于个人观念的更新与发展。最后,人工智能算法在思维与语言上接近人类。思维与语言是人类有别于其他动物的最主要原因。有学者认为,语言具备自身形成的规则,并且在系统内部具备加以表达和解释的能力,这种特性就决定语言具备构造世界的潜力,而智能算法模拟了生物大脑中真实连接和处理信息的神经元结构 [6] ,改变了物理中的命令式直接表达,从而在语言与思维层面越来越接近于人类,同样也具备了能够威胁人的主体地位的能力。
人工智能与统计学的结合同样会带来一系列伦理道德风险。从统计学的角度来看,在军事应用,特别是在战争中,也会面临着此类问题。战争代表了解决人类矛盾冲突的最激烈方式,由于存在众多不确定因素,所提出的作战方案最终的实施结果也具有一定的概率性。某个方案的获胜概率为A%,失败概率为B%,如果某作战方案从统计学角度出发,被给予了有90%的成功概率,您是否会选择采用这个方案呢?此时,您可能会反问人工智能需要解释为什么这个作战方案的获胜概率是90%。人工智能的回答可能是:这是通过大量数据进行统计分析得出的结论。您对这个回答可能不太满意,1/10的概率会失败,而失败的代价就是付出生命,可生命仅此一次,因此在是否采用这个方案进行作战时,内心可能会感到不安。
当人工智能系统在统计学中应用于决策制定时,如何确定责任和决策权成为一个复杂的问题。如果出现错误、不公平或不良后果,谁来承担责任和如何解决成为需要解决的伦理问题。为了应对这些道德伦理风险,需要在统计学领域建立伦理准则和规范,确保数据的合法使用和隐私保护。同时,加强对算法的审查和监管,提高模型的透明度和解释性,以便能够理解和验证其决策过程。
4. 解决路径
为了减少人工智能在统计学领域的道德伦理风险,我们应该加强对算法的运行机制原则制定得更加符合社会发展的要求及进行严格审查和监管,并确保其公平性和可行性。具体的实现路径如下:
4.1. 关注用户数字福祉
由于受到目标主导的支配,智能算法的设计开发者将注意主要集中在迎合用户身上,而这将导致使用者锁定在“信息茧房”之中,从而忽略用户数字福祉。数字福祉主要包括每个人都能享受到信息技术红利以及最大限度使用技术而减少个人不利影响两方面 [7] 。随着信息技术的高速发展,应当强调智能算法的依据原则遵循用户数字福祉,将其融入产品和相关服务当中,给用户带来正向效应。运用透明性原则规制算法权力,揭示“黑箱操作”,提高“用户数字福祉”,透明性原则的运用越来越受欢迎,因为这个原则可以填补决策者与普通人之间的所谓“数字鸿沟”,防止信息不对称导致技术强势方压制技术劣势方,从而在大数据时代产生精英统治。美国联邦贸易委员会认为,将信息交给消费者,能够提高他们做出合理购买决策的能力,这是我们经济体系的基本原则,对于经济的有效运转,这是绝对必要的。因此,美国政府积极倡导和强调算法透明度的重要性。例如,美国联邦贸易委员会技术研究和调查办公室强调了算法透明度的重要性,并向联邦贸易委员会(FTC)的消费者保护调查员和律师提供有关算法透明度的培训和专业技术知识 [8] 。主要包括以下方面:1) 算法源代码的开放性和透明性。2) 披露用于做出相关算法决策的输入和输出过程。3) 确保被决策对象充分了解并认同算法的合理性。这些措施旨在确保算法的决策过程更加可理解和可审查,以促进更公平和透明的数字经济时代的发展。
4.2. 过渡到三元结构
传统的法律规则强调以国家自主性为核心和排除公民基本权利受到侵犯的二元结构 [9] ,试图建立以结果责任为核心的事后监管和以个人为中心的权利救济模式,但是在将算法技术嵌入到更为隐蔽的社会中时,效果并不显著。这时,需要我们建立以“政府–平台–用户”,即“公权力–社会权利–私权利”的三元结构。平台将产品与服务提供给政府和用户的同时,会受到用户的反馈和监督及政府的监管与处罚,而且这种参与实行的深度与效度要远超过二元结构。人工智能算法已经塑造了一个信息社会,信息已成为权力的核心,形成了一种信息权力,对以科层为核心运作机制的政府权力产生了制约和影响,实际上改变了政府权力的运行方式以及人们对权力的看法。算法平台拥有一系列私人权利,如财产权、经营权和知识产权,这些权利在信息和技术优势的背景下可能演化成一种“准公共权力” [10] 。与过去商业时代的垄断企业不同,这些算法平台不再局限于某一领域或行业的巨头,而是拥有超强的覆盖面和渗透力,成为全方位的“霸主”。它们不再仅限于以经济为目标的经营管理,而是通过制定平台“游戏规则”、处理平台纠纷以及行使平台监管权等,拥有了一系列的特权 [11] 。在算法规制的过程中,政府要实现合作性治理需要借助算法平台和人工智能专家的技术和信息优势,因此,他们不仅仅是政府监管的对象,还是国家政策的参与者、执行者和制定者,政府有关算法规制法律的制定和执行都需要他们积极参与,构成了一种多元化的治理模式。
5. 结论
人工智能本质上是一种统计回归模型的特殊形式,然而,人工智能在统计学中的应用不仅扩展了统计方法的范围,还提供了更强大的分析能力和决策支持。例如,它允许分析大量的市场数据和经济指标,识别潜在的风险因素,并为投资决策提供可靠的基础。在数据挖掘领域,它为统计学家利用神经网络提供了发现有价值信息的新工具和方法,有助于更好地理解和解释数据,并为相关领域的决策提供支持。但算法权力的滥用往往会导致系统性的灾难后果,剥夺个体的主权,侵犯基本权利如隐私,并引发一系列伦理问题,包括用户客体化、信息孤立、数据偏见和决策问责。因此,迫切需要加强对算法的运行原则的制定,以符合社会发展和用户福祉的要求,同时,在法律框架内应从二元治理结构过渡到三元结构,即“公共权力–社会权利–个人权利”,将算法平台纳入监管体系中,建立多元化的治理模式。