1. 引言
算法在给人们的生活带来便利的同时,也为人们的生活留下了一定的隐患,信息茧房、算法黑箱以及算法歧视都为人们的生活带来了一定的风险,其中算法歧视作为一种隐蔽但普遍的现象,就“如何对其进行法律规制”这一问题引起了学界的广泛讨论。从现有的讨论来看,学者们探讨的角度非常全面,不过算法技术的认知困难也为此提出了较大的挑战。对此,不少学者从算法正义和算法伦理规制层面进行了探讨。然而,虽然算法正义和算法伦理规制能够为其规制提供一定的方向,但对类似于“公正”这样的概念提供细化的定义和评估标准往往难以实现。由于目前算法技术的应用以及歧视现象主要体现在商业领域,因而本文以商业领域中的算法技术使用为例,考虑到算法歧视与社会日常生活中歧视的区别,从其自身固有的特征出发,即算法的工具性定位入手,揭示对其进行规制的困境,并指出所面临的主要矛盾,在此基础上对算法歧视法律规制的完善路径进行探究。
2. 算法歧视的概念及其产生
为了对算法歧视进行法律规制,对其概念及其产生原因进行了解是必要的。
2.1. 算法歧视的概念
歧视,作为社会价值问题的一种,技术进步或者产业革命并不必然导致其得到更高程度的重视,也不可能使得其消失。在某种程度上,还会带来更大的挑战,大数据算法即是此例。在大数据算法中,数据是算法的根本,正是基于对数据的分析得以对个人有一个相对完整的认识,因此其往往会搜集大量的个人信息,在此基础上实现其预测个人行为倾向的目的,进而帮助算法使用者做出相应的决策。而对数据的算法使用是我们人类理性思维的技术化体现,基于此,算法歧视在某种程度上恰恰是我们日常社会生活中的歧视在算法工具中的体现。
因此,算法技术中的歧视与我们日常生活中的社会歧视在某种程度上是相同的,如其客体均是对人而言,内容也均是基于一种不合理的标准而采取的不合理的对待,但二者并不完全相同,其差异主要体现在歧视所做出的主体层面。日常生活中的社会歧视是人作为主体,所表现出来的是人所做出的不合理的主观判断以及基于此种主观判断所做出的不合理的行为,而算法歧视则是脱离个体主观控制的工具性编码在对大量数据进行分析之后得出的结果,虽然二者之间具有一定的连续性,但是算法中结论的得出近乎没有个体主观意志的参与,此种歧视做出的主体是算法这一技术性工具,此种技术性歧视就是“算法歧视”的主要特征。同时,考虑到此种歧视的外在表现,即基于算法在现实中的广泛使用而产生的不公平对待,如在价格歧视中,对不同人群采用不同的收费标准。因此,算法歧视可以被定义为在数据分析基础上,对特定个人或特定群体依据不合理的类别化标准而采取的系统的、可重复的实质性不公正对待 [1] 。
2.2. 算法歧视产生的原因
就这种算法歧视产生的原因而言,其根本还是在于日常生活中的歧视的存在。在某种程度上,歧视即偏见,就是对某一个个体或某一群体予以不平等的对待,社会歧视基于其产生的原因而广泛存在于我们的现实生活之中。
在日常生活中,歧视的存在主要根植于人类认识世界的思维方式,在面对纷繁复杂的世界时,人们需要尽可能快地认识世界,因此往往会以相对简化的思维模式来认知事物;同时,在这个过程中,为减少认识的负担,人们往往会形成相对固化的思维模式,即使这难以适应生存环境的改变。这种思维处理方式实际上就是心理学家所说的“范畴论”认识模式 [2] 。在对事物进行认识和理解时,人们往往会根据特定的标准对外在的事物进行分类,对具备相同或类似特征的事物用一个类别概念加以囊括。在此基础上,被归在该范畴项下的新事物也由此被人为地赋予该类事物的各种特征,人们也得以由此选择与以往相同的处理方法来对待新事物以节约有限的精力。此种思维模式广泛存在于人们的生活之中,影响着人们对其他人和社会群体的认识。然而个体的独特性也是我们需要重视的,在某种程度上可以说认识范围的大小决定了结论的准确性。因此,基于这种认识模式所得出的结论,需要我们不断加深认识的范畴而提高其准确性。当我们对某一个人或群体的认识不够全面时,认识上的偏差便会形成“刻板印象”,而我们往往是基于个人的认识采取行动,若这种认识上的偏差忽视了某种对于个人而言非常重要的特征或者错误的重视了某种并不重要的特征时,这种行动往往就会造成我们所谓的歧视。
以上是对歧视所产生的原因的深层剖析,基于对人类思维模式的模仿,此种从个人思维模式出发所产生的歧视也存在于算法之中 [3] ,然而就算法歧视本身而言,虽然其本质也是如此,但我们需要考虑到其工具性定位,基于此,算法运作中歧视产生的最直接的原因主要可以分为以下三类:
1) 数据本身存在的歧视。数据是算法的基础,而数据本身并非是中立的,其在某种程度上会延续数据来源者的观点以及其认识的差距,并基于此导致偏见或者歧视。虽然数据本身所具有的偏差在算法运行中可能主要存在于对数据的选择过程中,但歧视性数据的存在可能让所有算法都产生歧视性的决策结果。同时,由于算法本身为一种工具性的存在,在某种程度上缺少变通性,因此,在决策过程中对其的使用意味着这种歧视作为一种必然现象必然会重复出现,故而这种认知模式所带来的歧视现象可能会经过编程和算法运行产生叠加效果。
2) 算法开发时权重占比带来的歧视。这是算法开发者在编写预测算法时,自身的偏见和价值观念不可避免的代入,其会通过源代码被嵌入到软件的指令之中。算法在很多时候无法将自身塑造成一种完全价值中立的科学活动或数学活动,事实上,其总是蕴含着价值判断,与特定的价值立场有关,人为的设计或训练的偏差必然会导致算法歧视 [4] 。
3) 算法运行过程中产生的歧视。算法投入运行后,其并非完全基于初始数据进行运行,其还具有一定的自主学习能力,如对淘宝用户的搜索信息进行分析后给予个性化推荐。由于数据输入的差异性,与个人相关的家庭背景、教育经历、工作性质、购物习惯、网站订阅、行动轨迹等都可能会导致歧视性分析。
由此看来,算法歧视的本质在于不合理的区分对待,其与人们日常生活中的社会歧视形式的本质相通,均是一种固化的认知形式,并基于此所做出的相应反应 [5] 。在这个过程中,往往会对当事人产生一定的侵害,除了经济上的,还有身份层面上的。然而,与日常生活中的社会歧视相比,算法基于其自身的工具性定位,使得此种歧视具有其独有的特征,同时,也正是这些特征,对我们的法律规制提出了考验。
3. 算法歧视的特征
对于算法歧视的特征进行总结归纳是对其认识的必然要求,算法依托于信息技术的发展呈现出来的不透明性、效率导向性以及有限自主学习性特征是对其规制困难的主要原因。
3.1. 算法设计的不透明性
算法的设计可以说是基于商业需要而产生的,其设计之初的目的与商业价值的追求息息相关,希求在恰当的时间内对数据的价值予以发掘,从而实现商业价值变现。在这个过程中,数据分析计算后的结果通常会被数据呈现出来的现实所形塑,从而按照使用者的实际需要而提出适当的结果策略。然而,这个过程属于在“暗箱”中进行的操作,这种暗箱可以分为两种,一种是人为设置的,如商业秘密等;一种则是在其代码中自动运行中的难以认知的不可控因素,主要指算法所进行的计算过程 [6] 。这些都使得其歧视非常隐秘,且难以控制。对于第一种暗箱所带来的不透明性与算法歧视的产生并无直接关系,本文主要探讨的是第二种情况所呈现的不透明性,此种不可控因素主要表现为数据自身所带的并经过运行后难以进行追溯的隐秘的歧视因素以及基于算法设计过程中算法开发者自身偏见和价值观不可避免的代入所带来的歧视。
虽然日常社会生活中的歧视形式也具有隐秘性,但在某种程度上具有可控性,如个人自身对于社会价值观的认可和遵循,即使个人基于其主观能动性和自主性,并非全然按照社会价值行动,然而,个体的能动性和自主性一般都具有自身的限度,由于人是社会性的,在某种程度上会内化现有的社会价值,形成一种基于良知的良性自我规范,同时,这种行为责任的归属也是相对明确的,事后的追责也是可行的。而算法设计的算法本身以及其数据使用都是隐秘的和难以控制的,经过长时间的运行,还会使得此种不透明性更为突出。使得我们对其的认识、直接控制和责任追究难以实现。
3.2. 算法的效率导向性
基于商业价值的快速变现目的,此种算法的设计往往以效率为导向,然而,这种效率导向的算法往往会基于对数据主体所产生的片面认知进行决策。基于此种片面的认识所做出的相应的行为决策,呈现在数据主体面前则可能会加大导致歧视的可能性 [7] 。同时,考虑到降低歧视产生的可能性的手段之一,即进行价值平衡,此种大数据分析以效率为基础的价值导向的追求,往往会使得大数据算法对现实生活中隐含的社会价值平衡的注重更为困难。即使这种价值平衡算法本身也许难以做到,但是此种效率导向却会使此种难度加剧。另外,这种效率导向会让其不断的运行以及决策,也使得我们对它的认识和把握更加困难。
虽然在日常的社会生活中,个人对他人的认识也不可能全面,往往会由于个人自身的认知局限而具有一定的片面性。然而,在日常生活中,人与人之间的交往在某种程度上具有灵活性和互动性,在大部分情境中,个人也能基于互动做到随机应变并及时完善自身的认识,同时,个人可以进行价值判断,具有减少歧视发生的可能性。与之相比,算法设计则相对固化,且难以对价值进行平衡。另外,其效率导向往往会使其更关注某一方面的数据而忽视其他方面的数据,而在很多情况下,做出决策都需要综合考量很多因素,这些都会使得由于片面的认识而产生的歧视随着时间的推移日渐加剧。即使其具有一定的自主学习性,但是此种效率导向的特征所带来的歧视风险也难以得到缓解。
3.3. 算法的有限自主学习性
算法本身具有深度学习、跨界融合、人机协同、群智开放、自主操控等新特征,这些特征使得其在某种程度上与人一般具有自主学习性,然而由于算法在进行学习时无法对“公平”等道德价值进行判断 [8] 。因此这种自主学习性是有限的,同时,其有限的自主学习性也难以对算法歧视的风险产生对抗作用,还会由于数据本身偏见的延续而使得算法设计的不透明性特点更加明显,增加歧视的风险和对算法进行规制的难度。
此种有限自主学习性在平台交易中的体现非常明显。应有尽有的品类、足不出户的交易体验是线上交易的优势,而商品信息的繁杂意味着用户搜索时间成本会提高,因而,经营者会在传统将商品划分为不同品类的基础上,提供信息搜索引擎,帮助用户找到自己所需要的产品,提升网络购物的信息感知程度,在这个过程中,算法在分析用户需求并针对性的予以推荐方面发挥了重要的作用。但与此同时,算法技术会基于对消费者本身的“信息画像”获悉消费者所能承受的价格上限制定精准的个性化营销策略也会形成同质商品中的价格差异 [9] 。这种价格差异在信息的高效流通的背景下,借助平台交易模式,普遍而隐蔽地存在。然而,此种基于有限自主学习输出的信息可能会因为忽视某些因素或过于重视某些不恰当的因素而产生歧视的风险,如苹果用户和安卓用户在打车时显示的价格的差异。
在此,基于算法本身所具有的不透明、效率导向和有限自主学习的特性,加大了歧视产生的风险,同时,也使得我们难以对其进行认识和把握,这也使得算法本身具有一定的支配权。而缺乏此种认识和把握的基础,使得我们难以对其进行规制。综上所述,立足于算法本身,即对算法这项技术的运行过程进行认识和把握并进而对算法歧视现象进行规制似乎难以实现。然而,虽然由于算法歧视基于其技术性所具有的特性,我们难以将其自身作为着眼点对其进行直接规制,但是这并不意味着我们无法对其进行规制。
4. 算法歧视的法律规制困境
从算法歧视的产生原因来看,我们可以从数据流动、算法使用和经营主体责任三方面入手,然而这也面对着一定的困境,这主要表现在以下三个矛盾之中。
4.1. 技术发展与个人权利的矛盾——数据流动与隐私保护
算法的生命在于数据,大数据技术对企业来说是企业竞争力,对于国家则是综合国力与国家安全。大数据技术与实体经济不断融合,涉及的领域不断拓展,而这一切都离不开数据的流动与运用,可以说数据就是新时代的石油。然而,在个人信息数据与大数据技术的核心功能碰撞之后,个人的隐私保护就成为了一个值得思考的问题。
互联网时代,个体在线上的任何操作行为都会留下痕迹,人身和行为状态等个人信息以数据的形式展示出来并在网络下得到了永久的保留。同时,互联网的存在,使得个人在网络上碎片化的信息相互联结形成一个“人格剖面图”,算法也正是基于此而进行决策 [10] 。通常情况下,在网络环境中,个人往往会脱离社会身份的束缚,免受他人及社会压力的控制,实现自我个性的坦白与解放,而大数据技术下的信息化人格形象使得个人的真实被公共生活和公共视线所束缚,形成一种被控制感、压迫感,故由此形成了技术发展所需的数据流动与个人尊严保护所需的隐私保护之间的冲突 [11] 。同时,也正是由于此类数据信息与个人尊严紧密相连,算法技术对此类信息的利用往往会增加算法歧视出现的可能性。
在此,个人对自我信息的控制是一个关键,基于此种考虑对具有较大可能造成歧视的信息进行控制能够在一定程度上减少歧视的发生,但这又势必会影响到数据高效流通,有损大数据技术的进一步发展。这需要我们考虑如何在二者之间进行平衡。
4.2. 价值理念之间的矛盾——算法的使用自由与个体的平等价值
为发挥市场高效资源配置的优势,就必须调动经营者主动创造的积极性,故而在对其算法及作为其支撑的数据的使用自由应予以一定的肯定和支持,但是在此过程中,可能会导致对消费者平等权利的侵犯,如大数据杀熟现象的出现。
在此,对利用算法的经营主体而言,相对于市场调研等传统方式的信息收集与分析,大数据技术大大降低了探求消费者最高需求价格的成本,经营者通过自身搭建的平台获悉用户过往的行为倾向、个人喜好、消费需求以及消费能力等信息,通过建立合适的模型预测用户下一步行为,实施差别定价,此种运作所需的成本几乎为零。同时,加上用户锁定、路径依赖等网络效应,提高了经营者无视市场规律、高效掠夺消费剩余的可能性 [12] 。在算法使用自由的前提下,此种低成本但收益相对较大的情况使得算法被滥用的可能性进一步加大。但是就法律规制而言,则增加了对使用算法的经营主体进行规范的难度。由于算法自身所带有的一定自主性,因此在进行归责时难以进行认定,而盲目的推行过错推定责任或无过错责任会打击市场创新的积极性,进而影响我国的经济发展。而另一方面,个体的平等价值是我们必须保障的,因此,这就需要我们在算法的使用自由与个体的平等价值之间进行平衡。
为抑制基于此可能出现的算法歧视问题,需要我们考虑对其自由行为的范围予以界定,在其对人与人之间进行差别对待时,对其合理性进行审慎考量,以避免算法的使用对主体的平等权利造成侵犯。
4.3. 法律本身固有的矛盾——科技进步与法的滞后性
法律固有的矛盾在科技进步的过程中也体现了出来,以价格歧视为例。学界将就同一商品区别定价并认定为扰乱市场秩序的行为视为“价格歧视”。但是现有的法律难以直接对其进行规制,从个人权益保护方面来看,《消费者权益保护法》、以及《个人信息保护法》中对个人的保护规定较为笼统,难以对算法歧视这一现象进行应对,同时,现实中的举证问题也是一大阻碍。从行为责任主体方面来看,现行的《反垄断法》所规定的价格歧视行为的责任主体是具有市场支配地位的经营者,包括生产者、销售者,可以为法人或其他组织,自然人一般不会成为法律所规制的对象,但大数据技术使用的门槛较低,加之网络的外部性、边际成本效应、用户锁定等特征使得市场支配地位的认定存在极大困难 [13] 。虽然2022年初发布的《互联网信息服务算法推荐管理规定》在第21条中虽然强调了主体不得利用算法技术对消费者进行个性化标记并进行差别化定价,但是对于其责任认定也并未做进一步的规定。2022年底发布的《中华人民共和国反不正当竞争法(修订草案征求意见稿)》中删除了市场支配地位的规定,此种针对算法主体地位的约束,虽然在一定程度上平衡了算法主体与消费者之间的不平等,但是仍然相对模糊,且其实施效果还有待进一步印证。
在此,就价格歧视这方面的算法歧视规制而言,法律本身所固有的矛盾主要体现在对责任主体的认定方面,对此,及时完善法律规范是必要的,这主要需要我们在法律层面细化其权责设置,明确责任主体和归责原则等。但是,除此之外,平衡经营主体和用户之间的不对称地位才是根本,在此,明确责任主体并对其责任进行规定可以从经营主体入手对其歧视出现的可能性进行限制,但与此同时,基于算法主体基于此种不平等地位所具有的权力地位,我们还需加强监督方面所能发挥的重要作用。
5. 算法歧视的法律规制完善
基于上述论述,针对算法歧视的法律规制困境,需要我们以数据流动、算法使用和权力平衡为着眼点,合理考虑其内部的深层矛盾,从个人权利控制、技术伦理限制以及算法经营主体权力抑制三个方面对其进行完善。
5.1. 加强个人信息控制实现动态平衡
在算法运行中,个人始终是最重要的主体,算法通过数据将个体不合理的数据化,进而导致了对个人价值的侵犯,因此,提高人的主体性地位是不可忽视的。与此同时,个人信息数据是经营者利用大数据歧视的前提,大数据算法歧视的本质还是在于个人信息的不合理使用。故而,在数据流动与隐私保护的选择上,个人隐私保护必须成为一条主线。
为营造一个技术发展所需的环境,合理应对数据流动和个人隐私保护的冲突,在此,加强个人主体地位以对其个人信息进行保护是值得肯定的。对此,个人信息的收集和使用都必须经过本人的真实同意,目前法律对个人信息的使用衍生出知情同意原则,个人信息保护的立法也围绕这个核心价值进行。然而,同意的虚化与个体同意能力的不足也让知情同意原则捉襟见肘 [14] 。大数据时代,信息自决的精神内核必须得到重申的同时,对知情同意原则的制度架构也需要予以一定程度的重塑,确保在个人隐私与个人数据流动的需求都能够得到保证。这就需要个人信息数据的分层以进一步明确隐私的范围,廓清数据自由流动的外边界。欧盟在此将个人信息分为了敏感信息与非敏感信息,并给予前者更高程度的保护,以免个人信息保护的泛化,影响到数据的流转于数据价值的发掘,我国《个人信息保护法》中也对此进行了规定,但有必要进行进一步细化,明确敏感信息的类型。
同时,为加强个人对其信息的控制,实行动态授权以赋予用户及时退出的权利是值得的。一方面,处于网络外部效应、用户锁定效应以及路径依赖等影响下的用户,面对要么同意,要么不接受服务的选择,往往处于被动地位。另一方面,服务与数据收集是持续性的,而数据收集却是一次性的授权模式。这种模式方便了算法技术使用主体,却使得用户脱离了对自身数据的掌控。动态授权机制根据数据使用的情况及风险公示来决定是否继续授权则使得用户具有了一定的主动性,也有利于企业在对数据保护的投入上促进数据的良性流通与使用。最后,就个人信息的存续而言,被遗忘权的设置也需要得到重视。
5.2. 建构算法伦理限制自由范围
就算法技术本身而言,不能否认,对技术的自由追求与自由使用是有利于提高社会生产力和社会整体福祉的,然而,技术在为人类带来便利的同时,也使得个体的私生活受到了大数据算法的侵犯。虽然大数据算法是对客观世界的反应,现实生活中所存在的偏见或者隐含着的偏见都会在算法中出现,但这种反映和再现却缺少人类社会在进化过程中所形成的社会价值对其予以识别和纠正。对于随着大数据算法技术而出现的社会价值受损的现象,必须得到法律和相关政策的回应。对此,基于对社会价值的维护,人们开始强调技术伦理的限制作用,以防止大数据算法歧视性对待社会弱势群体,使得算法运行的核心价值观得以确定为公正。
在此,需要在算法的设计与使用中,让人类意识及时介入以使公正、公平作为算法的核心价值 [15] 。虽然对于此类概念的确定和细化是困难的,但是并非是不可能的,而且这种努力也是不可搁置的,在某种程度上来说,通过专注于社会伦理价值的社会科学研究者与计算机科学家的充分沟通与联动以将公平的法律和伦理模型转化为代码是可能的,而且也是不可或缺的。
同时,在算法运行过程中,对于数据本身的多样性所诱发的歧视因素,可以利用现有的、能够确定的价值标准建立相关的数据集,将与算法结果有足够强的关联性的少数群体纳入。当然,此种数据集的建立需要进行及时的更新,因此需要考虑将其价值标准纳入算法运行之中。另外,这也非常有赖于算法使用主体主要是经营者的自觉以及其和用户的双向良性互动,而这在某种程度上需要维持和确保经营者和用户之间的平等地位,对此,需要我们就如何平衡二者之间的地位进行探讨。
5.3. 完善立法规范抑制算法权力
就算法权力主体与个人之间的地位平衡而言,从根本上来说,需要在法律层面完善立法规范以抑制算法权力。由于用户能力有限,经营主体相对占据主导地位,因此商业经营主体基于对技术的掌握以及对数据的使用使其具有了一定的“准公权力” [16] 。对此,需要我们认清算法的工具性定位以及技术主体在此实际所享有的权力地位,将视角放在相关的行为人主体和监督作用的发挥之上,以间接对其进行规制。在手段方面,主要体现为内部监督和外部监督两个层面作用的发挥。
就内部监督而言,发挥行业内部监督和企业主体内部自察机制的作用是不容忽视的。同时,内部监督需要具有一定的外部表现形式以实现内部监督作用的持续发挥,因此,需要注重经营者信息及时披露义务的相关配套规定以提高算法透明度。为此,计算机协会推出了算法透明和问责性七项原则,通过决策救济和算法解释来增强算法结果的透明度;欧盟则在2018年正式实施的《通用数据保护条例》中赋予公民算法解释权,公民可以要求对算法的结果予以解释 [17] 。这些规定都在一定程度上加强了对算法的结果进行个人识别和纠正的可能性。
就外部监督而言,以监督主体作为划分标准可以分为用户和行政主体两个类型。就用户这类监督主体而言,作为算法运行直接作用的对象,其所能发挥的作用不容忽视。对此,我们需要完善问责制度以提高监督力度,在这个过程中,虽然基于算法本身的特性,我们难以对其因果关系进行追溯,也难以对相关主体的责任直接进行认定。不过我们可以关注相关主体即个人在其中所能产生的作用,并基于此进行归责。同时,为了更好的发挥监督作用,需对处于劣势地位的消费者进行一定程度的倾斜保护,在责任归责方面,考虑合理采用过错推定责任或者无过错责任原则的规定,并在诉讼层面考虑加入集体诉讼制度的适用和举证责任倒置的制度以对消费者权利给予实质性的保护。另外,行政监督方面能够发挥的作用也不容忽视,对此,有必要在算法设计、投入使用前、使用过程中以及使用后对算法的运行进行事先预防、事中察看和事后监督。同时,为了更好的发挥对算法歧视的法律规制作用,要加强政府、算法经营主体和社会三方的合作治理。
6. 结语
算法作为一种技术手段,即使它有自主学习的机会,采用近乎绝对理性的模式进行学习,但它也只是一种工具,难以对社会价值问题进行判断和平衡。它通过对各种数据的整合提取来形成自己的决策,在某种程度上并不加入自己的主观判断,因此这些数据可谓是我们现实社会中人们言行举止的真实反映,而这些行为背后所反应出来的歧视也是我们现实社会中无意的或有意的行为倾向。对此,我们似乎更应该检讨我们自身。
然而,算法作为一种替我们决策的工具,它也基于自身所固有的特征增加了歧视产生的风险,限制了我们进行认知、控制和改变的可能。在此种情况下,我们需要对其运行过程中可能出现的对数据本身所带有的歧视性因素的运用、数据本身的不合理利用以及算法运行本身所赋予的不合理权重加以规制。就法律规制而言,首先,在个人层面上,我们需要加强个人对于自己信息的控制;其次,在技术层面,需要我们思考如何将我们的社会核心价值与其运行相结合;最后,在算法使用者层面,需要我们明确其责任,防止技术的滥用,并对可能出现的后果用法律加以救济,对算法权力进行抑制。