ACM SIGKDD2020(知识发现和数据挖掘会议)是一年一度全球最顶级、最高水平、最具影响力的数据科学盛会,本次SDBD国际研讨会作为KDD大会中聚焦智能数据和区块链等新兴技术的专场Workshop,由新加坡管理大学及算力智库共同举办。
算力智库创始人燕丽表示:“今年国家把数据提到生产要素的高度,标志着行业风口的到来。算力智库一直在跟踪智能数据、隐私计算和区块链赛道中的好公司、好应用,希望通过第一手原创深度报道和研报推进产业与生态的发展。”
会上,来自全球的学界与产业界专家从数据作为资产的维度探讨了前沿科技赋能数据共享的最新实践,并倡导“技术+制度”双轨并行充分挖掘数据要素的更大价值。
1
人工智能、区块链等科技让数据成为了智慧数据,但所谓数据经济则不止于智慧数据。新加坡管理大学教授朱飞达认为,在谈论科技如何让数据变得“可计算”之前,还必须认识到一个前提——数据是资产,数据需要治理。
然而即便是这样一个大前提,人类也花费了很长时间才认识到。朱飞达教授表示,数据经济历经了三个阶段。第一阶段数据只是商业活动的副产品,人们更多用数据来理解过去。第二阶段是大数据与数据经济的兴起,在这一阶段数据被少部分企业垄断而得利。第三阶段则是数据驱动经济,数据成为了驱动所有机构组织的共享资产。
翼方健数(BaseBit.ai) CEO罗震认为,从信息时代到智能时代,数据正在更多被机器和计算程序使用,也让机器更加智能化。作为信息时代的遗留物,数据具有独特的经济学特征,如虚拟可再利用、固定成本高、可变成本低,同时也在隐私、合规、机密、安全性等非经济学维度显示出鲜明特征。
事实上,人们在认识这些数据特性的过程中已经付出了代价,缺乏治理的数据泄露案例造成巨大损失。
新加坡国立大学副教授何丙胜表示,数据泄露已非孤立事件,各行业都有相关事件。在教育、医药、能源、健康等领域,每一起数据泄露事件造成的平均损失都至少在500万美元以上。
这些负面案例不仅承载了巨大的经济损失,更消耗了整个社会对数据共享的意愿和信心,让本就基础薄弱的数据共享愈加困难。
罗震指出,数据本质上不能被安全共享,但应该在不共享数据本身的前提下实现数据价值共享。
当然这就更难,最著名的阻碍就是数据孤岛。何丙胜教授以医院数据为例表示,不同的医院有不同的病人,但其实病例有许多相似性。医院、银行、电商,他们各自的数据实际上是分别掌握了相同人群的不同方面。
朱飞达教授的研究发现,数据生态系统中存在两大瓶颈。第一大瓶颈存在于个人、企业、政府等不同角色间。第二大瓶颈存在于数据、模型和应用间。
在个人与企业间,用户作为数据的贡献者不仅被排除在价值分配之外,对自身数据的认知与控制也十分有限,更要承受隐私泄露风险。个人与政府间则存在隐私与数据泄露的担忧。政府部门间因制度原因存在“数据高墙”,企业之间数据孤岛现象普遍,在企业与政府间数据共享缺乏激励。
另外,在数据端,数据来源不明,质量差;在模型端,模型的设计与训练难以获取真实用户数据;在应用端,缺少先进的模型造成了低层次的数据智能。
朱飞达教授认为,问题的根源并不在于数据智能本身,而在于数据治理。数据资产治理的核心要素是信任+激励。其中,信任可以通过联邦学习、差分隐私、安全多方计算、TEE等来实现,而激励则通过数据定价、数据挖掘、机器学习、通证经济等来实现。
2
各界专家达成的普遍共识是,数据安全流动与共享需要在技术与制度两大层面上齐头并进。
在科技层面可以看到,各类前沿科技正百花齐放,以隐私安全计算为整体解决方案赋能数据安全共享。
罗震把当下热门的隐私安全计算技术分为三大路径:多方安全计算MPC/同态加密、联邦学习、安全沙箱计算/TEE。他进一步总结了这三大路径的区别——依次随信任假设的增加,计算复杂性就降低。另外,隐私安全计算技术还涉及到差分隐私、云计算、区块链、对抗神经网络等技术。
微众银行首席人工智能官、香港科技大学计算机与工程系讲座教授杨强则以羊群吃草为例解释了联邦学习。传统方式是将草从各地集中到一起喂羊,但这并不合规,隐私和数据安全保护的要求使得获取数据成为障碍。而联邦学习则提供了新思路:让羊群在各地移动,而草不出本地,主人无法知道它吃了哪些草。
同盾科技合伙人兼人工智能研究院院长李晓林介绍了同盾科技的知识联邦,其利用一套层次化框架体系统一支持各种安全多方应用,通过数据安全交换协议,有效利用多个参与方的数据,进行知识共创、共享和推理,实现数据可用不可见。
与会专家还重点探讨了区块链技术在数据安全共享中的价值。
趣链科技副总裁张帅表示,作为数据确权和价值传递的保障技术,区块链最大的价值在于数据登记和交换过程的记录,保证数据的安全共享。在区块链上可以登记访问权限、访问逻辑,以及需要支付的代价等,而智能合约则实现了全自动过程。
对于与其他技术的融合,张帅认为,区块链本身虽然不解决数据共享,但可以成为多种技术的粘结剂。物联网等其他垂直技术与数据都相关,区块链就可以横向把他们粘合。
上海万向区块链股份公司副总经理、万向区块链实验室负责人杜宇也表达了类似观点。他认为,现实中企业和金融机构不会把交易记录和商业机密暴露出来,但每家企业都有很多数据,也就有了数据孤岛。面对很多协同的要求,区块链可以协助横向实现数据共享,把孤岛串联起来。
树图区块链Conflux联合创始人伍鸣认为,区块链本身作为分布式账本是可靠的数据载体,可以承载最大价值数据,如金融信用数据,因此区块链和数据密不可分,区块链承载的数据还能实现通证化。
Phala Network CEO佟林则指出,目前链上的数据种类和数量远小于链下数据。链上数据的特点是可见即可用,不可见(加密数据)则不可用,但利用隐私安全计算可以实现链上数据的可用不可见。
目前看来,各类技术已经实现了初步落地。
以微众银行为例,其携手腾讯天衍实验室成立腾讯医疗健康-微众联合实验室,基于联邦学习开发的“脑卒中发病风险预测模型”准确率达到80%以上,小型医院模型预测指标提升了10-20%。
翼方健数则为中国健康医疗大数据首批试点城市——厦门构建了基于隐私安全计算技术的大数据应用与开放平台,打造了医疗大数据治理及分级诊疗落地的典范。
在制度层面,各界专家一致强调了法律法规及标准的重要性。
锘崴科技创始人王爽表示,数据共享在技术之外还需要法律和标准的推动,如美国有相关法律,欧盟则以GDPR为代表,中国数据安全法草案也已公布,再加上国家标准的制定,共同推动数据生产要素的流通。
科大讯飞大数据研究院执行院长谭昶坦言,现实中企业间大规模的数据共享其实很少见,部分原因也是因为法律法规尚需改进,数据生产要素定价等问题尚未解决,缺乏数据市场化交易机制,也就是相关基础设施亟待完善。
在“释放数据价值,区块链有何妙用”的圆桌主题讨论中,KILT Protocol创始人Ingo Rübe则从法理上思考了区块链的数据安全性——到底怎样才算安全?GDPR在2012年制定时并未考虑到区块链,但区块链上的数据加密归根结底是数学问题,终究可以解决,因此仍应先聚焦立法问题。