您好、欢迎来到现金彩票网!
当前位置:秒速快3 > 数据隐私 >

AI技术极度依赖大数据 面临数据孤岛安全隐私风险等

发布时间:2019-05-18 13:16 来源:未知 编辑:admin

  文 /杨强,迁移学习奠基人、国际人工智能联合会IJCAI理事会主席、IEEE/ACM/AAAI院士;本文根据杨强院士在2019基石资本年会上的演讲整理(未经本人审核)

  AI现在是一个非常火热的话题,全社会都在讨论。而我们最关注的是,AI的下一站会向何处去?因为最近的一些事件,让我们不得不继续深思。现在全社会对于AI的看法,已经从全面看好转向正面和负面看法兼而有之。我们提出A.I.向善,首先当然要看到,AI确实能做很多有益的事。比方说,AI可以让一个产业实现普惠发展,从只面向VIP的小规模服务,变成大众都可以得到的普惠服务。比如一系列的AI+,AI+金融、AI+教育、AI+智慧城市、AI+灾难营救、AI+扶贫农业,等等,这里不一一列举。

  但是另一方面,我们大部分人可能不知道的是,AI还有很多内在的缺陷。首先,AI技术极度依赖大数据,数据不可避免的局限性会导致AI出现有偏性。如果说AI是一架汽车,数据就像石油一样,为引擎提供燃料。数据的好坏,决定了AI到底能做什么。如果AI系统得到了一个比较偏颇的数据,AI系统的有偏性就成为一个非常严重的问题。比如说,如果提供数据的人都是男性用户,那么系统表现出来的就只是一种针对男性的服务模型,而不会刻意为女性服务。其次,AI和人类的合作现在仍有很大障碍。前一阵大家都在谈论的波音飞机失事事件,就是驾驶员和自动驾驶系统恶性博弈的后果,最后人类输给了自动系统。AI还有很多尚未解决的问题,比方说AI系统的可解释性,AI系统的可靠性、可信性和公平性,这些都是我们现在研究的前沿。

  首先,我们知道AI是离不开大数据的,而我要强调的是大数据的不可得性。现在一般都说我们今天进入了大数据时代,但是我要告诉大家,这是不对的,我们并没有进入一个大数据时代。虽然谷歌和Facebook等大公司在数据不断增大的情况下,系统变得越来越优秀,错误率变得越来越低,指标变得越来越好。但是,除了这些巨头之外,谁还能有这么大的数据?谷歌的自然语言处理系统,获得了全世界几乎所有网络和自然语言的数据用来做训练,但是毕竟只有谷歌才有这样的数据资源。再看看我们周边,不管是法律、金融,还是医疗,所面临的都是小数据,也就是说它不能够得到我们想象中的大数据+AI的红利。雪上加霜的事实是,现在社会对于大数据的监管越来越严。比方说Facebook最近曝出的一系列数据泄露的事件,遭到了大众巨大的质疑。欧洲也出台了相应的个人数据保护法规,欧盟就颁布了GDPR(《通用数据保护条例》)。在中国也有《网络安全法》等数据网络个人隐私保护法案和条例,还有更严格的相关法律正在酝酿当中。以上这些情况都说明,目前并非如我们普遍所感受的,觉得我们已经进入了大数据时代;恰恰相反,我们现在面临的是大量数据孤岛的出现,包括BAT公司一些内部数据在部门之间都是隔离的。

  作为AI技术的研究人员,我们现在正在做一些世界前沿的研究,尝试解决大数据的缺陷对AI带来的挑战。第一个叫做迁移学习,就是在一个大数据的环境下,已经训练出一个非常不错的通用模型,再把这个模型迁移到任意一个相关的任务场景中,看是否可行。如果在新的场景中可行,就不需要重新去获取大数据了。这个是解决大数据缺陷的一个很有力的做法。

  迁移学习,是我们人类非常熟悉的学习方式。如果我们学会了骑自行车,很容易就能学会骑摩托车。这种能力的迁移,使得我们学了一件事,就会举一反三,去学很多其他的事情。而计算机在深度学习的场景下,是怎么实现这个过程的呢?假设我们已经把蓝色的模型建得非常完美了,有一个新的红色任务还没有足够的数据和标注,模型也建得不好。如果我们能够把两者联系起来,就可以很自如地从蓝色迁移到红色,就实现了迁移学习的效果。

  首先,迁移学习的最大效用就是使一个模型的适用范围广泛扩大。我们在计算机领域称之为“鲁棒性”,就是说外部环境再怎么变化,系统的表现都会呈现出相对的稳定性。

  其次,迁移学习可以用来支持边缘计算。“边缘计算”现在是一个热词,大概意思是说,很多的模型和处理本身都可以在终端进行,不用把数据原封不断地送到云端。这样做的好处是带宽的需求减少,隐私的泄露也大为减少,因为此时需要往云端传的只是一些关键的参数而已。迁移学习为什么能达到这个效果?因为云端一旦得到了一个很强的模型,释放给周围的边缘地带,边缘可以利用自己本身的计算能力来强大自身,来适配各自的任务。这就是边缘计算的好处。所以迁移的最终目的就是实现从大数据到小数据,从一旧场景新场景的转接。

  那么,在深度学习的场景下,迁移学习是怎么实现的?举个例子,国内开车,司机坐在车的左边,在香港开车,司机坐在车的右边。如果我们到香港去租一辆车,还是能够很快适应这种开车习惯的。背后的原因就是司机和路中线的相对位置是不变的。这就给我们一个启发,要做好迁移学习,就要在两个不同的领域中发现二者的不变量。

  深度学习的场景下,数据从输入到输出会分成不同的层次,如同深度学习的神经元。我们观察在不同的层次,从离输入最近的最低层,到离任务最近的最高层,每层的迁移能力大有不同。越靠近输入层的迁移能力就越强,学习效果就越好。对于图像来说,如果我们能够把靠近输入的这些层次迁移过去的话,剩下的工作并没有那么多,就不需要那么多数据来重新做训练。用这个方法,我们就可以创造出一系列新的算法来,比如所谓的传递式的迁移学习,不是从一个领域直接迁移到任务领域,而是从第一个迁移到第二个、再从第二个迁移到第三个,这样依次传递。这样的传递效果很明显。

  最近斯坦福大学的一个例子给了我们很大的启发。他们利用卫星图像观察非洲大陆,以此来判定哪一个区域需要更多的联合国资助。在过去,这样的工作是需要人为调查的,成本昂贵,速度很慢。但是现在可以用迁移学习,尤其是传递式迁移学习来实现。最开始的照片甚至是网上随意抓下来的照片,通过照片的比对,都可以迁移到扶贫的任务上,取得了非常大的成功。第四范式公司的一项实践,也是一个从大数据到小数据的迁移学习的例子。当时的任务是要做一个豪车产品的营销模型,这需要在大众当中识别最有可能性的目标受众。但问题就是没有足够的数据来训练这个模型,因为豪车成交数量是非常少的。他们就利用迁移学习的方式,用大量小贷的场景,以上亿的数据来做训练,形成模型后再迁移到豪车买卖的场景。其效果就使得最后营销的成果大为提升。

  另外,我们可能都用过手机APP的推荐功能,这种推荐策略是因人而异的,是个性化的,这种策略也可以做迁移。比如在一个场景下,已经用机器学习训练出一个好的推荐模型,用户看了这条内容,划下来的应该是哪几个新闻或者视频。这个系统完全可以从一个领域迁移到另一个领域,比如你看了相关主题的影视类视频,然后算法可以迁移到一些故事片的视频、新闻片的视频。这种算法叫做强化学习算法,也可以用来做迁移。

  舆情分析也是一个特别有利的应用场景,比如电商下面会有很多用户留言,一般我们会让计算机来把这几十万的用户留言分成正面和反面。这就需要大量的标注,把一些关键词标出来。当我们到了一个新的场景,比如卖书、卖游戏,用了迁移学习以后,就可以大为节省重新标注的工作量,很好地提升效果。这里,我们提出来一个概念叫做对抗学习。这也是最近在机器学习、深度学习领域发展非常迅猛的一个方向。总结起来就是,如果我们面临一个小数据的场景,不知道需要花多大的力量去重新标注数据,这时候一个好办法就是找到一个已经有的场景、已经有的模型,把它迁移过来。这个概念是我们在香港科技大学20年以前就开始做的,在全世界范围都有引领的作用。我们的文章被引用率已经超过5000,是非常可观的一个数字。目前,BAT、谷歌、Facebook都在用迁移学习,试图扩大应用场景。吴恩达甚至说,迁移学习是监督学习的下一个战场。

  第二个领域是联邦学习。数据本身是割裂的,是以孤岛的形式存在的,如果能在安全的前提下把这些数据在虚拟世界聚合起来,同时不泄露各自的隐私,并且能建立像以前一样好的模型,就可以形成从小数据到大数据的聚合能力。

  当出现很多数据孤岛,没有办法整合,就会有人作假。像Facebook把数据给了另一家公司,结果被用来传播假消息,因此Facebook也受到连累。这个消息曝光的当天,Facebook的股价随之暴跌。为了防止类似事件发生,欧洲引入GDPR法案,从立法上给予个人隐私可靠的保护。加州最近也出台了类似的法规,中国对数据安全的立法也已经到了人大常委会的层面了。在层层约束下,如果一个公司收集了用户的数据,去做其他事情,一定要取得用户的同意,否则就不被允许。如果用户后悔了,不希望自己的数据被使用,这个公司就不能在模型里采用相关数据。这种情况,其实对机器学习、对AI的进一步发展提出了很大的挑战,导致整个算法系列都要重新建立。数据孤岛,以及越来越收紧的相关法规,已经成为AI发展的巨大阻力。如果现在还有初创公司在做深度学习,做无人车,做推荐系统,这样的公司是没有前途的。

  面对巨大的阻力,联邦学习就应运而生。这需要从数据的整合说起。不同的机构拥有的数据是不同的,用户本身的行为数据是X,结果数据是Y。例如一个用户带着手机走来走去,产生的GPS通信数据就是典型的X数据。一般来说,这种行为数据X是不带有任何目的性的。而Y数据是有目的的,特别是商业目的。所以结果数据是非常值钱的。比如在金融领域,用户到底有无贷款,还款与否,这就是我们所说的Y数据。只有当X数据和Y数据合到一起,才能用来训练AI的系统。但我们面临的情况是,有很多的X数据分布在不同的机构,拥有Y数据的一般都是一些持牌机构,像保险、银行。首先很难获取,其次也很难整合,并且要保证安全性。有人提出,可以用一些加密算法把数据加密,然后用一些数学工具进行聚合。但是,这些数学工具往往都是数学家们发明的,根本就没有考虑实用性,实际的计算复杂度非常高,所以工具的计算能力应用起来非常差。

  最近,计算机领域提出了新的工具。谷歌推出了“federatedlearning”的概念,即联邦学习。在此之前,安卓系统训练模型的方式是,每一个安卓系统都要往云端传送本地数据,像本地输入法键盘的输入,或者是照片,都会被进行标注并上传到云端,帮助训练云端的模型,最后再把训练好的模型下传到各个安卓手机上。但是自从欧洲的GDPR出台以来,这个过程就成了违法行为,因为把用户本地数据传到云端是没有经过用户同意的。现在他们的办法是,先在每一个本地手机把模型建好,然后对模型进行加密封装,把封装好的模型运到云端,保证在云端也没有办法拆封,在这个状态下进行重新建模,最后把重新建好的模型再下发到每个手机上。这就是谷歌所说的联邦学习。但这种做法只是针对to C的做法,我们目前在研究to B的联邦学习方式。两个机构之间可能有一些用户是共有的,但各自收集到的数据却不同,比方银行业和电信业,这边的数据是X1—X3,那边收集到的是X和X5。如何能够促成数据的聚合,同时又不泄露用户的隐私?针对这种情况,我们提出了纵向联邦的概念,专门解决to B的联邦学习,目前正在尝试推出新的算法。

  总的来说,联邦学习是指,每一个本地就像一个个联邦社会里的国家一样,可以保留自己的数据,但是要参与到联邦里进行共同计算,来建立一个更好的模型。我们可以用联邦学习的方式,建设整个数据模型的过程,同时使得各个数据集之间看不到对方的数据,充分实现数据的保密性。在过程当中有很多数学的表达,其中一个很重要的表达是,在两边进行模型传递的时候,数据不可以被反向工程模拟出来。以前的深度学习需要把数据堆到一起来建模,而联邦学习就是数据不动,而模型在动,让模型在数据集之间传递。在模型传播的过程中,可以规避在接到新模型时,把其他数据重造出来的风险。这是一种全新的思维,也是在目前严监管的状态下能够挽救深度学习、挽救AI的一个技术方案。所以我们做了这么一系列的尝试,研究了一系列的算法。同时还产生了一个很重要的副产品——比如我有多家银行的数据,还可以在保密的前提下发掘出多方借贷的情况。在过去,需要把多方数据加以重叠,才能发现多方借贷情况。用联邦学习的方式,就不需要这么麻烦,可以自动发现并且不暴露各自数据的隐私。同时,我们可以把前面讲的迁移学习引入两个模型中,使得模型之间不仅可以做联邦学习,同时可以把数据加以迁移,到最后同时壮大两边的数据。在这个方向上,目前我们是世界领先的。现在我们还提出了一系列的专利,标准也正在建立,在学术上也建立了一系列新的算法。

  最后要说的是,大家参与共同建模的联盟,一定是因为有好处,那么这个好处是如何分配的?我们以博弈论为基础,建立了一个经济学模型,已经做到了把最后的收益公平地分配给参与方,并使得新的参与方不断加入。现在有几个跨行业的成功案例已经建立了合作,一些金融、互联网的企业和学术研究机构,通过这种加密安全合作,使得各自的效果指标都达到了提升。现在我在微众银行做指导人工智能的工作,就是关于互联网和金融风控的合作,我们已经取得了一系列成果。另外就是在智慧城市管理领域的实验。我们知道城市的摄像头背后都归属于不同的机构,但他们的数据不能传递。在这种场景下,我们能够把这些视觉数据合而为一,同时又不暴露用户隐私,能够让各自的模型都得到加强。最近我们在深圳做了一个相关实验,非常成功,准确率效果提升了15%。

  同时,我们发动领导了HPOE的国际标准,最近在深圳开了第一次全体会议,6月份在洛杉矶召开第二次全体会议,也得到了很多企业的支持。我们刚发布了联邦学习第一个开源系统,FEDAI,大家如果有兴趣可以去参考。我们主办了一些国际领先的会议,比如国际人工智能联合会要举办的一些国际会议,请来了GDPR(欧洲个人隐私保护法)法案的发起人、google联邦学习的小组领导,全世界都在关注我们的动向。

  综上所述,目前AI面临的巨大挑战就是数据挑战,数据孤岛、数据割裂、安全隐私风险,等等。如果大家关心AI投资,应该关注被投企业有没有对这一方面的考虑和长远规划。我们对此提出的两个技术方案,迁移学习和联邦学习,就是解决以上这些挑战的有力工具,再加上我们运用经济学激励机制,使得新型的合作模式能够广泛展开。

http://talkingwithjon.com/shujuyinsi/2.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有