草庐IT

超越联邦学习,让AI跨越公司边界:解决数据隐私和场景模型定制问题

安全不只合规 2023-03-28 原文

编译丨张泷玲、杨柳

编辑丨维克多

今年1月份,苏黎世联邦理工学院的Stefan Feuerriegelc教授在 《Communications of the ACM》期刊上刊文“Artificial Intelligence Across Company Borders”,在文中教授指出了人工智能(AI)产业落地过程中常见挑战:如何开展跨公司合作?

 

 
教授表示:通过数据共享构造大规模的跨公司数据集是一种方式,但有数据保密和隐私泄漏风险,且受隐私相关法律的限制。而保护隐私的分布式机器学习框架—联邦学习,能让数据不出本地,解决上述痛点。

但传统的联邦学习目前并不能提供规范的隐私保护证明,此外,其场景容易受到因果攻击。因此,教授指出,结合联邦学习和领域自适应,能够更大限度让合作公司从协作AI模型中受益,同时将原始训练数据保持在本地。以下是Stefan Feuerriegelc教授对领域自适应联邦学习的介绍,由星云Clustar高级算法工程师张泷玲、杨柳翻译整理。

近年来,以AI为核心的数字技术正在驱动经济社会发展。数据显示,2030年,AI将使全球工业部门的经济活动增加13万亿美元。然而,由于无法获取或有效利用跨国公司数据,使得这一技术的潜力在很大程度上仍未得到完全开发。AI收益于大量具有代表性的数据(representative data),这些数据通常需要来自于多家公司,特别是在实际工业场景中,面对少见的意外事件或者关键系统状态,想使AI模型取得良好的性能是极具挑战性的。

实现跨公司AI技术的一种直接方式是通过数据共享构造大规模的跨公司数据集。但出于数据保密和隐私泄漏风险的考虑,大多数公司都不愿意直接共享数据。并且在大多数情况下,共享数据受到隐私相关法律的限制。因此,具有领域自适应的联邦学习是解决跨公司AI问题的关键,一方面,联邦学习能够在不泄漏各公司数据隐私的前提下,实现模型训练和推理;另一方面,领域自适应允许各公司按照自己特定的应用场景和条件,对联邦模型做定制。

1.AI合作的障碍

跨公司AI主要存在两个障碍:

首先是跨公司的数据隐私性。因为直接共享原始数据可能会给竞争对手公司暴露有关自身公司的运营流程或知识产权专有信息等。这一障碍常常出现在公司寻求与供应商、客户或竞争对手公司想进行AI合作时。

例如,制造工厂的数据可以揭示参数设置、产品成分、产率、产量、路线和机器正常运行时间。如果此类数据被泄漏,它可能会被客户在公司谈判中滥用或进而帮助竞争对手提高生产力和改进产品。同时除了知识产权之外,一些深层的限制因素也会降低公司之间共享数据的意愿或倾向,例如公司间的信任程度、道德约束、保护公司用户隐私权的法律法规以及网络安全风险。因此我们需要一个保护数据隐私的解决方案,即在不暴露各公司的源数据前提下进行模型推断。

其次是跨公司间的合作需要考虑到领域偏移(domain shifts)的影响。领域偏移是指为不同公司使用不同配置机器或操作系统采集得到的数据分布不匹配。例如,来自一家公司采集到的机器数据可能不能作为另一家公司的代表性数据由于不同机器数据采集条件不一样。领域偏移给潜在的推论带来了障碍:在一家公司的数据上训练得到的模型可能表现不佳当部署到另一家数据分布明显不同的公司时。

2.跨公司AI

AI研究的最新进展有望突破这两个难题。联邦学习是一种保护隐私的分布式机器学习框架,旨在让多个边缘设备或服务器在不共享数据样本的前提下,通过共享本地模型参数(梯度或权重),共同进行机器学习的模型训练。

跨公司的纵向联邦学习可以从所有参与公司(例如,来自多个工厂、机车车辆厂或发电厂)的共同数据(joint data)中进行,通过共享各公司的模型参数(梯度或权重),共同进行机器学习的模型训练。

为了实现这一点,跨公司的纵向联邦学习通过将模型训练与对原始训练数据的访问解耦:各公司通过加密技术在不暴露各自的原始数据前提下对齐共同数据。通过利用各参与方本地数据进行模型训练,并将中间结果返回给协调方。协调方汇总各参与方的中间结果,构建协作模型,以整体提升模型性能和效果。在此过程中,没有公司有权直接访问到其他公司的原始训练数据。

在跨公司AI的背景下,针对跨公司间的合作的领域偏移问题,由于不同公司的数据分布通常只是较少重叠,即目标域和源域域有一定差异,我们引入领域自适应理论,目标是学习到的不变量,即不受合作公司的特定操作条件限制,从而减轻跨公司之间由于领域偏移产生的模型表现不佳的影响。

具体主要通过学习源域和目标域的公共的特征表示,在公共特征空间,源域和目标域的分布要尽可能相同,以便边缘分布在特征空间中对齐。

跨公司AI合作可以通过使用联邦学习来解决直接数据共享的隐私保护的障碍和通过域适应解决领域偏移的障碍。这种组合通常被称为联邦迁移学习。

在工业生态系统中通常会遇到两种类型的迁移学习方法,通常将故障视为标签但由于故障通常在系统中不常见,因此是不均衡。通常出现标签在源域中出现但在目标域中没有(称为无监督域适应);标签在源域和目标域中都没有(称为无监督迁移学习)

3.跨公司AI落地

公司可以结合联邦学习和领域自适应,在工业生态系统中实现协同AI。一旦部署,它允许合作公司从协作AI模型中受益,同时将原始训练数据保持在本地。同时,协作模型的训练方式可以很好地概括每家公司的数据。并且任何时候都不会共享跨公司的边界专有数据,只有模型的中间结果(例如梯度)在公司之间共享,此外,协作模型通过学习不变量来代表公司之间的异质性程度。例如,不受公司特定运营条件的影响,每个参与的利益相关公司能够通过其他合作公司的经验来扩展自己的运营经验。

对于工业生态系统,传统的联邦学习中的训练过程通常由中央服务器协调各参与者,但一方面,由于中央服务器的瓶颈特性,可能会造成潜在的漏洞。另一方面,这种集中式架构目前也仅仅应用到双边合作这种普遍的场景。

去中心化的方式实施跨公司的AI合作的是十分具有潜力和巨大价值的,因此引入了去中心化的学习设置。在去中心化联邦学习中,与中央服务器的通信被替换为对等通信,这对于由应用程序或操作条件的相似性和特定用例和操作条件的演变动态形成子网络内的跨公司协作。同时为了完成传统的中央服务器的任务,分布式账本技术的使用在此处的应用也是可行的。最后,这里讨论的方法需要根据跨企业的实践经验中进行选择,以便公司选择是否更倾向集中式或去中心化方法的联邦学习。

虽然联邦学习能够提供较为显着的隐私保护策略,并鼓励跨公司边界的协作,但迄今为止,传统的联邦学习目前并不能提供规范的隐私保护证明,参与方是可能从梯度更新和之前的模型参数中推断出一些信息。此外,传统的联邦学习场景容易受到因果攻击,即训练好的模型可能会因参与方错误的模型更新而遭到破坏。对于公司而言,避免此类攻击的实施是非常重要的,这里有一种解决方案是提出使用额外的隐私保护技术,例如差分隐私或密码学手段等等。

4.结合联邦学习和领域自适应,可以在跨公司环境中释放AI的力量

对于从业者而言,将跨公司的AI合作引入工业生态系统将需要指导和实施过程的一系列设计原则。例如,如果两家公司的应用程序内的数据分布没有明显的领域偏移,则可以直接应用联邦学习而不需要与领域自适应相结合等。

此外,跨公司AI合作的实施必须满足实践的进一步需求,这可能需要更多扩展,例如持续学习和数据异质性的解决方案。例如,对于高度异构的系统,必须选择足够鲁棒的模型实现,从而实现可迁移性(例如,跨不同的产品型号、不同的传感器组组合或不同的制造商)。同时随着时间的推移,行业成熟后也应该做好引导工作来制定一系列的标准规范跨公司合作进一步释放AI的力量。

5.发展方向

将联邦学习与领域适应相结合,可以在跨公司合作中释放AI的力量。这种跨公司的AI合作可以扩展到传统的供应链或领域之外。例如,创建合作评级组织的大型生态系统。虽然这一愿景可能会在不久的将来实现,但公司可以开始在值得信赖的合作伙伴中学习和使用这项新技术。同时仍然需要开发公平指标去分配模型,这是跨公司AI合作的微观经济含义。行业经理应确定可以帮助更全面优化其绩效的数据合作伙伴,做到与系统思维保持一致。

跨公司的 AI 还可以激发新的商业模式,例如通过AI即提供服务或由第三方公司支持数据。特别是中小型公司将从利用其他公司的数据资源中受益。在这方面,服务系统工程可以帮助制定基于跨公司AI设计和开发服务系统网络的系统原则。朝着这个方向迈出的第一步是系统地理解利益相关者和资源之间的价值共创模式。

跨公司利用AI合作将受益于正在进行的研究。目前研究也在做出新的尝试来推进联邦学习,提高其可扩展性、鲁棒性和有效性,同时加强的隐私保护和提高模型性能方面。对这些具有领域自适应能力的联邦学习可以促进跨公司边界使用AI合作呈指数级增长。

参考链接:

https://cacm.acm.org/magazines/2022/1/257442-artificial-intelligence-across-company-borders/fulltext

有关超越联邦学习,让AI跨越公司边界:解决数据隐私和场景模型定制问题的更多相关文章

  1. ruby - 解析 RDFa、微数据等的最佳方式是什么,使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2

    我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i

  2. ruby - Ruby 有 `Pair` 数据类型吗? - 2

    有时我需要处理键/值数据。我不喜欢使用数组,因为它们在大小上没有限制(很容易不小心添加超过2个项目,而且您最终需要稍后验证大小)。此外,0和1的索引变成了魔数(MagicNumber),并且在传达含义方面做得很差(“当我说0时,我的意思是head...”)。散列也不合适,因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题,但我很想知道:Ruby标准库是否已经带有这样一个类? 最佳

  3. ruby - 我如何添加二进制数据来遏制 POST - 2

    我正在尝试使用Curbgem执行以下POST以解析云curl-XPOST\-H"X-Parse-Application-Id:PARSE_APP_ID"\-H"X-Parse-REST-API-Key:PARSE_API_KEY"\-H"Content-Type:image/jpeg"\--data-binary'@myPicture.jpg'\https://api.parse.com/1/files/pic.jpg用这个:curl=Curl::Easy.new("https://api.parse.com/1/files/lion.jpg")curl.multipart_form_

  4. 世界前沿3D开发引擎HOOPS全面讲解——集3D数据读取、3D图形渲染、3D数据发布于一体的全新3D应用开发工具 - 2

    无论您是想搭建桌面端、WEB端或者移动端APP应用,HOOPSPlatform组件都可以为您提供弹性的3D集成架构,同时,由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台(桌面/WEB/APP,而且某些客户端是“瘦”客户端)快速、方便地将数据接入到3D应用系统的解决方案,并且当访问数据时,在各个平台上的性能和用户体验保持一致,HOOPSPlatform将帮助您完成。利用HOOPSPlatform,您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品,HOOPSSDK包含的技术有:快速且准确的CAD

  5. FOHEART H1数据手套驱动Optitrack光学动捕双手运动(Unity3D) - 2

    本教程将在Unity3D中混合Optitrack与数据手套的数据流,在人体运动的基础上,添加双手手指部分的运动。双手手背的角度仍由Optitrack提供,数据手套提供双手手指的角度。 01  客户端软件分别安装MotiveBody与MotionVenus并校准人体与数据手套。MotiveBodyMotionVenus数据手套使用、校准流程参照:https://gitee.com/foheart_1/foheart-h1-data-summary.git02  数据转发打开MotiveBody软件的Streaming,开始向Unity3D广播数据;MotionVenus中设置->选项选择Unit

  6. 使用canal同步MySQL数据到ES - 2

    文章目录一、概述简介原理模块二、配置Mysql使用版本环境要求1.操作系统2.mysql要求三、配置canal-server离线下载在线下载上传解压修改配置单机配置集群配置分库分表配置1.修改全局配置2.实例配置垂直分库水平分库3.修改group-instance.xml4.启动监听四、配置canal-adapter1修改启动配置2配置映射文件3启动ES数据同步查询所有订阅同步数据同步开关启动4.验证五、配置canal-admin一、概述简介canal是Alibaba旗下的一款开源项目,Java开发。基于数据库增量日志解析,提供增量数据订阅&消费。Git地址:https://github.co

  7. 「Python|Selenium|场景案例」如何定位iframe中的元素? - 2

    本文主要介绍在使用Selenium进行自动化测试或者任务时,对于使用了iframe的页面,如何定位iframe中的元素文章目录场景描述解决方案具体代码场景描述当我们在使用Selenium进行自动化测试的时候,可能会遇到一些界面或者窗体是使用HTML的iframe标签进行承载的。对于iframe中的标签,如果直接查找是无法找到的,会抛出没有找到元素的异常。比如近在咫尺的例子就是,CSDN的登录窗体就是使用的iframe,大家可以尝试通过F12开发者模式查看到的tag_name,class_name,id或者xpath来定位中的页面元素,会抛出NoSuchElementException异常。解决

  8. ruby-on-rails - 创建 ruby​​ 数据库时惰性符号绑定(bind)失败 - 2

    我正在尝试在Rails上安装ruby​​,到目前为止一切都已安装,但是当我尝试使用rakedb:create创建数据库时,我收到一个奇怪的错误:dyld:lazysymbolbindingfailed:Symbolnotfound:_mysql_get_client_infoReferencedfrom:/Library/Ruby/Gems/1.8/gems/mysql2-0.3.11/lib/mysql2/mysql2.bundleExpectedin:flatnamespacedyld:Symbolnotfound:_mysql_get_client_infoReferencedf

  9. STM32读取串口传感器数据(颗粒物传感器,主动上传) - 2

    文章目录1.开发板选择*用到的资源2.串口通信(个人理解)3.代码分析(注释比较详细)1.主函数2.串口1配置3.串口2配置以及中断函数4.注意问题5.源码链接1.开发板选择我用的是STM32F103RCT6的板子,不过代码大概在F103系列的板子上都可以运行,我试过在野火103的霸道板上也可以,主要看一下串口对应的引脚一不一样就行了,不一样的就更改一下。*用到的资源keil5软件这里用到了两个串口资源,采集数据一个,串口通信一个,板子对应引脚如下:串口1,TX:PA9,RX:PA10串口2,TX:PA2,RX:PA32.串口通信(个人理解)我就从串口采集传感器数据这个过程说一下我自己的理解,

  10. LC滤波器设计学习笔记(一)滤波电路入门 - 2

    目录前言滤波电路科普主要分类实际情况单位的概念常用评价参数函数型滤波器简单分析滤波电路构成低通滤波器RC低通滤波器RL低通滤波器高通滤波器RC高通滤波器RL高通滤波器部分摘自《LC滤波器设计与制作》,侵权删。前言最近需要学习放大电路和滤波电路,但是由于只在之前做音乐频谱分析仪的时候简单了解过一点点运放,所以也是相当从零开始学习了。滤波电路科普主要分类滤波器:主要是从不同频率的成分中提取出特定频率的信号。有源滤波器:由RC元件与运算放大器组成的滤波器。可滤除某一次或多次谐波,最普通易于采用的无源滤波器结构是将电感与电容串联,可对主要次谐波(3、5、7)构成低阻抗旁路。无源滤波器:无源滤波器,又称

随机推荐