咨詢電話
021-80392549
今年1月份,蘇黎世聯(lián)邦理工學(xué)院的Stefan Feuerriegelc教授在 《Communications of the ACM》期刊上刊文“Artificial Intelligence Across Company Borders”,在文中教授指出了人工智能(AI)產(chǎn)業(yè)落地過(guò)程中常見(jiàn)挑戰(zhàn):如何開(kāi)展跨公司合作?
CACM觀點(diǎn):超越聯(lián)邦學(xué)習(xí),讓AI跨越公司邊界
教授表示:通過(guò)數(shù)據(jù)共享構(gòu)造大規(guī)模的跨公司數(shù)據(jù)集是一種方式,但有數(shù)據(jù)保密和隱私泄漏風(fēng)險(xiǎn),且受隱私相關(guān)法律的限制。
而保護(hù)隱私的分布式機(jī)器學(xué)習(xí)框架—聯(lián)邦學(xué)習(xí),能讓數(shù)據(jù)不出本地,解決上述痛點(diǎn)。
但傳統(tǒng)的聯(lián)邦學(xué)習(xí)目前并不能提供規(guī)范的隱私保護(hù)證明,此外,其場(chǎng)景容易受到因果攻擊。
因此,教授指出,結(jié)合聯(lián)邦學(xué)習(xí)和領(lǐng)域自適應(yīng),能夠更大限度讓合作公司從協(xié)作AI模型中受益,同時(shí)將原始訓(xùn)練數(shù)據(jù)保持在本地。
以下是Stefan Feuerriegelc教授對(duì)領(lǐng)域自適應(yīng)聯(lián)邦學(xué)習(xí)的介紹,由星云Clustar高級(jí)算法工程師張瀧玲、楊柳翻譯整理。
近年來(lái),以AI為核心的數(shù)字技術(shù)正在驅(qū)動(dòng)經(jīng)濟(jì)社會(huì)發(fā)展。數(shù)據(jù)顯示,2030年,AI將使全球工業(yè)部門的經(jīng)濟(jì)活動(dòng)增加13萬(wàn)億美元。
然而,由于無(wú)法獲取或有效利用跨國(guó)公司數(shù)據(jù),使得這一技術(shù)的潛力在很大程度上仍未得到完全開(kāi)發(fā)。AI收益于大量具有代表性的數(shù)據(jù)(representative data),這些數(shù)據(jù)通常需要來(lái)自于多家公司,特別是在實(shí)際工業(yè)場(chǎng)景中,面對(duì)少見(jiàn)的意外事件或者關(guān)鍵系統(tǒng)狀態(tài),想使AI模型取得良好的性能是極具挑戰(zhàn)性的。
實(shí)現(xiàn)跨公司AI技術(shù)的一種直接方式是通過(guò)數(shù)據(jù)共享構(gòu)造大規(guī)模的跨公司數(shù)據(jù)集。但出于數(shù)據(jù)保密和隱私泄漏風(fēng)險(xiǎn)的考慮,大多數(shù)公司都不愿意直接共享數(shù)據(jù)。并且在大多數(shù)情況下,共享數(shù)據(jù)受到隱私相關(guān)法律的限制。因此,具有領(lǐng)域自適應(yīng)的聯(lián)邦學(xué)習(xí)是解決跨公司AI問(wèn)題的關(guān)鍵,一方面,聯(lián)邦學(xué)習(xí)能夠在不泄漏各公司數(shù)據(jù)隱私的前提下,實(shí)現(xiàn)模型訓(xùn)練和推理;另一方面,領(lǐng)域自適應(yīng)允許各公司按照自己特定的應(yīng)用場(chǎng)景和條件,對(duì)聯(lián)邦模型做定制。
1
AI合作的障礙
跨公司AI主要存在兩個(gè)障礙:
首先是跨公司的數(shù)據(jù)隱私性。因?yàn)橹苯庸蚕碓紨?shù)據(jù)可能會(huì)給競(jìng)爭(zhēng)對(duì)手公司暴露有關(guān)自身公司的運(yùn)營(yíng)流程或知識(shí)產(chǎn)權(quán)專有信息等。這一障礙常常出現(xiàn)在公司尋求與供應(yīng)商、客戶或競(jìng)爭(zhēng)對(duì)手公司想進(jìn)行AI合作時(shí)。
例如,制造工廠的數(shù)據(jù)可以揭示參數(shù)設(shè)置、產(chǎn)品成分、產(chǎn)率、產(chǎn)量、路線和機(jī)器正常運(yùn)行時(shí)間。如果此類數(shù)據(jù)被泄漏,它可能會(huì)被客戶在公司談判中濫用或進(jìn)而幫助競(jìng)爭(zhēng)對(duì)手提高生產(chǎn)力和改進(jìn)產(chǎn)品。同時(shí)除了知識(shí)產(chǎn)權(quán)之外,一些深層的限制因素也會(huì)降低公司之間共享數(shù)據(jù)的意愿或傾向,例如公司間的信任程度、道德約束、保護(hù)公司用戶隱私權(quán)的法律法規(guī)以及網(wǎng)絡(luò)安全風(fēng)險(xiǎn)。因此我們需要一個(gè)保護(hù)數(shù)據(jù)隱私的解決方案,即在不暴露各公司的源數(shù)據(jù)前提下進(jìn)行模型推斷。
其次是跨公司間的合作需要考慮到領(lǐng)域偏移(domain shifts)的影響。領(lǐng)域偏移是指為不同公司使用不同配置機(jī)器或操作系統(tǒng)采集得到的數(shù)據(jù)分布不匹配。例如,來(lái)自一家公司采集到的機(jī)器數(shù)據(jù)可能不能作為另一家公司的代表性數(shù)據(jù)由于不同機(jī)器數(shù)據(jù)采集條件不一樣。領(lǐng)域偏移給潛在的推論帶來(lái)了障礙:在一家公司的數(shù)據(jù)上訓(xùn)練得到的模型可能表現(xiàn)不佳當(dāng)部署到另一家數(shù)據(jù)分布明顯不同的公司時(shí)。