10月16日由中國科學技術協會主辦,中國科協企業創新服務中心和中國通信學會承辦的2021“科創中國”企業創新大家談第二期活動在江蘇無錫舉辦,活動以“數字化轉型與企業創新”為主題,圍繞解讀國家相關政策和規劃綱要,分享數字化轉型創新成果進行深度交流對話,推進信息通信技術與工業經濟深度融合,賦能傳統產業轉型升級。主旨報告會上,東南大學移動通信國家重點實驗室沈連豐“聯邦學習及其在企業創新中的應用”為主題進行分享。
沈連豐認為,聯邦學習本質上應該是在機器學習的范疇,關于人工智能,例如人機對弈,實際上是總結了30萬局的棋藝,看起來是一個機器人跟人在下棋,實際上是一個龐大的團隊在跟一個人在下。
人工智能在進行大數據分析和建模的時候,通常是把分布在網絡設備中的海量數據進行集中式的存儲和處理。比如兩個公司簡單的數據交換都存在著很多法規所不允許的情況,原因在于數據是用戶所擁有的,越來越多的國家規定這些數據如果沒有得到用戶的允許是不可以隨便亂用的。商業公司所擁有的數據往往有著巨大的潛在價值,包括每個人的個人數據都存在著很大的商業價值,這樣相互之間是不可以交換的,交換以后存在著很大的問題。
用機器學習來感知環境、獲取知識,這個時候給用戶的隱私保護和數據安全就帶來了比較大的困難,這就是我們所面臨的一個問題。
如何在滿足數據隱私安全監管的前提下,設計一個機器學習的框架,既能夠滿足國家的法律法規不把這項數據泄露,又能夠解決問題,這個模型又好用,解決數據孤島的問題,這是一個出發點。
研究的結果,有些人提出了所謂的聯邦機器學習,把研究的重點轉移到如何解決數據孤島的問題,于是就出現了聯邦機器學習,并且認為聯邦機器學習是解決上面這個問題的一個可行的解決方案。
首先是5年以前Google提出來,核心思想是參與方通過自身算力對本地數據進行模型訓練,旨在與中央服務器的往復通信過程中交互模型的參數信息,從而使得聯邦建模的效果和將整個數據集放在一起集中建模和訓練的效果,能夠大致相同或者參與方對這個模型能夠有益,能夠得到應用。使各個智能體在不共享數據的情況下能從技術上打破數據孤島,實現人工智能的協作,降低智能體隱私泄露的風險。
根據這個定義,聯邦學習總結了五個特性:
一是各方數據都保留在本地,不泄露隱私、不違反法規(只上傳參數);二是多方聯合數據建立在虛擬的共有模型、共同獲益的體系(聯邦平均、任務激勵);三是各方身份和地位平等(用戶可靠性、數據質量有差異);四是在各方數據對齊或特征對齊的條件下,聯邦學習的建模效果和將整個數據集放在數據中心建模的效果相同向相差不大(橫向聯邦、縱向聯邦);五是遷移聯邦學習。
構成主要是三大要素:數據源、聯邦學習系統以及用戶。在聯邦學習系統下各個數據源進行數據的預處理,共同建立機器學習模型,并且將它輸出結果再反饋給用戶。也就是說它要先把學習的結果,把參數要向公共網絡進行輸送,大家學習的結果學習的模型再送給用戶,經過多次的反饋,形成一個前面說的大家都有用。在這樣一個構思下,大家積極參與,要把參數向上,有用沒有用,結果要反饋。構成的要素,首先要考慮目標函數,考慮約束條件以及目標。
這是激勵機制,這是兩個方面,所有的機器學習總歸是有這個激勵機制讓大家積極參與,能夠獲益,能夠使得大家能積極參與才能獲益,要做一些制度設計。
實際的應用,有兩個方面,一是關于輔助治療,在十大示范工程里就有智慧醫療。實際上用人工智能學習的方式來進行智慧醫療,已經有了40多年。南京中醫藥大學通過人工智能把老中醫的一些經驗形成機器對話,有很多新的概念加進來,其中聯邦學習是新的概念,也把它加進來。
沈連豐認為這是可以把更多的數據源能夠進行聯合學習,如果有更好的模型,再反饋到各個數據孤島,各個醫院或者各個醫生,大家積極地參與。通過我們的機制,如果能夠積極地參與這種活動,就可能會獲益多一些,越積極獲益越大,基本上以這樣一個思想來做。
在江蘇省物聯網示范工程里,現在的工信廳,已經有很多醫院都做了用類似于物聯網的概念來進行人工智能的方法。確實會存在著數據會不會泄露,跟現在聯邦學習所說的面臨的這個情況是具有極大的吻合性,所以通過聯邦學習有可能能夠解決。
第二,自動駕駛。主要是在霧天的盲駕駛,在南方一年大概有三個季節會上大霧,有大霧高速公路是不能上的。在霧天的輔助駕駛,通過各方的學習,通過電子屏幕來開車,不是看著外景來開車。后來逐漸地被人工智能自動駕駛,現在從L1到L5,很完善的一個自動駕駛的思路。自動駕駛非常有潛力,聯邦學習在自動駕駛方面也有它的用武之地。