想讓人工智慧(AI)更聰明,需要提供更多資料讓機器學習,但這些資料往往牽涉到用戶隱私。如同Google Allo雖然打出「最聰明的即時通訊」口號,卻為了增進智慧回覆功能而犧牲用戶隱私,飽受抨擊;相較下,以不侵犯用戶數據為原則的蘋果Siri,雖然是虛擬助手的鼻祖,至今卻仍只能處理簡單任務。
現在,Google和OpenAI的研究或許可解決,過去發展人工智慧面臨「精準」和「隱私」只能二選一的難題。
「學生」演算法模仿實際接觸數據演算法的決策行為
根據外媒《Quartz》報導,Google和人工智慧開源組織OpenAI攜手開發一套「人工智慧學習模組」,可以不侵犯用戶隱私、卻又保有透過大數據讓機器學習更精準的效果。
負責該研究的OpenAI研究員Ian Goodfellow,將這套人工學習系統比喻成醫學院。
擁有豐富臨床經驗的醫生,不須洩漏病患資料便可將知識和經驗教給學生。同樣的,這套演算法類似「學生」角色,其運算結果由多位實際接觸數據的「老師」投票決定,因此學生就算不用實際接觸每位病人的個資,也能模仿老師的決策行為。
Goodfellow指出,想要透過該演算法回推原始數據非常困難,原因在於需要多名「老師」才能教好一名「學生」,在這項研究中,一套學生演算法就對應到250套老師演算法。
採「差別隱私」技術,不用存取數據就能學習整體決策
這套方法其實是一種「差別隱私(differential privacy)」技術,可以不侵犯個別用戶隱私,卻依然從整體資料中學習有用資訊;依賴的不是特定數據,而是所有數據的集合。因此,儘管AI是反向工程,可按照決策結果回推原始數據,但駭客仍無法從這套演算法獲得任何個人資訊。
過去,蘋果iOS 10也用了差別隱私技術,即在用戶數據上加上無意義的「噪音」加密後,大量且隨機挑選的資料才會被上傳到蘋果伺服器供機器學習。
目前Google的照片辨識AI僅限於在個別用戶中訓練,不會跨帳戶學習;有了這套系統,處理個別用戶數據的AI就像「老師」,不用透露用戶資料,就可以教導作為「學生」的Google照片辨識演算法如何辨識臉部和物體。
資料來源:Quartz、The Verge、Semi-supervised knowledge transfer for deep learning drom procate training data