互動資料或可長期用於識別匿名個體|《自然-通訊》論文

《自然-通訊》發表的一篇論文

Interaction data are identifiable even across long periods of time

指出,人際互動資料或可長期用來識別匿名資料集中個體的身份。

研究結果表明,處理這類資料的現行做法可能並不符合歐盟《通用資料保護條例》(General Data Protection Regulations,GDPR)的匿名化標準。

為了開展服務或出於研究目的,簡訊應用、手機運營商、社交媒體平臺和其他應用都會收集細粒度的互動資料。這些資料已被用來研究個體間的互動模式,預測流行病的空間傳播,以及評估友情對政治動員的影響。根據當前的資料保護條例,這些資料無需徵得使用者同意就能分享和出售,但前提是資料必須匿名。

英國帝國理工學院的Yves-Alexandre de Montjoye、Ana-Maria Cretu和同事發現,人們的互動資料能保持長期穩定,這或許能用來識別匿名資料集中個體的身份。作者開發了一款基於深度學習的模型,他們訓練這個模型根據個體的互動網路來識別他們的身份,並應用於一個在不同時期收集資訊的逾4萬人的資料集。

該模型能基於個體的 2級

(2-hop)

互動網路

(與目標個體相隔1人的個體互動)

識別出52%的人,基於個體的直接

(1級)

互動網路識別出15%的人。

由於這類互動網路能保持長期穩定,作者在20周後還能用個體的2級互動網路識別出24%的人。當作者將該模型用於一個587人的藍芽近距離資料集時,該模型可以識別出超過26%的人。但作者也指出,他們不認為該模型適用於針對防疫的接觸者追蹤協議,比如谷歌和蘋果的暴露通知(Exposure Notification)。

作者認為,他們的結果表明,匿名化、非連線互動資料或具有長期可識別性,這可能對隱私保護條例的遵守具有啟示意義。他們認為,接入控制和隱私增強系統這類安全措施或能防止這種個人身份被識別的情況發生。

互動資料或可長期用於識別匿名個體|《自然-通訊》論文

人際互動資料設定。來源:Cre uet al。

Nature