AI社會(huì)學(xué)｜不，這不是“中國人在不在乎隱私”的問題

沈虹

2021-04-12 18:19

聽全文

這看起來像是發(fā)生在上個(gè)世紀(jì)的事。

2002年，初出茅廬的統(tǒng)計(jì)學(xué)碩士安德魯·波爾（Andrew Pole）在美國排名僅次于沃爾瑪?shù)倪B鎖超市Target開始打人生的第一份工。作為底層打工人，彼時(shí)他接到的任務(wù)是，從Target收集的用戶數(shù)據(jù)里（信用卡號、購買商品，年齡、性別等等），“找出”那些正在懷孕的女顧客。

對壓力山大的市場部來說，懷孕的女顧客們就是金礦——心理學(xué)家們很早就發(fā)現(xiàn)，在消費(fèi)者漫長的一生里，有少數(shù)幾個(gè)會(huì)徹底改變他們購物習(xí)慣的時(shí)刻，迎接新生命就是其中之一。如果一家超市能在顧客懷孕待產(chǎn)的階段針對性推送她們感興趣的商品優(yōu)惠券，準(zhǔn)媽媽們很可能就此被套牢，在嬰兒降生無暇他顧的時(shí)段里習(xí)慣性地從Target反復(fù)購物，從此成為該店至死不渝的忠實(shí)顧客。

Duhigg, Charles. "How companies learn your secrets." The New York Times 16, no. 2 (2012): 1-16.

問題是，要從茫茫汪洋般的用戶數(shù)據(jù)里找出可能正在懷孕的顧客，并不是一件容易的事。那時(shí)，統(tǒng)計(jì)學(xué)在海量用戶行為數(shù)據(jù)里施展神通的時(shí)代才剛剛開始。波爾反復(fù)對已知懷孕顧客的購物數(shù)據(jù)進(jìn)行分析，搭建了一個(gè)所謂的“懷孕預(yù)測模型”，以及與此模型相關(guān)的25項(xiàng)商品。

波爾發(fā)現(xiàn)，在懷孕的不同階段，女性顧客們購買的商品會(huì)呈現(xiàn)出非常相似的規(guī)律，例如懷孕初期她們會(huì)購買大瓶的無香身體乳，中期會(huì)購買一些維生素，孕后期則是大包裝的無香香皂和棉球。

根據(jù)Target已有的數(shù)據(jù)，波爾模型預(yù)測顧客懷孕的準(zhǔn)確率高達(dá)87%，如果一名顧客真的懷孕了，模型甚至能預(yù)測她們正處在孕期的第幾個(gè)階段，并推算出準(zhǔn)確的預(yù)產(chǎn)期。

在波爾創(chuàng)建“懷孕預(yù)測模型”一年后，一個(gè)中年男人走進(jìn)了Target 位于美國明尼蘇達(dá)州的門店，憤怒地向店員投訴，他還在上高中的女兒收到了各式嬰兒用品的優(yōu)惠券——“她還是個(gè)孩子！你們卻給她寄嬰兒搖籃和衣服的優(yōu)惠券？你們是想鼓勵(lì)她懷孕嗎？”很快，男人發(fā)現(xiàn)，他正在上高中的女兒真的懷孕了。

正如模型搭建者波爾所說：“We’ll be sending you coupons for things you want before you even know you want them” 。依賴真實(shí)可靠的用戶數(shù)據(jù)和統(tǒng)計(jì)模型，Target遠(yuǎn)在顧客的購物行為之前，就已經(jīng)預(yù)測到了購物意愿的發(fā)生。

這就是AI時(shí)代“隱私故事”的開始，如今，它仍在繼續(xù)。

AI時(shí)代行為預(yù)測的另一個(gè)里程碑，出現(xiàn)在2013年——鼎鼎大名的《美國國家科學(xué)院院刊》(PNAS) 刊發(fā)了由大衛(wèi)·斯蒂爾威爾（David Stillwell）和麥克·科辛斯基（Michal Kosinski）團(tuán)隊(duì)合作的論文 “Private traits and attributes are predictable from digital records of human behavior”(“人類行為的電子足跡可以預(yù)測私人特質(zhì)”)。

這篇論文依據(jù)臉書（Facebook）用戶的點(diǎn)贊數(shù)據(jù)建模，用以預(yù)測用戶的性格特征，迄今已有2000多次引用。論文使用的數(shù)據(jù)集為斯蒂爾威爾此前為臉書開發(fā)的第三方性格測試小工具myPersonality—— myPersonality使用經(jīng)典的心理學(xué)量表測量用戶的人格特質(zhì)（譬如開放性、穩(wěn)定性等等），當(dāng)時(shí)就吸引了多達(dá)600萬的臉書用戶。

論文發(fā)現(xiàn)，僅僅通過用戶的點(diǎn)贊數(shù)據(jù)，算法模型就可以精確地預(yù)測出用戶的某些性格和人口學(xué)特征。比如，模型對種族和性別的預(yù)測準(zhǔn)確度可以達(dá)到90%以上。當(dāng)然，模型還推算出一些只有相關(guān)性并無因果性的特質(zhì)，供君茶余飯后一笑。譬如，喜歡圈圈薯?xiàng)l（curly fries）的人可能智商相對較高，喜歡絲芙蘭（Sephora）的人可能智商相對較低；點(diǎn)贊游泳、《圣經(jīng)》、《傲慢與偏見》的人對生活滿意程度較高；而點(diǎn)贊《科學(xué)》雜志、iPod的人對生活的滿意程度較低。

誰也沒料到，這篇論文會(huì)成為日后臭名昭著的“臉書數(shù)據(jù)門”的起點(diǎn)。論文發(fā)表一年之后，斯蒂爾威爾和科辛斯基的劍橋同事、另一位心理學(xué)家亞歷山大·科根（Aleksandr Kogan），與英國數(shù)據(jù)公司“劍橋分析”（Cambridge Analytica）達(dá)成協(xié)議，由科根依葫蘆畫瓢式地寫了一個(gè)心理學(xué)小程序，在眾包平臺上雇傭臉書用戶填寫，并購買他們的行為和人口學(xué)數(shù)據(jù)。

值得注意的是，科根的小程序不僅收集和購買用戶數(shù)據(jù)，同時(shí)還收集用戶網(wǎng)絡(luò)里好友的數(shù)據(jù)——雪球越滾越大，到“臉書數(shù)據(jù)門”爆發(fā)的時(shí)候，“劍橋分析”號稱已經(jīng)掌握5000萬臉書用戶的行為數(shù)據(jù)。

這5000萬泄露的用戶數(shù)據(jù)到底在2016年美國大選和之后英國脫歐里扮演了怎樣的角色，迄今仍是個(gè)未解之謎。有人說“劍橋分析”完全可以利用算法推算出社交網(wǎng)絡(luò)上用戶的各項(xiàng)人口學(xué)特征、性格以及政治取向，從而針對性地發(fā)送政治競選廣告。譬如，對在民主黨和共和黨間搖擺的白人單身媽媽們狂轟濫炸特朗普的競選廣告。

“劍橋分析”對種種指控予以否認(rèn)。然而，不可否認(rèn)的是，“臉書數(shù)據(jù)門”曝光的2018年是臉書跌入谷底的一年，大佬扎克伯格從此頻頻出入國會(huì)聽證會(huì)，成為監(jiān)管部門的重點(diǎn)關(guān)注對象，臉書更在2019年被美國聯(lián)邦貿(mào)易委員會(huì)(FTC)課以高達(dá)50億美元的罰款。

之后，扎克伯格說，“我們有責(zé)任保護(hù)人們的隱私……我們要為我們的行業(yè)建立一個(gè)全新的標(biāo)準(zhǔn)。”

然而，這僅僅是隱私的問題嗎？

2017年，臉書開發(fā)了另一個(gè)人工智能算法，號稱可以通過用戶發(fā)表的帖子和帖子下面朋友的回復(fù)，找出那些具有“自殺傾向”的人。這個(gè)人工智能算法建立在行為模式識別的基礎(chǔ)上，在早先已經(jīng)被證明“有自殺可能”的帖子的數(shù)據(jù)集里進(jìn)行訓(xùn)練。從科技向善的角度上來說，這樣的算法當(dāng)然可以在早期進(jìn)行自殺干預(yù)，或是為用戶提供各類預(yù)防性求助服務(wù)。

但是，就在同一年，英國《衛(wèi)報(bào)》根據(jù)一份泄露的內(nèi)部材料報(bào)道說，臉書在某次與廣告商金主爸爸的內(nèi)部懇談會(huì)上聲稱，它可以通過其平臺上收集的數(shù)以萬計(jì)的用戶信息，實(shí)時(shí)監(jiān)控年輕人的情感狀態(tài)。換句話說，使用類似的人工智能算法，它可以知道哪些人在此時(shí)此刻正在感到“壓力大，焦慮，緊張，愚蠢，無用和失敗”；也可以知道哪些人正在討論健身、減肥和塑身，以及哪些人正在對自己的外表和體型感到不滿。盡管《衛(wèi)報(bào)》并沒有正面討論臉書收集這些數(shù)據(jù)和搭建模型的目的，但由于報(bào)道采用的內(nèi)部材料是臉書為廣告商們準(zhǔn)備的，其算法的目的基本不言自明。

很長一段時(shí)間里，我們對科技平臺收集數(shù)據(jù)的警覺和干預(yù)，停留在“隱私”的層面。決策者和立法者們會(huì)說，用戶數(shù)據(jù)屬于隱私，有關(guān)平臺在采集數(shù)據(jù)時(shí)，應(yīng)秉承“公開透明”的原則，告知用戶數(shù)據(jù)收集的種類、過程和方式，并取得用戶的“同意”。

然而，在AI時(shí)代，完全的“公開透明”可能嗎？傳播學(xué)者馬修·克雷恩（Matthew Crain）的回答是“否”。在那篇題為“The limits of transparency: Data brokers and commodification”（“透明的局限：數(shù)據(jù)掮客和商品化”）的著名文章里，克雷恩指出，對平臺來說，用戶數(shù)據(jù)早已經(jīng)不再是數(shù)據(jù)，而是商品。而用戶數(shù)據(jù)商品化的過程，注定了數(shù)據(jù)會(huì)在不同平臺和黑市里被打包，經(jīng)由數(shù)據(jù)掮客（data broker）的轉(zhuǎn)手，被層層交易至任何平臺、組織或個(gè)人都無法溯源的層面。也就是說，在用戶數(shù)據(jù)問題上，真正的“公開透明”是不存在的。為此，克雷恩建議從源頭上杜絕個(gè)人信息的商品化，也就是改變平臺通過變賣用戶數(shù)據(jù)及其衍生產(chǎn)品“算法”來盈利的模式。

另一批學(xué)者則對用戶數(shù)據(jù)的屬性進(jìn)行追問——用戶數(shù)據(jù)是隱私嗎，或者，僅僅是隱私嗎？在“隱私”的框架下，用戶數(shù)據(jù)是屬于個(gè)人的，但事實(shí)上，在AI算法的眼里，是沒有完全“個(gè)人”的數(shù)據(jù)的——算法可以從你個(gè)人的數(shù)據(jù)里推算出跟你類似的那群人的喜好。比如，網(wǎng)飛（Netflix）會(huì)告訴你，因?yàn)閯倓偪催^《哈利波特》的人都繼續(xù)看了《指環(huán)王》，你可能也會(huì)喜歡《指環(huán)王》。換句話說，你的數(shù)據(jù)其實(shí)并不僅僅屬于你個(gè)人。

杜克大學(xué)的公共政策學(xué)者飛利浦·那不勒斯（Philip M. Napoli）認(rèn)為，在“隱私”框架下將數(shù)據(jù)私人產(chǎn)權(quán)化，其實(shí)錯(cuò)誤地理解了AI時(shí)代數(shù)據(jù)的價(jià)值。他以新近出現(xiàn)的“付費(fèi)換隱私”的操作為例。

近來有不少初創(chuàng)公司承諾不收集用戶個(gè)人信息，前提是該用戶定期支付一定的費(fèi)用——通常是5美元/月。也就是說，用戶每個(gè)月付5美元，就可以換取個(gè)人數(shù)據(jù)不被收集的“隱私權(quán)”。這種操作的弊端是顯而易見的：

其一，將“隱私”和“個(gè)人數(shù)據(jù)”明碼標(biāo)價(jià)，嚴(yán)重?fù)p害了弱勢群體的利益——如果你付不起每月5美元，是否說明你就不配享有隱私權(quán)？

其二，單獨(dú)個(gè)體的數(shù)據(jù)也許只值5美元/月，100萬個(gè)用戶的數(shù)據(jù)合起來，通過算法建模，其價(jià)值可能難以估量——可以被用來預(yù)測城市交通、流感趨勢，乃至下一屆大選。

平臺權(quán)力的起點(diǎn)也許是5美元/月的個(gè)人數(shù)據(jù)，然而，定義其權(quán)力邊界的卻是數(shù)以萬計(jì)的群體數(shù)據(jù)。

那不勒斯因此認(rèn)為，用戶數(shù)據(jù)應(yīng)該從私有平臺里分離，被歸類為“公共資源”，并受到政策法律的強(qiáng)力監(jiān)管。

2018年，百度大佬李彥宏曾在某次采訪里說：“我想中國人可以更加開放，對隱私問題沒有那么敏感。如果他們愿意用隱私交換便捷性，很多情況下他們是愿意的，那我們就可以用數(shù)據(jù)做一些事情?！?/p>

從前我們常常會(huì)問“中國人真的不在乎隱私嗎”；現(xiàn)在這句話的關(guān)鍵也許在于，“用數(shù)據(jù)做什么事情？”

大型科技平臺有權(quán)在用戶情感脆弱的時(shí)刻推送個(gè)性化——譬如減肥/瘦身/整容——的廣告嗎？它們有權(quán)在用戶人生的關(guān)鍵時(shí)期——譬如懷孕時(shí)——發(fā)送能改變用戶終身購物習(xí)慣的優(yōu)惠券嗎？它們有權(quán)根據(jù)用戶不同的人格特征和性格取向推送可能影響選票的政治選舉廣告嗎？

上文說到臉書的“自殺預(yù)測”算法，它既可以用來提供對弱勢群體的公共幫助，也可以用來推送針對性的廣告。但是，如果一家平臺的廣告收入占到其總收入的90%以上，這樣的算法更有可能被用來做什么呢？

2020年的最新數(shù)據(jù)顯示，即使在全球瘟疫大流行時(shí)期，臉書的總收入仍強(qiáng)勢逆襲，同比增長22%，達(dá)到860億美元，其中廣告收入增長21%，達(dá)到842億美元。這一年，廣告收入占到其總收入的98%。

顯然，臉書并不是唯一一家以廣告為生的科技平臺。

參考文獻(xiàn)：

[1] Duhigg, Charles. "How companies learn your secrets." The New York Times 16, no. 2 (2012): 1-16.

[2] Kosinski, Michal, David Stillwell, and Thore Graepel. "Private traits and attributes are predictable from digital records of human behavior." Proceedings of the national academy of sciences 110, no. 15 (2013): 5802-5805.

[3] Kelion, Leo. "Facebook artificial intelligence spots suicidal users." BBC News, March 1 (2017).

[4] Levin, Sam. "Facebook told advertisers it can identify teens feeling insecure and worthless." The Guardian 1 (2017).

[5] Crain, Matthew. "The limits of transparency: Data brokers and commodification." new media & society 20, no. 1 (2018): 88-104.

[6] Philip M. Napoli, "Who should own your digital data?" The Hill, 2019.

[7] “李彥宏：中國人多數(shù)情況下愿意用隱私交換便捷性”，http://news.sina.com.cn/s/wh/2018-03-26/doc-ifysrivq8493582.shtml

-----

作者沈虹，畢業(yè)于美國伊利諾伊大學(xué)香檳分校傳播學(xué)系，現(xiàn)任職于美國卡內(nèi)基梅隆大學(xué)。她用社會(huì)學(xué)的方法研究新興科技。

責(zé)任編輯：單雪菱

校對：丁曉

澎湃新聞報(bào)料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報(bào)