因為 Cambridge Analytica 分析用戶信息進行操縱選舉的事件,Facebook如今深陷輿論旋渦,其CEO扎克伯格也在美國時間4月9日,即他出席美國國會聽證會的前一天與美國議員會面,并為Facebook不當使用用戶數(shù)據(jù)道歉。但是,F(xiàn)acebook并非唯一一家收集互聯(lián)網(wǎng)用戶數(shù)據(jù)用于商業(yè)或政治目的的公司。
超過5000萬Facebook用戶的記錄被收集,凸顯出在線用戶挖掘的危險性。而收集了這些數(shù)據(jù)的公司 Cambridge Analytica,則反映出了這些數(shù)據(jù)的各種利用可能性。Cambridge Analytica 用這些數(shù)據(jù)建立了5000萬用戶賬戶資料,然后在2016大選中用這些賬戶信息為共和黨候選人(特朗普)站臺。
然而,真正接受 Cambridge Analytica 承包商在線調(diào)查的用戶僅有27萬人。通過收集所有調(diào)查接收者社交網(wǎng)絡(luò)好友的信息,利用相對較少的用戶形成5000萬用戶的巨大數(shù)據(jù)庫,這種信息收集和利用能力顯露出了社交網(wǎng)絡(luò)的巨大力量。
與網(wǎng)上收集和用戶自愿提交不同,這次被搜刮信息的用戶絕大部分都是受害者,他們并沒有授權(quán) Cambridge Analytica 收集自己的數(shù)據(jù)。
這些數(shù)據(jù)根本就是從用戶手中強拿的,用戶本無意與任何第三方共享,尤其是這么一家之前根本沒聽過的公司。
Cambridge Analytica 從用戶那里騙到的個人信息的深度和廣度昭示著數(shù)據(jù)收集生態(tài)系統(tǒng)的危險性。然而,企業(yè)和政治活動人士才剛剛開始探索這些數(shù)據(jù)可以用來做些什么。除了可以直接推斷人們的政治觀點、健康問題和生活方式,Cambridge Analytica 還宣稱,人們的看法也是可以借此改變的。
Cambridge Analytica 事件中比較有趣的一點是,人們似乎傾向于輕視看起來像是廣告一樣的東西。但是,這些長得像廣告的東西向用戶饋送的,才是真正重要的。這并非單純的可口可樂vs百事可樂,它會扭曲你對時事的看法。
數(shù)據(jù)收集與分析公司能從你的線上數(shù)據(jù)中推斷出你的哪些屬性呢?
1. 匿名沒戲
互聯(lián)網(wǎng)上幾乎做不到匿名。即便對在線發(fā)布信息很謹慎的人都會發(fā)現(xiàn),通過數(shù)據(jù)收集和數(shù)據(jù)發(fā)布,大范圍分析往往能將看起來毫無關(guān)聯(lián)的事件或者匿名的活動聯(lián)系在一起。
比如說,2008年的一篇論文中,德州大學奧斯汀分校的研究人員就發(fā)現(xiàn),在IMDb上發(fā)布了幾條電影推介的用戶,就身處Netflix用于調(diào)研目的而發(fā)布的匿名電影推薦的大型數(shù)據(jù)庫中。
這種泄露能造成重大影響。給流行電影打分的人會發(fā)現(xiàn)自己被納入了更大的數(shù)據(jù)集,自己私下打過分的其他成百上千部電影都與自己關(guān)聯(lián)了起來。
電影評分可揭示出評分者的多種屬性,比如性向、政治偏好和健康問題。雖然不應該單單從電影偏好上進行推斷,但在許多工作和社交場合,對《同志亦凡人》這種同性戀主題電影所持的觀點(在Netflix觀影記錄中會有所體現(xiàn)),往往比較敏感。
來自社交網(wǎng)絡(luò)、地理位置數(shù)據(jù)和在線閱讀偏好的數(shù)據(jù)也可應用類似的關(guān)聯(lián)和分析技術(shù)。
2. 發(fā)現(xiàn)瀏覽習慣
瀏覽記錄能說明很多問題,而有興趣的公司和數(shù)據(jù)代理商就用各種各樣的辦法來收集此類信息。2016年,德國公共廣播電視公司NDR的一名調(diào)查記者和一名數(shù)據(jù)科學家發(fā)現(xiàn),名為 Web of Trust 的一款瀏覽器插件一直在收集300萬名德國用戶的瀏覽器歷史記錄。
由于很多社交媒體站點都在鏈接中帶有用戶ID,瀏覽器歷史記錄去匿名化并不難。某些案例中,僅僅知道某人使用的部分站點就足以在Web鏈接數(shù)據(jù)庫中找出他們。
完全不用瀏覽器插件也避免不了被標定的命運。某些情況下,各種漏洞就讓不道德的Web站點具備了發(fā)現(xiàn)瀏覽者是否瀏覽過其他站點的能力。這種“歷史嗅探”技術(shù)的用法很多,找到信息就像檢測鏈接是否被訪問過一樣簡單。
另外,廣告網(wǎng)絡(luò)還會從瀏覽過加載了其廣告的站點的任何瀏覽器上收集信息,在用戶瀏覽各個網(wǎng)站的時候通過安裝cookie或其他追蹤數(shù)據(jù)來標記用戶。廣告情報公司eMarketer的數(shù)據(jù)顯示,消費者對此類跟蹤技術(shù)的擔憂正是廣告攔截器使用率穩(wěn)步上升的原因之一——今年攔截器的使用率有望升至31%。
3. 確定政治立場
Cambridge Analytica 已因非法收集用戶數(shù)據(jù)用于政治活動建模而處于輿論的風口浪尖了。不過,該技術(shù)的準確率很大程度上取決于所用的數(shù)據(jù),也不是總那么準確。舉個例子,2013年,加拿大麥吉爾大學的2名研究人員發(fā)現(xiàn),其他研究論文就對通過機器學習檢測政治偏向性的能力太過樂觀了:驗證數(shù)據(jù)集的收集方式才是模型準確率的決定因素,不管過去的成果多么斐然,所用方法多么先進。
但是,機器學習和自然語言處理技術(shù)如今已然大幅進步。社交網(wǎng)絡(luò)提供商Lithium分析了推特用戶反饋,發(fā)現(xiàn)如果推文提到了其他用戶,其政治取向的分析結(jié)果就會更準確。僅包含沒提到其他用戶的推文的訓練數(shù)據(jù)集,其推斷準確性就比包含了提到其他用戶的數(shù)據(jù)集低了20%。
Facebook用戶能看到社交網(wǎng)絡(luò)與自身利益和政治取向的緊密聯(lián)系。
4. 確定性取向
無論是電影評分還是瀏覽器歷史記錄,太多在線數(shù)據(jù)可被用于猜測用戶的性取向。不僅如此,還有其他技術(shù)甚至可以用更少的數(shù)據(jù)來推斷用戶取向。比如說,一張照片。
2017年的一篇爭議性論文中,斯坦福大學的兩名研究人員發(fā)現(xiàn),神經(jīng)網(wǎng)絡(luò)可以檢測出人類面部特征與性向之間的聯(lián)系。部分人批評該研究是助長成見,還有其他研究則發(fā)現(xiàn)該識別引擎是對笑容和頭部姿勢之類的因素敏感。2018年,谷歌3名研究人員駁斥了該論文,他們發(fā)現(xiàn)一些詢問受訪者是否有某些特定習慣——比如戴眼鏡或留胡須等,也能得出相似的結(jié)論。
5. 健康狀況
消費者的購買習慣透露出有關(guān)其個人生活的很多信息。購物習慣足以確定消費者的健康問題,比如妊娠、糖尿病等。塔吉特百貨就曾為了提升其對準媽媽客戶的識別率,而爬取了大量購物數(shù)據(jù),發(fā)現(xiàn)了與妊娠緊密相關(guān)的20多種產(chǎn)品!都~約時報》2012年的一篇報道顯示,該公司甚至先于某高中女生的父親發(fā)現(xiàn)該名女生已懷孕。
消費者四處留下信息。商家知道哪些人酗酒,哪些人在找躁郁癥的治療方案,他們什么都知道。
而且,搜索結(jié)果中彈出的很多網(wǎng)站其實都在收集和售賣網(wǎng)站訪客的數(shù)據(jù),要么自己收售,要么通過第三方廣告商這么干。賓夕法尼亞大學一名研究人員搜索了2000種常見疾病,發(fā)現(xiàn)搜索結(jié)果中90%的網(wǎng)站和廣告網(wǎng)絡(luò)都在跟蹤訪問者的興趣點。
6. 偵測情緒
科技巨頭蘋果、谷歌和Facebook,還有Affectiva之類專業(yè)初創(chuàng)公司,都已經(jīng)開始分析用戶的社交媒體發(fā)布內(nèi)容來衡量用戶發(fā)布當時的情緒了。2014年的一份研究中,F(xiàn)acebook用機器學習基于情緒性內(nèi)容為社交媒體帖子進行了分類,發(fā)現(xiàn)正面和負面內(nèi)容都具有傳染性,情緒可通過社交媒體廣為傳播。
蘋果和谷歌也在找尋檢測并利用情緒的方法。在2016年收購了Emotient公司的蘋果,在其Animoji和 Face ID 中運用情緒跟蹤技術(shù)來捕捉并分類面部表情。谷歌則用情緒識別來分類圖像,并在其 Cloud Vision API 中為開發(fā)者提供該技術(shù)。
市場營銷人員期待將來會出現(xiàn)能自動偵測消費者挑選商品時情緒狀態(tài)的技術(shù),一些技術(shù)人員則認為情緒敏感的機器(比如能感知駕駛員路怒傾向的汽車)才是未來發(fā)展方向。比如說,MIT孵化的初創(chuàng)公司Affectiva,為大量應用程序分析了650萬張人臉以檢測情緒。
7. 位置軌跡
通過大多數(shù)人都隨身攜帶的設(shè)備——智能手機,用戶的地理位置變化軌跡可以很容易地被記錄下來。只要智能手機連接上基站網(wǎng)絡(luò),其信息就在蜂窩提供商那里掛了個號。2011年,德國一位政治家從其電信提供商處獲得了他的位置追蹤數(shù)據(jù),描繪出了他在6個月時間范圍內(nèi)的活動軌跡。
其他App也可能會收集用戶的位置信息,無論這些信息它需不需要。
而且,公司企業(yè)還會用其他方式收集消費者的位置信息。比如說,司法機構(gòu)和公司企業(yè)就會用自動牌照識別系統(tǒng)(ALPR)來追蹤套牌車。
總的說來,ALPR數(shù)據(jù)可以描繪出駕駛員的生活軌跡,甚至觸及美國憲法第一修正案所保護的那些活動。因為哪兒哪兒都用得到車牌,ALPR用于跟蹤記錄大量普通民眾的行動就有點煩人了,畢竟絕大多人都與犯罪無關(guān)。
EZPass和其他自動收費裝置也會記錄下用戶的位置。10月份,調(diào)查發(fā)現(xiàn),紐約市交通局利用EZPass脈沖轉(zhuǎn)發(fā)器跟蹤曼哈頓的交流狀態(tài)。
當前數(shù)據(jù)經(jīng)濟大環(huán)境和消費者隱私保護立法的欠缺,導致了數(shù)據(jù)收集市場的混亂,公司企業(yè)紛紛創(chuàng)建誘騙性服務,吸引消費者交出自身數(shù)據(jù)的使用權(quán),而且很多時候消費者甚至都沒有意識到自己交出了什么。消費者和互聯(lián)網(wǎng)公司之間需要有新的協(xié)議公約出現(xiàn),即默認情況下保護用戶隱私而非偏向廣告商利益的新公約。
來源:中國IDC圈
石家莊服務器托管 石家莊服務器租用 石家莊機柜租用 石家莊機房 |