elish的蘇哈地: 大數據的傲慢與偏見：一個「圈內數學家」對演算法霸權的警告與揭發

大數據是近年來最流行的概念之一，也十分確切的影響每個人的日常生活。應該很多人都有隨便在網上搜尋了什麼，隔天電子信箱立刻收到一堆相關廣告信的經驗。剛開始覺得這真是特級的毛骨悚然，到底那邊串來的，明明是不同企業的服務啊啊啊！

而且那怕上網時盡可能維護隱私，選取我同意前也會仔細閱讀條款。但該怎麼說呢，隨著時間過去好像也漸漸習慣「凡走過的必留下痕跡」的事實，隱私和方便間的掙扎結果也總是傾向惰性，不知不覺間……嗯，早已成為全球化數據LCL的一部分了呢 ~（崩潰笑）

至此我想已經沒人會否定大數據的影響力有多大，但對其應用之廣泛及深入的實感究竟足不足夠又是另一回事，更別提大數據可能被惡用或誤用的概念了。

本書作者凱西．歐尼爾（Cathy O’Neil）是前華爾街知名公司的量化分析師，自幼熱愛數學也希望能發揮所長。但金融海嘯讓她對原本的工作徹底幻滅，轉職後認真檢討起「數學毀滅性武器」，也就是某些根本各種鬼扯白爛的大數據模式及其應用方式，而相關批評也正是本書主題所在。

社會科學領域引入大（或者根本不大但總之各式各樣）數據進行量化分析的作法早已成為當前主流，而且這樣的研究方式往往被蓋上「更高級」的印章，社會學家蘇西耶．凡卡德希便曾在他的著作「地下紐約：一個社會學家的性、毒品、底層生活觀察記」中，約略提及對學界當前傾向的批評。

學術成果當然會間接影響政府施政（但有意思的是也有調查指出，隨著美國社會學界越往算數學的方向走去，對社會大眾的影響力反倒變得越來越低），但到底還是跟現實運作沒那麼直接相關。

可當企業或政府也開始直接對大眾使用類似的數學模型時，結果便和哈利波特劫盜地圖的使用密碼「我們絕對不懷好意」相似，只不過對「數學毀滅性武器」而言這句話不只是個玩笑，還可能令許多人跌入深淵、徹底失去追尋生命中美好的可能性。

作者在書中介紹許多數學毀滅性武器所造就的災難，比如運作機制不透明、不容許申訴亦無法事後修正的模型，使得求職、保險與選舉制度的公正性都面臨嚴酷考驗。糟糕的模型可能讓一個沒有作弊的優秀教師失業，也提供掠奪性廣告從窮人口袋中挖出足以令其人生崩潰的金錢。

大企業利用大數據計算出最適合的人力配置方案，卻忽略那會毀了員工的健康、生活品質，以及追求向上發展的可能性。計算使用「指標」無法完全反應現實的大學排名，讓大學經營成了論文與金錢的軍備競賽，不但讓爭取入學機會這件事變成災難一場，大多數人更難以負擔節節升高（卻又不知道實際運用是否利於學生）的學費。

警察利用大數據決定嚴加執法的地點和頻率，結果變成專找貧窮社區抓一堆如果是中上階級根本不會被列管的微罪。法官參考計算再犯率的數學模型來決定刑度，結果模型卻列入一大堆和罪行本身沒有關係的周邊因素，讓社經弱勢之人的刑期被判得更長。

不用說上述兩種狀況都會形成嚴重的惡性循環，使用數學毀滅性武器的人往往愉快地將此後果認定為計算得證無誤，但那一切僅是錯誤的數據解讀，以及模型建構持續「製造結果」並藉以自我證明罷了。

透過作者分析不難發現許多錯誤都十分明顯，對其結論不容質疑的制度也相當詭異。但很遺憾在這個人類無比迷戀科學與數字的時代，彷彿只要是透過計算得出的結論，便擁有某種比擬超自然存在的權威。

不瞭解計算過程及其專業的人們只能帶著疑惑的接受既成事實，即使有異議往往也只會被嘲諷（文組哈哈文組）。至於擁有技術的人們則反過來，有些得了大頭症，另一些……誤用即是其本意，惡用更是有利可圖。

從2008年金融崩盤後金融工程師德爾曼和威爾莫草擬的誓言，不難看出相關業界當前問題所在：

『我將記住：世界不是我創造出來的，而且世界也不是我的方程式所描述的那樣。

雖然我將大膽使用模型來估算價值，我不會報高估數學的作用。

我絕不會為了使模型變得簡潔一點而忽視現實，除非我能提出合理的解釋。

對那些使用我的模型的人，我不會令他們誤以為我的模型很準確。我會明確指出我的模型作了那些假設和忽略了什麼。

我明白我的工作可能對社會和經濟產生巨大的影響，而且許多影響不是我能理解的。』

未免太恐怖了吧，這個。

無論是懂還是不懂建立大數據模型的專業，很多時候人們都會產生錯覺，忘記那些模型都是複雜現實的簡化縮影，一不小心便把純粹的數字當作真理，忽略人類社會那極度難以預料的有機性。結果呢？結果就是悲劇，特別是這些模型基於善意或惡意施加於每個人身上時。

數學毀滅性武器（weapons of math destruction）莫過如此。

大數據的傲慢與偏見：一個「圈內數學家」對演算法霸權的警告與揭發（Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy）以清晰易懂的方式介紹大數據數學模型，在美國社會（以及全球性）當前普遍的應用方式。

內文大量介紹惡用及誤用的案例，明確批評其問題所在並企圖提出管理方式（包括立法控管，並依專業重建模型，這有時更需要跨學科的專業），並些微探討諸多企業的大數據演算法可能帶來怎樣的麻煩。

數學本身沒有問題，但錯誤的使用方式將會罔顧公平、創造災難，使既得利益者更加富有，中低階級將會逐漸（或迅速）失去重要的事物。而這一切將透過數學毀滅性武器的大規模應用，不斷在惡性循環中自我驗證，彷彿這很合理、世事本即如此。

要想阻止這點便需要整個社會普遍意識到這點，而且認真看待這件事，並發起夠大的聲音讓政府立法控管，並牽制企業惡用大數據模型的可能性。而這也正是作者寫下本書的主要目的，一切的一切都從知道開始，若非科班出身也沒有類似專業，淺顯易懂的本書肯定是不錯的出發點。

這就還不提，即使應用結果無誤，我們還是有一堆麻煩在啊。

elish的蘇哈地

2019年9月10日

大數據的傲慢與偏見：一個「圈內數學家」對演算法霸權的警告與揭發

沒有留言:

張貼留言

熱門文章