機器也有偏見 AI演算法仍須「留校察看」
AI決策的公正與否,在很大程度上取決於人工智慧訓練演算法所使用之測試資料集的準確性和完整性,而且取決於演算法本身的準確性,以及如何做出「成功」的決定。
人工智慧(AI)在各個領域似乎被吹捧為在各種應用領域實現自動化決策的「聖杯」;AI被認為可以做得比人類更好或更快的一些典型案例,包括在Netflix推薦電影、檢測癌症、依據每位訪客瀏覽電子商務和零售網站的習慣提供最佳使用者經驗,還有客製化車載資訊娛樂系統等等。其他特殊的自動化系統應用案例還包括能釀造出更好的啤酒、把人們的思緒轉換為語言,或譜寫出速度快到你無法想像的死亡重金屬音樂。
但這些自動化系統也發生過一些驚人的失誤:例如原本被視為黃金典範的自駕車,因為去年發生一輛Uber自駕車撞死行人的事件,而被證明AI尚未完全成功。但有越來越多的AI系統被用來進行與人相關的決策,包括他們該住哪裡、該做什麼工作、是否能投保還有投保費率會是多少、能得到什麼樣的抵押貸款,美國的國土安全部還會利用臉部識別功能判別某些人是否為恐怖分子。
AI決策的公正與否,在很大程度上取決於人工智慧訓練演算法所使用之測試資料集的準確性和完整性,而且取決於演算法本身的準確性,以及如何做出「成功」的決定。訓練演算法的最佳化策略如果是為了實現整個群體的最大整體精度,實際上會放大偏誤(bias)。
瞭解資料如何會生偏誤非常重要,雖然資料在一開始就有偏誤的想法聽起來並不合理。資料集有時候是因為不夠完整而造成偏誤:資料無法反映真實世界。如Edge Case Research共同創辦人暨執行長Michael Wagner先前於EE Times發表的一篇文章「小心AI偏誤為安全性帶來衝擊!」所提出的例子,自駕車在感測器資料上的AI訓練資料忽略了兒童、坐輪椅的人或穿著螢光背心的建築工人。
而即使資料確實反映了真實世界,如果所謂的「真實世界」仍包括舊有的社會不平等現象,仍有可能存在偏誤。例如某些人口次群體(subgroups)──可透過種族、性別和地理區域等分類判別,因為某些社會偏見讓這個族群在特定工作上被雇用的機會遠低於其他族群──也許從來沒有在某種工作職缺上被雇用,這個事實會被演算法的數學偏誤放大(如果像往常一樣,演算法針對資料庫的一般群體中誰擔任過這項工作進行最佳化),它會有效忽略那些少數族群,自動產生判斷上的偏誤。
關於AI演算法放大資料集的偏誤,有一個例子發生在幾年前,美國維吉尼亞大學(University of Virginia)研究人員所做的實驗發現,與人們相關的烹飪、購物、運動等日常活動影像資料集有高度的性別偏誤,因為其中有許多女性在烹飪與購物的影像,卻很少有女性在運動的影像,而男性的影像資料正好相反;雖然這種差異可能並不令人意外,但機器學習演算法在這些偏誤性的資料集上進行訓練後,會發生什麼事情就另當別論了。
研究人員發現,訓練演算法不僅反映、更放大了這些偏誤,以至於經常會將男性烹飪的照識別為女性在烹飪;而該維吉尼亞大學發表的論文上刊登了一張有個男人在爐子邊煮菜的圖片, 但AI演算法在上面做的標籤是「女人」。
圖1:這張1969年的圖表顯示了一個簡單的演算法如何根據三個投資標準來評估林業商機。
(資料來源:「A computer program for evaluating forestry opportunities under three investment criteria」,Chappelle, Daniel E.)
偏誤可能導致AI演算法錯誤
就算去除人類元素,這類偏誤仍然存在而且但難以察覺;直到有人發現在智慧型手機上測試臉部辨識功能,卻有三分之一的手機無法正確運作,或是美國住宅與都市發展部(Department of Housing and Urban Development)控告Facebook廣告平台助長歧視性住宅廣告。
還有一個雖然與AI偏誤無關,而是AI可能犯錯的驚人案例:正在研究訂價演算法(被像是Amazon等電子商務網站使用)的義大利波隆那大學(University of Bologna)研究人員發現,在他們的實驗中,有兩個基於強化學習(reinforcement-learning)的訂價演算法會對彼此的行為做出回應,然後「聯手」設定出比它們分別訂價更高的價格。
AI最常被提到的公正性失誤案例來自於臉部辨識,雖然這可能不會直接影響到許多工程師正在開發的AI應用程式,但是我們有充分的理由注意那些錯誤分辨與分類不同性別、種族臉部影像的問題。至少,這些是明確的、容易理解的案例,顯示若未採用「前瞻工程(foresight engineering)」會產生什麼後果。
還有可能發生的是,銷售AI系統的公司將開始面臨其產品導致之損害而產生的責任歸屬問題;這在保險業界已經受到關注(保險業是AI系統的早期採用者,用於自動化重複流程和執行風險分析)。去年,保險業者Allianz Global Corporate & Specialty進行一項研究發現:「隨著決策責任從人轉變到機器,公司也將面臨新的責任情境(liability scenarios),需要建立新的架構管理AI所帶來的損害。」
儘管AI可能會代理人類做出一些決定,但無法為這些決定負責;若是AI系統因為任何功能上的失誤導致使用者的任何損害,製造商或程式設計師仍可能得承擔這些責任──是的,你沒看錯,這裡寫的是「程式設計師」。
跨國會計師事務所KPMG International旗下的管理顧問公司Forrester Consulting有一項調查顯示,92% 的企業高階主管擔心資料和分析──包括對AI的使用──對商譽的影響,只有35%的人高度信任自己公司所使用的這些技術(參考圖2)。
圖2:有很高比例的企業高層主管憂慮所採用AI等資料分析技術影響商譽。
(圖片來源:KPMG International)
連Amazon的臉部辨識技術也出錯
在2018年發生了一件受到高度關注的臉部辨識失誤案例,是非營利組織美國公民自由聯盟(ACLU)調查發現,Amazon的臉部識別工具Rekognition錯誤識別28名美國國會議員──Rekognition在進行照片資料庫比對時,將那些包含民主黨和共和黨的國會議員「判定」為曾被逮捕的罪犯。在不成比例的錯誤比對結果中,有近40%是有色人種(儘管他們只佔美國國會議員總數的20%),包括6位非裔國會議員連線(Congressional Black Caucus)的成員。
ACLU北加州的技術和公民自由律師Jacob Snow在發表實驗結果的部落格文章中寫道:「為了進行測試,我們採用Amazon提供大眾使用的相同臉部辨識系統,任何人都可以使用該系統來掃描臉部影像進行比對。我們利用2萬5,000張可公開取得的罪犯照片在Rekognition建立一個臉部影像資料庫與搜尋工具,然後以所有美國國會參、眾議院議員的公開照片,使用Amazon為Rekognition的比對預設模式,在資料庫進行搜尋比對。」
而實驗結果出爐,ACLU擔心若美國警方執法部門利用Rekognition技術,可能會讓警察因為受到錯誤的比對結果指示──例如某人有私藏武器前科──而不能做出公正判斷。Snow寫道:「研究結果表明了美國國會為何應該支持ACLU對執法部門應該暫停使用具備臉部辨識功能保全技術的呼籲。」
上述測試結果公開之後引起輿論一片譁然,有超過400位學術界人士、近70個民權團體,以及超過15萬美國公民,包括Amazon員工與股東,都要求Amazon停止將臉部辨識保全技術銷售給美國警方。最近還有來自學術界和產業界的50多名AI研究人員共同連署一封公開信,要求Amazon停止銷售其臉部辨識技術給美國執法部門。
圖3:美國公民自由聯盟以Amazon的Rekognition臉部識別技術進行實驗,發現有28位美國國會議員的身份被錯誤識別,被認定為曾被逮捕的罪犯。
(資料來源:ACLU)
在一篇題為「如何防止AI成為種族主義怪獸」(How to Keep Your AI from Turning into a Racist Monster)的文章中,作者Megan Garcia指出:「演算法偏誤最棘手的問題之一,是工程師們一定要有種族主義或性別歧視,就能開發出有偏誤的演算法。在我們越來越相信科技比人類更加中立的時代,這(演算法偏誤)導致了一種危險的局面。隨著科技產業開始打造AI,有可能將種族主義和其他偏見導入程式碼,進而影響之後的決策。由於深度學習意味著會是由那樣的AI程式碼來撰寫程式碼,而非人類,因此更需要根除演算法偏誤。」
以上的案例說明,AI的偏誤(特別是關於種族、性別、年齡或地域的社會偏見)並非故意,但是當「黑盒子」內部的自動化執行時,可能反過來產生無意識的歧視。這使得儘管技術面準備就緒,但對於它是否會做出公正、準確的自動決策,沒人有太大的信心。而我們至少應該停下來思考一下,機器學習到底需要哪些輔助──是更好的資料集?更精細調整的演算法?審核程序?──以確保我們過去的偏誤不會影響到現在與未來的決策。
本文同步刊登於電子工程專輯雜誌2019年7月號;編譯:Patricia Lin;責編:Judith Cheng
(參考原文:AI Behaving Badly,by Ann R. Thryft)
訂閱EETimes Taiwan電子報
加入我們官方帳號LINE@,最新消息一手掌握!