来自科技 2019-11-26 12:57 的文章

AI正学会所有偏见！精华与糟粕通吃，算法偏见更

　　两天时间洞见未来五年

　　人工智能学习人类知识，同时也吸收人类偏见。这种担忧由来已久。但谷歌的一项新发明极大推进了人工智能从文本材料中学习的速度，也使解决机器偏见问题迫在眉睫。

　　10月25日，谷歌宣布利用BERT来优化搜索引擎，已经使英语搜索结果的匹配度提高了10%左右。未来，谷歌还会推出学习其他语言和国家的算法。

　　BERT是谷歌在2018年开发的一种基于神经网络的NLP技术，它能一次接收整句话，而非从左至右（或相反）逐字接收。这使得如果有人要搜“在没有路缘的山坡停车”，BERT能认出“不要”，从而给出正确的搜索结果。而传统搜索引起只会关注“路缘”和“山坡”，给出与搜索意图相反的结果。

　　图|BERT能更好识别“在没有路缘的山坡停车”句子里的“没有”一词，从而理解人类意图（来源：https://blog.google）

　　让人们担忧的是，BERT的学习材料正来自数字化书籍和新闻文章。在BERT学会一切之前，人们没有时间来清理其中根深蒂固的偏见。而这些偏见一旦被算法吸收，将更难辨认，也更难清除。

　　“形象一下在AI世界长大的孩子。他们在谷歌搜索CEO照片，冒出的大部分是男性。他们又搜索个人助手，大部分是女性。”KritiSharma在一次TED相关演讲中说。卡耐基梅隆大学的计算机科学家已研究证实，BERT倾向于将程序员与男性联系起来。

　　另一位计算机科学家RobertMunro发现，展示给BERT100个单词，包含马、婴儿、房子、珠宝等。BERT会认为大部分与男性有关，仅妈妈是个例外。

　　“BERT改变了一切，你可以教它所有技巧。”NLP初创公司Primer的科学主管JohnBohannon说。Munro则认为，不平等现象一直存在，但有了BERT，偏见就能够继续存在下去。

　　“是时候把算法当作人类设计的造物了。”人工智能批评人士KateCrawford说，算法经常被看作是不带偏见、不可理解、勿需质疑的对象，但实际它会继承我们的偏见，它只可能跟我们一样好。

　　决策黑盒为偏见“藏污纳垢”

　　人们最初确实天真地以为，算法能比人类更能避免偏见。1970年代，伦敦圣乔治医学院的GeoffreyFranglen博士着手编写一个算法来筛选学生的入学申请。他认为，如果所有学生的申请都要遵循完全一样的评估流程，结果就是公平的。

　　算法完成后与人类判断有90%到95%的一致率，因此被投入使用。但直到4年后，调查者才发现：算法会仅仅因为一个候选人没有欧洲名字（可能不是白人），就扣除15分。如果申请者是女性，又要被扣掉3分。

　　“从深层次看，算法只是在维持招生系统早已存在的偏见而已。”IEEE的文章评论说，“圣乔治医学院之所以被逮住，是因为他们把偏见供奉到一个计算机程序里面，歧视是调查者可以验证的。”

　　但对于人工智能的黑箱式决策，情况变得更加复杂。性别或出生地在算法中并不对应单一可辨的参数，你很难给机器“定罪”。“在大工业时代，机器以暴露齿轮来展示强大。但如今，齿轮被隐藏起来，融入生活，无处不在，AI就是这个齿轮。”一篇《福布斯》文章精辟地说。

　　在这种黑箱决策面前，反歧视法案可能也无能为力。KritiSharma认为，如果AI帮人事主管寻找一位技术领袖，它会发现主管雇佣的大多是男性，从而以为男人比女人更容易编程。如果人类主管这样做，我们会愤怒，也能够阻止。“人工智能实际已凌驾于法律之上，因为是机器做的决定。”

　　更值得担忧的是，AI决策可能放大了科技企业和数据标注者的权力，因为无人能监督。一个名为ImageNetRoulette的流行应用，曾故意向人们展示这种风险：它曾倾向于将非洲裔美国人标记为“不法分子”“罪犯”，此外还有“失败者”“初学者”“荡妇”这样的标签。

　　它的训练数据来自ImageNet数据集，包含了1400张被标记的照片，而每张标记费用为几美分。因此标签标注者的偏见便被带入数据集，训练出各种算法，应用在形形色色的领域。“如果标注女性照片的人不选非二元人群或短发女性，那最终得到的人工智能就只认长发的女性模特。”

　　在被发现算法存在机器偏见时，谷歌和亚马逊都会承诺迅速解决。“我们发现的明显的偏见，但里面如果还有几个呢？”Bohannon博士说。如果要依赖这种决策，“正如生物学家努力理解细胞工作原理一样，软件工程师也必须找到理解BERT系统的方法。”

　　人人都要学会讨好算法

　　电影《少数派报告》里，汤姆克鲁斯负责抓捕那些被电脑认为“将要犯罪”的人，直到有一天自己也上了抓捕名单。在现实中，类似的系统可能已经上线。

　　据BBC报道，2017年5月，英国达勒姆警方启用了一套系统。它学习过警方5年关押报告和2年定罪报告，来预测嫌疑人犯罪的可能性是低、中、高，以决定是否收押。

　　但使用数年后，评估工具发现，这套系统认为黑人是罪犯的概率是白人的两倍，还喜欢把白人定为低风险、单独犯案。此外，它预测低风险犯罪的准确率为98%，高风险为88%，暗示它宁错抓一千、不错放一人。

　　2016年12月，迪拜警方也启用了一套系统，来预测不同地区犯罪概率，将警力部署在高风险地区加强巡逻。

　　如果说预测犯罪尚遥远，AI招聘则掌握了你的生杀大权。11月初，高盛、希尔顿和联合利华等企业都开始使用一种名为HireVue的AI视频面试系统，并赞赏有加。希尔顿高管说，HireVue将招聘周期从6周缩短到了5天。

　　但它的决策偏好被发现匪夷所思：AI分不清你皱眉是因为在思考问题，还是情绪不佳（暗示性格易怒）。面试者既担心表现，又不知AI如何给自己打分，以至于刻意迎合AI：在面试全程表情微笑、放慢语速、在摄像头边贴上眼睛贴纸，以维持眼神接触，以及让背后是一堵白墙，防止干扰算法。

　　此外，HireVue也被认为加强了求职偏见：机器通过学习现有员工来寻找新员工。这意味着如果一个部门所有员工全是白人（即使是巧合），AI也会不自觉地偏向寻找白人。如果好员工恰都是女性，那么男性面试者也会被降低权重。

　　“我们迎来了焦虑的一代，要求他们面向屏幕说话，对摄像头回答问题，还不告诉他们如何做得更好。”辅导学生参加HireVue面试后，杜克大学经济学教授EmmaRasiel表示。不难想象，如果你能骗过AI面试，也许会尝试用匪夷所思的举动骗过其他AI决策。