来自 科技 2019-11-26 12:57 的文章

AI正学会所有偏见!精华与糟粕通吃,算法偏见更

  两天时间洞见未来五年
 
  人工智能学习人类知识,同时也吸收人类偏见。这种担忧由来已久。但谷歌的一项新发明极大推进了人工智能从文本材料中学习的速度,也使解决机器偏见问题迫在眉睫。
 
  10月25日,谷歌宣布利用BERT来优化搜索引擎,已经使英语搜索结果的匹配度提高了10%左右。未来,谷歌还会推出学习其他语言和国家的算法。
 
  BERT是谷歌在2018年开发的一种基于神经网络的NLP技术,它能一次接收整句话,而非从左至右(或相反)逐字接收。这使得如果有人要搜“在没有路缘的山坡停车”,BERT能认出“不要”,从而给出正确的搜索结果。而传统搜索引起只会关注“路缘”和“山坡”,给出与搜索意图相反的结果。
 
  图|BERT能更好识别“在没有路缘的山坡停车”句子里的“没有”一词,从而理解人类意图(来源:https://blog.google)
 
  让人们担忧的是,BERT的学习材料正来自数字化书籍和新闻文章。在BERT学会一切之前,人们没有时间来清理其中根深蒂固的偏见。而这些偏见一旦被算法吸收,将更难辨认,也更难清除。
 
  “形象一下在AI世界长大的孩子。他们在谷歌搜索CEO照片,冒出的大部分是男性。他们又搜索个人助手,大部分是女性。”KritiSharma在一次TED相关演讲中说。卡耐基梅隆大学的计算机科学家已研究证实,BERT倾向于将程序员与男性联系起来。
 
  另一位计算机科学家RobertMunro发现,展示给BERT100个单词,包含马、婴儿、房子、珠宝等。BERT会认为大部分与男性有关,仅妈妈是个例外。
 
  “BERT改变了一切,你可以教它所有技巧。”NLP初创公司Primer的科学主管JohnBohannon说。Munro则认为,不平等现象一直存在,但有了BERT,偏见就能够继续存在下去。
 
  “是时候把算法当作人类设计的造物了。”人工智能批评人士KateCrawford说,算法经常被看作是不带偏见、不可理解、勿需质疑的对象,但实际它会继承我们的偏见,它只可能跟我们一样好。
 
  决策黑盒为偏见“藏污纳垢”
 
  人们最初确实天真地以为,算法能比人类更能避免偏见。1970年代,伦敦圣乔治医学院的GeoffreyFranglen博士着手编写一个算法来筛选学生的入学申请。他认为,如果所有学生的申请都要遵循完全一样的评估流程,结果就是公平的。
 
  算法完成后与人类判断有90%到95%的一致率,因此被投入使用。但直到4年后,调查者才发现:算法会仅仅因为一个候选人没有欧洲名字(可能不是白人),就扣除15分。如果申请者是女性,又要被扣掉3分。
 
  “从深层次看,算法只是在维持招生系统早已存在的偏见而已。”IEEE的文章评论说,“圣乔治医学院之所以被逮住,是因为他们把偏见供奉到一个计算机程序里面,歧视是调查者可以验证的。”
 
  但对于人工智能的黑箱式决策,情况变得更加复杂。性别或出生地在算法中并不对应单一可辨的参数,你很难给机器“定罪”。“在大工业时代,机器以暴露齿轮来展示强大。但如今,齿轮被隐藏起来,融入生活,无处不在,AI就是这个齿轮。”一篇《福布斯》文章精辟地说。
 
  在这种黑箱决策面前,反歧视法案可能也无能为力。KritiSharma认为,如果AI帮人事主管寻找一位技术领袖,它会发现主管雇佣的大多是男性,从而以为男人比女人更容易编程。如果人类主管这样做,我们会愤怒,也能够阻止。“人工智能实际已凌驾于法律之上,因为是机器做的决定。”
 
  更值得担忧的是,AI决策可能放大了科技企业和数据标注者的权力,因为无人能监督。一个名为ImageNetRoulette的流行应用,曾故意向人们展示这种风险:它曾倾向于将非洲裔美国人标记为“不法分子”“罪犯”,此外还有“失败者”“初学者”“荡妇”这样的标签。
 
  它的训练数据来自ImageNet数据集,包含了1400张被标记的照片,而每张标记费用为几美分。因此标签标注者的偏见便被带入数据集,训练出各种算法,应用在形形色色的领域。“如果标注女性照片的人不选非二元人群或短发女性,那最终得到的人工智能就只认长发的女性模特。”
 
  在被发现算法存在机器偏见时,谷歌和亚马逊都会承诺迅速解决。“我们发现的明显的偏见,但里面如果还有几个呢?”Bohannon博士说。如果要依赖这种决策,“正如生物学家努力理解细胞工作原理一样,软件工程师也必须找到理解BERT系统的方法。”
  人人都要学会讨好算法
 
  电影《少数派报告》里,汤姆克鲁斯负责抓捕那些被电脑认为“将要犯罪”的人,直到有一天自己也上了抓捕名单。在现实中,类似的系统可能已经上线。
 
  据BBC报道,2017年5月,英国达勒姆警方启用了一套系统。它学习过警方5年关押报告和2年定罪报告,来预测嫌疑人犯罪的可能性是低、中、高,以决定是否收押。
 
  但使用数年后,评估工具发现,这套系统认为黑人是罪犯的概率是白人的两倍,还喜欢把白人定为低风险、单独犯案。此外,它预测低风险犯罪的准确率为98%,高风险为88%,暗示它宁错抓一千、不错放一人。
 
  2016年12月,迪拜警方也启用了一套系统,来预测不同地区犯罪概率,将警力部署在高风险地区加强巡逻。
 
  如果说预测犯罪尚遥远,AI招聘则掌握了你的生杀大权。11月初,高盛、希尔顿和联合利华等企业都开始使用一种名为HireVue的AI视频面试系统,并赞赏有加。希尔顿高管说,HireVue将招聘周期从6周缩短到了5天。
 
  但它的决策偏好被发现匪夷所思:AI分不清你皱眉是因为在思考问题,还是情绪不佳(暗示性格易怒)。面试者既担心表现,又不知AI如何给自己打分,以至于刻意迎合AI:在面试全程表情微笑、放慢语速、在摄像头边贴上眼睛贴纸,以维持眼神接触,以及让背后是一堵白墙,防止干扰算法。
 
  此外,HireVue也被认为加强了求职偏见:机器通过学习现有员工来寻找新员工。这意味着如果一个部门所有员工全是白人(即使是巧合),AI也会不自觉地偏向寻找白人。如果好员工恰都是女性,那么男性面试者也会被降低权重。
 
  “我们迎来了焦虑的一代,要求他们面向屏幕说话,对摄像头回答问题,还不告诉他们如何做得更好。”辅导学生参加HireVue面试后,杜克大学经济学教授EmmaRasiel表示。不难想象,如果你能骗过AI面试,也许会尝试用匪夷所思的举动骗过其他AI决策。