大数据行业生死劫
AI前线导读:这可能是大数据行业经历的最寒冷的一个冬天。年关将至,国人习惯于用各种圆满的方式给即将过去的一年划上句号,不过,这对于许多大数据行业从业者来说,似乎有些奢望。整顿、倒闭、离职...最近数月以来,股股冷峻的气息一直笼罩在行业上空。多次监管动作不断提醒和鞭策着大数据公司,是时候告别野蛮生长的时代了,合规才是正途。
巨变启幕
监管重锤落地,此前狂飙突进的大数据产业突然被按下“暂停键”。
自今年9月以来,多家大数据公司接连被查,巨变启幕,行业“一夜入冬”。
9月6日,大数据智能风控服务供应商魔蝎数据被警方调查,一位核心高管被带走,官网至今无法正常访问;另一家大数据公司新颜科技的CEO黄向前也在同一天被警方带走调查;这天,聚信立发通知主动停止了爬虫业务,然未能幸免于“难“,仅过了几天后,聚信立被爆有警方进驻公司调查;9月11日,知名币圈项目公信宝运营主体被杭州警方查封;次日,有媒体报道,集奥聚合深圳分公司十余人被带走,北京办公室也有多人被深圳警方带走;另有爆料称,天翼征信的总经理、副总经理及市场人员被警察带走。
一周之内,5家公司被查,如此阵势引发业内恐慌,但这可能只是刚刚开始。
紧接着,有传言称百融云创数据查询受影响、个人征信数据业务被暂停,深圳分公司员工被带走,后被官方否认。9月27日,同盾科技子公司信川科技高管被带走协助调查;10月21日,51信用卡委托外包催收公司因涉嫌寻衅滋事等罪被调查;10月25日,新京报报道称,央行发文紧急调研银行与上述第三方数据公司合作情况,排查的合作内容主要涉及数据采集、信用欺诈、信用评分、风控建模....
有业内人士分析称,上述公司被查与其开展的“爬虫”业务有关,根源亦在于涉足现金贷、715高炮、套路贷、暴力催收、“超利贷”等业务。
据AI前线不完全统计,此次清查波及的大数据公司至少15家左右。(以下根据公开资料整理,力有不逮,难免遗漏或错误,请见谅)
那个“2019年,捕获独角兽最多的机构:红杉、阿里、腾讯和警方”的网红段子在引人发笑的同时,也反映出了当下大数据公司的尴尬处境。
今年11月以来,公安部加大了APP违法违规采集个人信息集中整治力度,共下架整改100架APP,其中考拉海购、房天下、樊登读书、天津银行等知名APP也在列,这些APP多涉及无隐私协议、收集使用个人信息范围描述不清、超范围采集个人信息和非必要采集个人信息等情形。据悉,今年以来,公安部“净网2019”专项行动,已查处违法违规采集个人信息的APP共683款。
监管风暴席卷而来。大数据行业内人心惶惶,经此一击,许多大数据公司遭受重创,大量数据接口被切断,数据产品停售,部分公司业务部门解散、裁员,还有一些公司濒临倒闭。据一本财经统计,或有上万人因此离开大数据行业。
祸起爬虫?
市场已是风声鹤唳。
一时间,人人闻“爬虫”色变。白骑士、葫芦数据、天机数据、立木征信、聚信立等大数据公司纷纷宣布暂停爬虫业务,还有的公司在几天之内火速将爬虫业务从经营业务范围中“抹掉”,招聘“爬虫工程师”的公告信息也被紧急撤下,一些爬虫程序员因为担忧是否游走在违法边缘,头发又多掉了几根....
业内有这样一种说法,爬虫贡献了互联网50%的流量,它对于互联网的繁荣功不可没。但该技术同时也因“用途”而充满争议。爬虫是一项见不得“阳光”的技术,它广泛运用,却少有人愿意承认在使用它。因为它常常被用作非法收集信息的工具,站上数据隐私、数据安全的对立面。
“爬虫技术本身并无对错,但要看怎么用,用错了肯定违法啊”,一位程序员向AI前线表示,“技术无罪,关键在于人”。
网络爬虫是非常普遍的一种数据挖掘技术,它是一种按照一定的规则,自动地抓取网络信息的程序或者脚本。爬虫技术最早主要运用在搜索引擎中,它满足了人们的数据获取、分析需求。早在1995年,为了不越“边界”,互联网搜索引擎与网页持有者之间达成了一项“君子协定”—robot协议,该协议规定了哪些信息该爬,哪些信息不该爬,20多年来,该协议一直沿用至今。
