您当前的位置:首页 > 电脑百科 > 程序开发 > 编程百科

什么样的“爬虫”,能卖出53亿美元?

时间:2020-09-10 10:38:03  来源:  作者:

什么样的“爬虫”,能卖出53亿美元?

 

今年初,大名鼎鼎的VISA宣布以53亿美元的价格收购一家名为Plaid的金融科技公司

 

什么样的“爬虫”,能卖出53亿美元?

 

值得注意的是,Plaid在一年前完成C轮融资时,估值为26.5亿美元,也就是说VISA不惜花两倍的价格也要尽快把Plaid收入囊中。

 

对此,Visa的CEO表示,自2015年以来,Plaid的年复合增长率一直保持在100%左右,这笔交易将是一步“长远的棋”,会在未来十几年内巩固Visa的地位,它能扩大公司的市场范围,与更多金融公司建立合作。

 

并且这次收购有可能为公司在2021年带来100个基点的净营收增长率。

 

什么样的“爬虫”,能卖出53亿美元?

那么这个让VISA不惜支付溢价也要得到的Plaid到底是个什么公司?

 

 
 

1

 
 

数据的桥梁

 

Plaid成立于2013年,是一家标准的独角兽公司,该公司与11000多家金融机构建立了合作关系,共拥有超过2亿个帐户 ,目前拥有美国银行帐户的人已经有四分之一使用了Plaid的技术服务。

 

什么样的“爬虫”,能卖出53亿美元?
 

两个创始人仅仅30岁出头,可谓出尽了风头。

 

什么样的“爬虫”,能卖出53亿美元?

 

在公司创建之初,两人最初尝试的是构创造一个个人的财务管理产品。但当他们在尝试连接这个产品所需要的银行数据时,一直在缺乏统一的银行API和交易数据质量低下的困境中挣扎。

 

俩小年轻就这样歪打正着发现了痛点,于是他们决定将其核心业务重点转向统一的银行API上面,干脆自己动手来完善基础设施。

 

什么是API?API的中文名称是“应用程序编程接口”,比如微博上有个用户是资深小黄文爱好者,优点是他还乐于分享,于是他写了一段代码来搜罗全网的小黄文发到自己微博上。

 

某一天你发现了这个博主,而你正巧好这一口,就走了一波关注,那么这个博主的账号就是一个“小黄文API”,你关注了就是连上了这个API,也别管他代码是怎么写的,看就完事儿了。

 

简言之,Plaid就是一个API接口,主要是帮助各种金融科技公司读取用户的银行数据,充当了一个桥梁的角色。

 

创始人Perret在2013年公司刚创立时对媒体说:“从前,您必须将帐单和收据邮寄给您的会计师,后者会通读一些复杂的数据,才能弄清楚交易的含义。

 

而使用Plaid,应用程序会允许用户链接他们的银行帐户并获得每笔交易的详细数据,该交易将会被捋清到具体的时间、地点等。”

 

什么样的“爬虫”,能卖出53亿美元?

 

目前Plaid已经被美国的诸如Venmo(移动支付)和Chime(数字银行)等头部金融科技公司所使用。例如,股票交易应用程序Robinhood使用Plaid的身份验证来验证用户的帐户所有权,检查余额并促进资金转移。

 

而Plaid读取数据的方法,就是要求用户提供密码,代替用户登录并通过屏幕抓取的方法获得用户信息。

 

也就是俗称的大数据爬虫

 

爬虫作为一门古老的技术简单地说就是一个机器人,它可以模拟真人的行为去各个网站抓取你想要的信息、数据或是执行你设置好的指令,并且爬虫是一次放出成千上万只,成群结队、孜孜不倦地到处完成任务。

 

Plaid其实就是一家爬虫公司,但其数据获取之路也不是一帆风顺的。在2018年,Plaid就硬刚过全美第五大的零售银行Capital One,彼时Capital One禁止了Plaid的访问权限。

 

Plaid则奋起反击,在Twitter等社交媒体上号召用户向美国消费者金融保护局(CFPB)投诉。经过反复的博弈,美国的这家爬虫公司最终以53亿美元的价格成功找到金主,混得风生水起。

 

而反观国内的爬虫同行们,在去年经历了一场大地震,几乎被团灭。

 

 
 

2

 
 

爬虫爬得欢,牢底要坐穿

 

2019年,国内的爬虫公司都纷纷变得风声鹤唳、如履薄冰,有许多知名公司的高层被请去喝茶。

 

在此次爬虫圈的地震风波中,最先被调查的是一家叫巧达数据的公司。

 

2019年3月14号,巧达数据全公司上下200号人全被带走,经过排查最后有36人被捕,其中包括公司相关高层和写爬虫代码的程序员

 

什么样的“爬虫”,能卖出53亿美元?
 

此后地震波便扩散开来,比如圈内知名的新颜科技,其CEO黄向前几天前还在第二届WAIC世界人工智能大会上侃侃而谈,结果被杀个措手不及,瞬间就进去喝茶了。

 

什么样的“爬虫”,能卖出53亿美元?

新颜科技CEO黄向前

 

虽然始料不及,但黄向前未曾孤独,紧接着摩羯科技的CEO周江翔表示自己也口渴了,需要一杯沁人心脾的凉茶来润润嗓。

 

重点是周江翔并不是一个人,他还带了一些朋友一起加入茶话会。他进去的次日,中国电信控股的子公司天翼征信因为与摩羯科技有业务往来而导致高层被带走调查。天翼征信的总经理、副经理等共计十几个人被带走。

 

连锁反应并未结束,知名的区块链公司公信宝也被牵连其中,其CEO黄敏强被带走后公司也被贴上了封条。

 

什么样的“爬虫”,能卖出53亿美元?
 

就连圈内大数据风控龙头企业同盾科技也被爆出爬虫部门已解散,CEO蒋韬已经跑路出国避风头,并且之前新颜科技和魔戒科技被调查都是因为被同盾科技举报。

 

但同盾科技立马发出声明表示除了爬虫部门解散以外的其他言论均为谣言。

 

什么样的“爬虫”,能卖出53亿美元?

同盾科技的辟谣声明

 

目睹了这一切的幸存同行直呼:“整个行业快被抓没了。”

 

有的老铁可能被这雷厉风行的style给震惊了,看得云里雾云,别着急,咱接着捋。

 

 
 

3

 
 

他们干了什么?

 

像“数据玩得溜,牢饭吃个够”这样的业内顺口溜,赤裸裸地暴露出了一些从业者的鸵鸟心态,他们对于自己做了什么只字未提,却气宇轩昂地在网上高喊技术无罪,实属魔幻现实主义网络分义。

 

例如巧达数据,他们利用爬虫爬取了多达2.2亿份自然人简历、100亿个用户识别ID组合和1000亿的用户综合数据,甚至还有超过10亿份用户通讯录,其中包含了很多用户个人隐私。

 

什么样的“爬虫”,能卖出53亿美元?
 

巧达数据自称拥有超过8亿自然人的数据,也就是说超过一半的中国人的数据都在巧达的数据库里,包括这些人的社会关系、家庭关系等。

 

只要有你的手机号,他们就能通过比对数据库反馈出你的姓名、性别、年龄、职业、收入、教育经历和工作经历等信息。再通过这些信息巧达就可以对你进行精准地画像。

 

什么样的“爬虫”,能卖出53亿美元?
 

再比如公信宝,他们旗下有一款叫做布洛克城的App(感觉谐音block chain)。

 

什么样的“爬虫”,能卖出53亿美元?

布洛克城APP

 

用户可以绑定自己的社保、学历、运营商、芝麻信用还有淘宝和京东的交易记录等来换取在APP里的算力,绑定的信息越多你的算力就越高,而算力可以挖出公信币(GXC),公信币可以提到交易所去变现。

 

有好事的网友表示,他挖了半年也不过才几十块钱,而你却给了他们那么多个人信息,这种贱卖自己信息的操作,无异于被卖了还帮别人数钱。

 

公信宝在得到了用户信息后就会将其打包卖给第三方。

 

什么样的“爬虫”,能卖出53亿美元?
 

根据《中华人民共和国网络安全法》解释:

 

未经授权爬取用户手机通讯录超过50条记录,最高可获刑3年;

未经授权抓取用户淘宝交易记录超过500条,最高可获刑3年;

未经授权读取用户运营商网站通话记录超过500条,最高可获刑7年;

未经授权读取用户公积金社保记录的超过50000条的,最高可获刑7年。

 

而作为一家科技公司的CEO,他们必定是知道相关法律的,那为啥还要这样搞?

 

每到这种时候就得祭出马克思了:“资本如果有百分之五十的利润,它就会铤而走险,如果有百分之百的利润,它就敢践踏人间一切法律,如果有百分之三百的利润,它就敢犯下任何罪行,甚至目着被绞死的危险。”

 

这些公司的数据大都卖给了各种网贷公司,据知乎老哥“加油小透明”透露,单日光运营商的调用量就达到100多万,每条价格在0.1-0.3毛,粗算下来一天的流水就是30W,爬虫这种毛利高达80%,一天就可以赚24W左右。

 

如此之高的毛利,也难怪会引得无数CEO竞折腰。

 

爬虫技术诞生至今已有20多年的历史了,如今作为一项成熟的技术应用在互联网的方方面面。

 

最常见的搜索引擎就是运用了爬虫技术,搜索引擎放出无数爬虫到各个网站抓取他们的信息,然后将其排序展示给你,就成了你的搜索结果。

 

据腾讯安全云鼎实验室统计,我国2017年互联网流量有42.2%是由爬虫创造的,其中恶意爬虫流量占到了21.80%。

 

什么样的“爬虫”,能卖出53亿美元?
来源:腾讯安全云鼎实验室
 

而恶意爬虫中有20.87%的流量是冲着出行领域去的。

 

什么样的“爬虫”,能卖出53亿美元?
 

这些出行领域的流量几乎全部都导向了12306,也就是抢票软件。抢票软件放出无数爬虫不停地刷新12306,发现一有票就立马拍下来等你付款,于是12306经常被爬虫搞到崩溃,严重扰乱了正常人的购票流程。

 

这也是为什么12306会迫于无奈,尽整些阴间验证码的原因。

 

什么样的“爬虫”,能卖出53亿美元?

 

说到底技术是一把双刃剑,关键看怎么使用。

 

君子爱财取之有道,希望那些手握利剑的人,能用一套华丽的剑法砍向正确的地方。



Tags:爬虫   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
利用Python实现中国地铁数据可视化。废话不多说。让我们愉快地开始吧~开发工具Python版本:3.6.4相关模块:requests模块;wordcloud模块;pandas模块;numpy模块;jieba模块;pyecharts模...【详细内容】
2021-12-08  Tags: 爬虫  点击:(34)  评论:(0)  加入收藏
这个开源项目程序可以持续爬取一个或多个新浪微博用户(如李文di、无疫烦)的数据,并将结果信息写入文件或数据库。写入信息几乎包括用户微博的所有数据,包括用户信息和微博信息两大类。...【详细内容】
2021-10-27  Tags: 爬虫  点击:(43)  评论:(0)  加入收藏
今天我们仍旧利用scrapy框架实现自动翻页爬取数据,爬取诗词胖排行榜( https://www.shicimingju.com/paiming)中的标题。1.新建文件夹scrapy starproject 文件名(wallpaper)2.新建...【详细内容】
2021-10-21  Tags: 爬虫  点击:(62)  评论:(0)  加入收藏
回顾python学习历程,感慨良多,这门语言实在是太强了,当然,分支也很多,有的在做安全,有的在做数据,有的在做爬虫,本文就笔者本身的爬虫入门的小经验分享给读者,期待各位在学习python的...【详细内容】
2021-08-11  Tags: 爬虫  点击:(81)  评论:(0)  加入收藏
来源:Python数据之道作者:Peter整理:阳哥大家好,我是阳哥。今天来跟大家分享用 BeautifulSoup 获取信息的一些知识点,文章内容由公众号读者 Peter 创作。欢迎各位童鞋向公众号投...【详细内容】
2021-06-23  Tags: 爬虫  点击:(134)  评论:(0)  加入收藏
上次写的如何给小孩约马术课过程,见这里 Python 约课[1], 本想一劳永逸,但是好景不长,预约系统升级了,而且还换了服务商,从之前的公众号 H5 应用,换成了小程序,之前编写的方式直接失...【详细内容】
2021-05-07  Tags: 爬虫  点击:(261)  评论:(0)  加入收藏
众所周知,代理IP可以助力爬虫工作更好的进行,很多人认为:如果没有代理IP,爬虫工作寸步难行。那么,如果爬虫不使用代理IP会出现什么情况呢? 一、小型爬虫:可有可无爬几百篇文章,几百...【详细内容】
2021-05-07  Tags: 爬虫  点击:(157)  评论:(0)  加入收藏
前言 将爬虫的爬取过程分为网络请求,文本获取和数据提取3个部分。 信息校验型反爬虫主要出现在网络请求阶段,这个阶段的反爬虫理念以预防为主要目的,尽可能拒绝反爬虫程序的请...【详细内容】
2021-04-20  Tags: 爬虫  点击:(451)  评论:(0)  加入收藏
导读:Scrapy由Python语言编写,是一个快速、高层次的屏幕抓取和Web抓取框架,用于抓取Web站点并从页面中提取出结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试...【详细内容】
2021-04-13  Tags: 爬虫  点击:(333)  评论:(0)  加入收藏
在了解爬虫基础、请求库和正则匹配库以及一个具体豆瓣电影爬虫实例之后,可能大家还对超长的正则表达式记忆犹新,设想如果想要匹配的条目更加多那表达式长度将会更加恐怖,这显然...【详细内容】
2021-04-12  Tags: 爬虫  点击:(262)  评论:(0)  加入收藏
▌简易百科推荐
摘 要 (OF作品展示)OF之前介绍了用python实现数据可视化、数据分析及一些小项目,但基本都是后端的知识。想要做一个好看的可视化大屏,我们还要学一些前端的知识(vue),网上有很多比...【详细内容】
2021-12-27  项目与数据管理    Tags:Vue   点击:(1)  评论:(0)  加入收藏
程序是如何被执行的  程序是如何被执行的?许多开发者可能也没法回答这个问题,大多数人更注重的是如何编写程序,却不会太注意编写好的程序是如何被运行,这并不是一个好...【详细内容】
2021-12-23  IT学习日记    Tags:程序   点击:(9)  评论:(0)  加入收藏
阅读收获✔️1. 了解单点登录实现原理✔️2. 掌握快速使用xxl-sso接入单点登录功能一、早期的多系统登录解决方案 单系统登录解决方案的核心是cookie,cookie携带会话id在浏览器...【详细内容】
2021-12-23  程序yuan    Tags:单点登录(   点击:(8)  评论:(0)  加入收藏
下载Eclipse RCP IDE如果你电脑上还没有安装Eclipse,那么请到这里下载对应版本的软件进行安装。具体的安装步骤就不在这赘述了。创建第一个标准Eclipse RCP应用(总共分为六步)1...【详细内容】
2021-12-22  阿福ChrisYuan    Tags:RCP应用   点击:(7)  评论:(0)  加入收藏
今天想简单聊一聊 Token 的 Value Capture,就是币的价值问题。首先说明啊,这个话题包含的内容非常之光,Token 的经济学设计也可以包含诸多问题,所以几乎不可能把这个问题说的清...【详细内容】
2021-12-21  唐少华TSH    Tags:Token   点击:(9)  评论:(0)  加入收藏
实现效果:假如有10条数据,分组展示,默认在当前页面展示4个,点击换一批,从第5个开始继续展示,到最后一组,再重新返回到第一组 data() { return { qList: [], //处理后...【详细内容】
2021-12-17  Mason程    Tags:VUE   点击:(14)  评论:(0)  加入收藏
什么是性能调优?(what) 为什么需要性能调优?(why) 什么时候需要性能调优?(when) 什么地方需要性能调优?(where) 什么时候来进行性能调优?(who) 怎么样进行性能调优?(How) 硬件配...【详细内容】
2021-12-16  软件测试小p    Tags:性能调优   点击:(19)  评论:(0)  加入收藏
Tasker 是一款适用于 Android 设备的高级自动化应用,它可以通过脚本让重复性的操作自动运行,提高效率。 不知道从哪里听说的抖音 app 会导致 OLED 屏幕烧屏。于是就现学现卖,自...【详细内容】
2021-12-15  ITBang    Tags:抖音防烧屏   点击:(23)  评论:(0)  加入收藏
11 月 23 日,Rust Moderation Team(审核团队)在 GitHub 上发布了辞职公告,即刻生效。根据公告,审核团队集体辞职是为了抗议 Rust 核心团队(Core team)在执行社区行为准则和标准上...【详细内容】
2021-12-15  InfoQ    Tags:Rust   点击:(24)  评论:(0)  加入收藏
一个项目的大部分API,测试用例在参数和参数值等信息会有很多相似的地方。我们可以复制API,复制用例来快速生成,然后做细微调整既可以满足我们的测试需求1.复制API:在菜单发布单...【详细内容】
2021-12-14  AutoMeter    Tags:AutoMeter   点击:(20)  评论:(0)  加入收藏
最新更新
栏目热门
栏目头条