做下载的爬虫工程师在开工之前,都是人手必备自己熟练使用的一套工具,最基本的工具包括以下几点:
由于资源展示介质多样性,导致爬虫身边必备的被爬资源展示介质也是多样性的,大致可以分为:浏览器(PC端和移动端)、PC客户端和移动端App。
浏览器
在浏览器中Elements、Network、Sources和Resources是爬虫工程师需要注意的tab;其中Network是网络请求的原始数据,而Elements是经过浏览器渲染后的数据。PC客户端和移动端app这里面就不多做介绍了。
目前可用的抓包工具有很多,包括:Wireshark、fiddler、Firebug、HttpFox、tcpdump、sniffer、omnipeek和charles。推荐使用的是:Wireshark。
Wireshark是一款小巧、开源且能在几乎所有流行操作系统下使用的抓包工具软件,很适合一般人员学习网络协议使用,也是协议开发人员验证协议的好工具。由于Wireshark存在缓存溢出的BUG,建议不要将它用于分析流量很大的百兆网络,也不要用于千兆网络分析。
Wireshark
Charles抓手机数据包
网址:http://m.blog.csdn.net/article/details?id=47038675
注意电脑防火墙要关闭。
在抓Android APK请求数据包,可以将你要抓取的Android APK装在真机、Android自带的模拟器或者第三方模拟器上。使用真机话过程比较繁琐,需要在真机上通过tcpdump抓包并通过adb待分析的包pull到PC上;使用Andorid自带的模拟器速度比较慢。这里推荐使用第三方模拟器。
目前市面上第三方安卓模拟器软件有两大流派:Bluestacks和Virutalbox,都是可以在电脑上玩手游的,主要包含以下:
a. Bluestacks:安卓模拟器鼻祖,印度公司研发,号称全球有1亿用户。对于国内部分流行游戏不兼容不支持。受制于内核技术,虽然使用电脑的门槛低,但是游戏兼容性,尤其是性能欠佳。
b. 靠谱助手:国内最早(2013年开始)基于Bluestacks内核的安卓模拟器,优化了使用界面与用户体验。但是靠谱缺少属于自己的内核技术,在兼容性和性能方面依旧有很大的提升空间,产品的形态无法自由更改。
c. 海马玩:国内首款基于Oracle Virtualbox商业版的安卓模拟器,2014年底产品推出时与Bluestacks内核的安卓模拟器形成鲜明对比,在性能及兼容性都有明显提升,获得了比Bluestacks内核模拟器好很多的口碑。优点是较稳定,但版本更新速度慢,弹出广告插件多,用户体验差,功能定制方面有较多缺失。
d. 逍遥安卓模拟器:基于自研定制Virtualbox的强劲安卓模拟器,业界首创的一键多开是其亮点。版本更新快,性能强,运行流畅,需求响应及时。模拟器性能和兼容性均不错,在手游体验的优化上做的非常好,这个是亮点,玩手游玩家的首选。
e. 夜神模拟器:2015年中推出的基于定制Virtualbox的安卓模拟器,直接集成NOVA桌面是它的一大亮点,多开效率需进行提升,系统不稳定。
夜神模拟器
这里推荐使用的是:火狐浏览器的HttpRequester。
HttpRequester
做爬虫开发工作,必须手上家伙要够,且使起来顺手才可以,通过日常开发总结了爬虫工程师要有如下工具包,如下图所示。
这里就不做过多介绍了,这些工具易用性很高,就是不清楚如何用网上也有现成的教程。
目前免费虚拟手机号码有很多,国内的有阿里小号、或者是移动、联通、电信提供的副号,直接去营业厅或者是网上营业厅就能开通。也有虚拟运营商,但是他们的信号都是挂载在移动、联通、或者是电信上面,你可以理解为联营或者是联名卡,但并不是虚拟运营商就是自己建造的信号塔,自己做的号码,而是国有运营商授权发布的虚拟运营商,虚拟号段。上面说的是国内虚拟号码,而国际上面最流行的虚拟手机号码就属于google Voice、叮咚等等,挺多的,功能也比较强大,可以获取很多国家的虚拟号码,比如英国的+44的号码、美国+1的号码俄罗斯+7的号码等等。
国内接码平台搜集汇总
http://www.360doc.com/content/18/0716/13/32544506_770776650.shtml
https://www.linshiyouxiang.net/