PySpider 是一个非常方便并且功能强大的爬虫框架,支持多线程爬取、JS动态解析,提供了可操作界面、出错重试、定时爬取等等的功能,使用非常人性化。
能够在需要编写大量爬虫的情况下,帮助开发者快速编写爬虫。赞赞赞
1.搭建环境:
Python版本:2.7
系统环境:centos7.3
1.1.搭建python3环境:
下载依赖
yum install -y ncurses-devel openssl openssl-devel zlib-devel gcc make glibc-devel libffi-devel glibc-static glibc-utils sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel libcurl-devel
安装pyspider
pip install pyspider
如果启动python中的pycurl模块出现如下问题:
ImportError: pycurl: libcurl link-time ssl backend (nss) is different from compile-time ssl backend (none/other)
解决方法:
pip uninstall pycurl export PYCURL_SSL_LIBRARY=nss pip install pycurl
安装phantomjs
官网下载:http://phantomjs.org/download.html
wget https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-linux-x86_64.tar.bz2
解压:
yum -y install bzip2.x86_64 bzip2 -d phantomjs-2.1.1-linux-x86_64.tar.bz2 tar -xf phantomjs-2.1.1-linux-x86_64.tar mv phantomjs-2.1.1-linux-x86_64 phantomjs ln -sv /usr/local/phantomjs/bin/phantomjs /usr/bin/phantomjs
启动pyspider
再次启动就不会提示没安装phantomjs
由于放在公网,编辑了一个配置文件config.json ,用于登录认证 [root@ceph-host-01 local]# vim config.json { "webui": { "port": "5000", "username": "abc", "password": "123456", "need-auth": true } }
开启进程(后台运行)
nohup pyspider --config config.json &
进入web界面:
关注{程序员新视界},获取有趣、有料的流行前沿技术信息,每天进步一点点