最近生病,经历了半个月,总算是活过来了。
既然没死,那学习就永无止境吧。
今天讲讲在ubuntu中安装pyspider的注意事项吧。
PySpider 是非常方便并且功能强大的爬虫框架,支持多线程爬取、JS动态解析,提供了可操作界面、出错重试、定时爬取等的功能,使用非常人性化,选择在ubuntu中安装也是为了更好的管理和应用。
在安装PySpider之前,需要安装pip,这里使用的是Python3.6,因此安装pip3。
![64b4197937b3b76020346200137e3a84.png](https://img-blog.csdnimg.cn/img_convert/64b4197937b3b76020346200137e3a84.png)
在终端输入以下命令,并输入密码就可以开始进行pip安装:sudo apt install python3-pip
其次,还需要安装相关依赖包:
python-dev
python-distribute
libcurl4-openssl-dev
libxml2-dev
libxslt1-dev
pythonlxml
另外,还需要安装pycurl,而pycurl的依赖包有:
libcurl4-gnutls-dev
libghc-gnutls-dev
直接使用apt进行安装即可,如:
![7e12fa5842ea9083c0a57f581aa9e2a9.png](https://img-blog.csdnimg.cn/img_convert/7e12fa5842ea9083c0a57f581aa9e2a9.png)
安装python-dev包
然后安装pycurl,还有phantomjs
安装pycurl命令如下:
pip install pycurl
![6068a0747dfda1726c48f61ea240df49.png](https://img-blog.csdnimg.cn/img_convert/6068a0747dfda1726c48f61ea240df49.png)
安装phantomjs命令如下:
sudo apt install phantomjs
![6e2556dc4fff698fe583dbde1a1a142c.png](https://img-blog.csdnimg.cn/img_convert/6e2556dc4fff698fe583dbde1a1a142c.png)
将依赖包都安装完成后,开始安装pyspider:
![3f22529530ad10d6799aa087a8bae89d.png](https://img-blog.csdnimg.cn/img_convert/3f22529530ad10d6799aa087a8bae89d.png)
安装完成了,就可以直接运行Pyspider:
![b564ac03e200ca8df868bfdebab80992.png](https://img-blog.csdnimg.cn/img_convert/b564ac03e200ca8df868bfdebab80992.png)
然后打开浏览器,输入:127.0.0.1:5000,就可以打开pyspider界面:
![40b75f5bf859d7b6c18ddb785b0f22fe.png](https://img-blog.csdnimg.cn/img_convert/40b75f5bf859d7b6c18ddb785b0f22fe.png)
接下来就可以使用pyspider进行爬取数据了,下次我们讲pyspider的使用,谢谢。