使用Scrapy框架爬取数据

Contents

  1. 1. Scrapy的安装
    1. 1.1. Windows下Scrapy的安装
    2. 1.2. Linux下Scrapy的安装
  2. 2. 初识Scrapy

Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。

上述是Scrapy的官方文档的解释,个人认为学习Scrapy的最好方法就是Scrapy的官方文档,写的非常清楚,而且各种功能也都写的特别详尽。推荐看官方文档学习Scrapy。本文主要是有关于我在学习Scrapy过程中遇到的坑和解决方法,以及是Scrapy入门后找的一些网站练手的代码展示。所有的代码都已经上传到我的github上了,如果感兴趣的话,可以去这个地址下载。https://github.com/BeaLin/ScrapyProgram 。使用Scrapy爬取数据的网站有
聚美优品、豆瓣、乐峰、蜜芽、跨境淘、欧美淘。不出意外,这些代码下载下来是可以直接运行的。这篇博文会不定时更新~^-^

Scrapy的安装

Windows下Scrapy的安装

Scrapy框架是依托于Python2.7的,所以安装Scrapy,必须得安装Python2.7这个版本,Python不同版本之间并不兼容,所以如果之前安装过其他版本的Python,比如Python3.0,就得再安装一个Python2.7。推荐一个好用的Python IDE——PyCharm,。同台电脑可以安装多个版本的Python,只要在打开Python IDE的时候选择一下python.exe的位置就可以了。
在windows下安装python和很多依赖包,安装起来略为痛苦,可以使用python的大整合包——Anaconda
Anaconda下载地址:http://continuum.io/downloads
下载好后,直接双击安装就OK了,连环境变量Path都不用自己设,方便快捷。最方便的一点是,它整合了大量的依赖包,下面是它所包含的全部依赖包:
http://docs.continuum.io/anaconda/pkg-docs.html
其中比如科学计算的numpy, theano等都应有尽有。
爬虫的scrapy在整合包里面没有的话怎么办呢?也非常的简单,只需要在命令行中输入conda install * (conda install scrapy)即可安装相应的包。
Anaconda的FAQ:
http://docs.continuum.io/anaconda/faq.html

Linux下Scrapy的安装

可以参考网址http://jingyan.baidu.com/article/f3ad7d0f129c7809c2345b56.html?qq-pf-to=pcqq.c2c中的教程安装,亲测有效。


初识Scrapy