2016-05-13

使用Scrapy框架爬取数据

1. Scrapy的安装
1. 1.1. Windows下Scrapy的安装
2. 1.2. Linux下Scrapy的安装
2. 初识Scrapy

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。

上述是Scrapy的官方文档的解释，个人认为学习Scrapy的最好方法就是Scrapy的官方文档，写的非常清楚，而且各种功能也都写的特别详尽。推荐看官方文档学习Scrapy。本文主要是有关于我在学习Scrapy过程中遇到的坑和解决方法，以及是Scrapy入门后找的一些网站练手的代码展示。所有的代码都已经上传到我的github上了，如果感兴趣的话，可以去这个地址下载。https://github.com/BeaLin/ScrapyProgram 。使用Scrapy爬取数据的网站有
聚美优品、豆瓣、乐峰、蜜芽、跨境淘、欧美淘。不出意外，这些代码下载下来是可以直接运行的。这篇博文会不定时更新~^-^

Scrapy的安装

Windows下Scrapy的安装

Scrapy框架是依托于Python2.7的，所以安装Scrapy，必须得安装Python2.7这个版本，Python不同版本之间并不兼容，所以如果之前安装过其他版本的Python，比如Python3.0，就得再安装一个Python2.7。推荐一个好用的Python IDE——PyCharm，。同台电脑可以安装多个版本的Python，只要在打开Python IDE的时候选择一下python.exe的位置就可以了。
在windows下安装python和很多依赖包，安装起来略为痛苦，可以使用python的大整合包——Anaconda。
Anaconda下载地址：http://continuum.io/downloads
下载好后，直接双击安装就OK了，连环境变量Path都不用自己设，方便快捷。最方便的一点是，它整合了大量的依赖包，下面是它所包含的全部依赖包：
http://docs.continuum.io/anaconda/pkg-docs.html
其中比如科学计算的numpy, theano等都应有尽有。
爬虫的scrapy在整合包里面没有的话怎么办呢？也非常的简单，只需要在命令行中输入conda install * (conda install scrapy)即可安装相应的包。
Anaconda的FAQ:
http://docs.continuum.io/anaconda/faq.html

Linux下Scrapy的安装

可以参考网址http://jingyan.baidu.com/article/f3ad7d0f129c7809c2345b56.html?qq-pf-to=pcqq.c2c中的教程安装，亲测有效。

BeaLin's Blog

Study, Think, Record

使用Scrapy框架爬取数据

Contents

Scrapy的安装

Windows下Scrapy的安装

Linux下Scrapy的安装

初识Scrapy

Contents