Python3网络爬虫开发实战
  • Introduction
  • 0-目录
  • 0.0-前言
  • 0.1-序一
  • 0.3-序二
  • 1-开发环境配置
  • 1.1-Python3的安装
  • 1.2-请求库的安装
  • 1.3-解析库的安装
  • 1.4-数据库的安装
  • 1.5-存储库的安装
  • 1.6-Web库的安装
  • 1.7-App爬取相关库的安装
  • 1.8-爬虫框架的安装
  • 1.9-部署相关库的安装
  • 2-爬虫基础
  • 2.1-HTTP基本原理
  • 2.2-Web网页基础
  • 2.3-爬虫基本原理
  • 2.4-会话和Cookies
  • 2.5-代理基本原理
  • 3-基本库的使用
  • 3.1-使用urllib
  • 3.2-使用requests
  • 3.3-正则表达式
  • 3.4-爬取猫眼电影排行
  • 4-解析库的使用
  • 4.1-XPath的使用
  • 4.2-BeautifulSoup的使用
  • 4.3-pyquery的使用
  • 5-数据存储
  • 5.1-文件存储
  • 5.2-关系型数据库存储
  • 5.3-非关系型数据库存储
  • 6-Ajax数据爬取
  • 6.1-什么是Ajax
  • 6.2-Ajax分析方法
  • 6.3-Ajax结果提取
  • 6.4-分析Ajax爬取今日头条街拍美图
  • 7-动态渲染页面抓取
  • 7.1-Selenium的使用
  • 7.2-Splash的使用
  • 7.3-Splash负载均衡配置
  • 7.4-使用Selenium爬取淘宝商品
  • 8-验证码的识别
  • 8.1-图形验证码的识别
  • 8.2-极验滑动验证码识别
  • 8.3-点触验证码识别
  • 8.4-微博宫格验证码识别
  • 9-代理的使用
  • 9.1-代理的设置
  • 9.2-代理池的维护
  • 9.3-付费代理的使用
  • 9.4-ADSL代理的使用
  • 9.5-使用代理爬取微信公众号文章
  • 10-模拟登录
  • 10.1-模拟登录并爬取GitHub
  • 10.2-Cookies池的搭建
  • 11-APP的爬取
  • 11.1-Charles的使用
  • 11.2-mitmproxy的使用
  • 11.3-mitmdump爬取“得到”App电子书信息
  • 11.4-Appium的使用
  • 11.5-Appium爬取微信朋友圈
  • 11.6-Appium+mitmdump爬取京东商品评论
  • 12-pyspider框架的使用
  • 12.1-pyspider框架介绍
  • 12.2-pyspider基本使用
  • 12.3-pyspider用法详解
  • 13-Scrapy框架的使用
  • 13.1-Scrapy框架介绍
  • 13.2-Scrapy入门
  • 13.3-Selector的用法
  • 13.4-Spider的用法
  • 13.5-Downloader Middleware的用法
  • 13.6-Spider Middleware的用法
  • 13.7-Item Pipeline的用法
  • 13.8-Scrapy对接Selenium
  • 13.9-Scrapy对接Splash
  • 13.10-Scrapy通用爬虫
  • 13.11-Scrapyrt的使用
  • 13.12-Scrapy对接Docker
  • 13.13-Scrapy爬取新浪微博
  • 14-分布式爬虫
  • 14.1-分布式爬虫理念
  • 14.2-Scrapy-Redis源码解析
  • 14.3-Scrapy分布式实现
  • 14.4-Bloom Filter的对接
  • 15-分布式爬虫的部署
  • 15.1-Scrapyd分布式部署
  • 15.2-Scrapyd-Client的使用
  • 15.3-Scrapyd对接Docker
  • 15.4-Scrapyd批量部署
  • 15.5-Gerapy分布式管理
Powered by GitBook
On this page
  • 1.6.1 Flask 的安装
  • 1. 相关链接
  • 2. pip 安装
  • 3. 验证安装
  • 4. 结语
  • 1.6.2 Tornado 的安装
  • 1. 相关链接
  • 2. pip 安装
  • 3. 验证安装
  • 4. 结语

Was this helpful?

1.6-Web库的安装

Previous1.5-存储库的安装Next1.7-App爬取相关库的安装

Last updated 5 years ago

Was this helpful?

对于 Web,我们应该都不陌生,现在日常访问的网站都是 Web 服务程序搭建而成的。Python 同样不例外,也有一些这样的 Web 服务程序,比如 Flask、Django 等,我们可以拿它来开发网站和接口等。

在本书中,我们主要使用这些 Web 服务程序来搭建一些 API 接口,供我们的爬虫使用。例如,维护一个代理池,代理保存在 Redis 数据库中,我们要将代理池作为一个公共的组件使用,那么如何构建一个方便的平台来供我们获取这些代理呢?最合适不过的就是通过 Web 服务提供一个 API 接口,我们只需要请求接口即可获取新的代理,这样做简单、高效、实用!

书中用到的一些 Web 服务程序主要有 Flask 和 Tornado,这里就分别介绍它们的安装方法。

1.6.1 Flask 的安装

Flask 是一个轻量级的 Web 服务程序,它简单、易用、灵活,这里主要用来做一些 API 服务。

1. 相关链接

  • GitHub:

  • 官方文档:

  • 中文文档:

  • PyPI:

2. pip 安装

这里推荐使用 pip 安装,命令如下:

pip3 install flask

运行完毕后,就完成安装了。

3. 验证安装

安装成功后,可以运行如下实例代码测试一下:

from flask import Flask
app = Flask(__name__)

@app.route("/")
def hello():
    return "Hello World!"

if __name__ == "__main__":
    app.run()

可以发现,系统会在 5000 端口开启 Web 服务,控制台输出如下:

* Running on http://127.0.0.1:5000/ (Press CTRL+C to quit)

图 1-40 运行结果

4. 结语

后面,我们会利用 Flask + Redis 维护动态代理池和 Cookies 池。

1.6.2 Tornado 的安装

Tornado 是一个支持异步的 Web 框架,通过使用非阻塞 I/O 流,它可以支撑成千上万的开放连接,效率非常高,本节就来介绍一下它的安装方式。

1. 相关链接

2. pip 安装

这里推荐使用 pip 安装,相关命令如下:

pip3 install tornado

执行完毕后,即可完成安装。

3. 验证安装

同样,这里也可以用一个 Hello World 程序测试一下,代码如下:

import tornado.ioloop
import tornado.web

class MainHandler(tornado.web.RequestHandler):
    def get(self):
        self.write("Hello, world")

def make_app():
    return tornado.web.Application([(r"/", MainHandler),
    ])

if __name__ == "__main__":
    app = make_app()
    app.listen(8888)
    tornado.ioloop.IOLoop.current().start()

图 1-41 运行结果

4. 结语

后面,我们会利用 Tornado + Redis 来搭建一个 ADSL 拨号代理池。

直接访问 ,可以观察到网页中呈现了 Hello World!,如图 1-40 所示,一个最简单的 Flask 程序就运行成功了。

GitHub:

PyPI:

官方文档:

直接运行程序,可以发现系统在 8888 端口运行了 Web 服务,控制台没有输出内容,此时访问 Hello,world,如图 1-41 所示,这就说明 Tornado 成功安装了。

https://github.com/pallets/flask
http://flask.pocoo.org
http://docs.jinkan.org/docs/flask
https://pypi.python.org/pypi/Flask
http://127.0.0.1:5000/
https://github.com/tornadoweb/tornado
https://pypi.python.org/pypi/tornado
http://www.tornadoweb.org
http://127.0.0.1:8888/,可以观察到网页中呈现了