12.3-pyspider用法详解
1. 命令行
pyspider allpyspider [OPTIONS] COMMAND [ARGS]Options:
-c, --config FILENAME 指定配置文件名称
--logging-config TEXT 日志配置文件名称,默认: pyspider/pyspider/logging.conf
--debug 开启调试模式
--queue-maxsize INTEGER 队列的最大长度
--taskdb TEXT taskdb 的数据库连接字符串,默认: sqlite
--projectdb TEXT projectdb 的数据库连接字符串,默认: sqlite
--resultdb TEXT resultdb 的数据库连接字符串,默认: sqlite
--message-queue TEXT 消息队列连接字符串,默认: multiprocessing.Queue
--phantomjs-proxy TEXT PhantomJS 使用的代理,ip:port 的形式
--data-path TEXT 数据库存放的路径
--version pyspider 的版本
--help 显示帮助信息
2. crawl() 方法
url
callback
age
priority
exetime
retries
itag
auto_recrawl
method
params
data
files
user_agent
headers
cookies
connect_timeout
timeout
allow_redirects
validate_cert
proxy
fetch_type
js_script
js_run_at
js_viewport_width/js_viewport_height
load_images
save
cancel
force_update
3. 任务区分
4. 全局配置
5. 定时爬取
6. 项目状态
7. 抓取进度

8. 删除项目
9. 结语
Last updated
Was this helpful?