Scrapyd简易食用教程

hybpjx

2024-12-02

python

Scrapyd安装:

#服务端
pip install scrapyd  
#客户端
pip install scrapyd-client

打开命令行，输入

scrapyd

访问 127.0.0.1:6800 即可看到web界面

部署scrapy项目

在scrapy项目目录下，有一个scrapy.cfg的配置文件：

# Automatically created by: scrapy startproject
#
# For more information about the [deploy] section see:
# https://scrapyd.readthedocs.io/en/latest/deploy.html

[settings]
default = xxx.settings

[deploy:test]
url = http://localhost:6800/
project = xxx

test——项目名（随便）

project 工程名（你创建项目时使用的名字）

windows环境下配置：

到python虚拟环境下找到 Scripts/scrapyd-deploy

新建scrapyd-deploy.bat

这里路径需要自己修改

1	`"E:\python_venv\envTest\Scripts\python.exe" "E:\python_venv\envTest\Scripts\scrapyd-deploy" %1 %2 %3 %4 %5 %6 %7 %8 %9`

然后，进入到我们爬虫的根目录，运行scrapyd-deploy

把爬虫项目上传到服务端

准备工作：查看当前目录下的 spider

1 2	`(base) $ scrapy list xxxx1 xxxx2`

执行打包命令
scrapyd-deploy 部署名称 -p 项目名称
如scrapyd-deploy bushu -p test
可以去网页中127.0.0.1:6800查看爬虫运行状态
停止爬虫
curl http://localhost:6800/cancel.json -d project=scrapy项目名称 -d job=运行ID
删除scrapy项目
curl http://localhost:6800/delproject.json -d project=scrapy项目名称
查看有多少个scrapy项目在api中
curl http://localhost:6800/listprojects.json
查看指定的scrapy项目中有多少个爬虫
curl http://localhost:6800/listspiders.json?project=scrapy项目名称
总结几个请求url

1、获取状态
http://127.0.0.1:6800/daemonstatus.json

2、获取项目列表
http://127.0.0.1:6800/listprojects.json

3、获取项目下已发布的爬虫列表
http://127.0.0.1:6800/listspiders.json?project=myproject

4、获取项目下已发布的爬虫版本列表
http://127.0.0.1:6800/listversions.json?project=myproject

5、获取爬虫运行状态
http://127.0.0.1:6800/listjobs.json?project=myproject

6、启动服务器上某一爬虫（必须是已发布到服务器的爬虫）
http://127.0.0.1:6800/schedule.json 
（post方式，data={"project":myproject,"spider":myspider}）

7、删除某一版本爬虫
http://127.0.0.1:6800/delversion.json
（post方式，data={"project":myproject,"version":myversion}）

8、删除某一工程，包括该工程下的各版本爬虫
http://127.0.0.1:6800/delproject.json（post方式，data={"project":myproject}）