本文利用Python2.7爬取了Tumblr博客空间的图片及视频。以用户zerohd4869的Tumblr博客为示例,借助Chrome的DevTools工具解析页面,基于HTTP框架Requests下,通过Tumblr API获得XML资源数据,使用Queue和Threading等技术实现该博客空间资源的多线程并发下载。具体介绍及使用方法可在本人CSDN博客查看。
os, sys, requests, xmltodict, six.moves, threading, re, json
$ pip install -r requirements.txt
$ python tumblr-photo-video-crawler.py