tumblr-crawler

这是一个Python的脚本,配置运行后可以从某些你指定的tumblr博客下载图片和视频.

怎么样方便地讨论交流

我们现在有了Slack, 欢迎大家加入, 讨论并解决问题.
或者直接在Github上开新的issue;

环境安装

程序猿和程序媛见这里

配置好你的Python环境,然后pip install requests xmltodict.

或者

$ git clone https://github.com/dixudx/tumblr-crawler.git
$ cd tumblr-crawler
$ pip install -r requirements.txt

大功告成,直接跳到下一节配置和运行.

小白见这里

首先你需要一个Python的环境,安装方法请参照这里.
安装pip(主要是希望通过pip来安装Python的一些依赖包)
- 当然也可以通过其他方式来安装这些包(此处自行百度),推荐通过pip来安装依赖包;
- 如果你是Windows用户,按照上面第一个步骤来安装的Python,那么请忽略这一步, 因为已经安装过了; 如果忘记勾选,安装教程见这里
- Mac用户,请参照这个教程
- 然后在终端(terminal)里面运行 pip install xmltodict six "requests>=2.10.0" "PySocks>=1.5.6";
下载tumblr-crawler并解压缩;

配置和运行

有两种方式来指定你要下载的站点,一是编辑sites.txt,二是指定命令行参数.

第一种方法:编辑sites.txt文件

找到一个文字编辑器,然后打开文件sites.txt,把你想要下载的Tumblr站点编辑进去,以逗号/空格/tab/表格鍵/回车符分隔,可以多行,不需要.tumblr.com的后缀.例如,如果你要下载 vogue.tumblr.com and gucci.tumblr.com,这个文件看起来是这样的:

vogue,gucci
vogue2, gucci2

然后保存文件,双击运行tumblr-photo-video-ripper.py或者在终端(terminal)里面运行python tumblr-photo-video-ripper.py

第二种方法:使用命令行参数(仅针对会使用操作系统终端的用户)

如果你对Windows或者Unix系统的命令行很熟悉,你可以通过指定运行时的命令行参数来指定要下载的站点:

python tumblr-photo-video-ripper.py site1,site2

站点的名字以逗号分隔,不要有空格,不需要.tumblr.com的后缀.

站点图片/视频的下载与保存

程序运行后,会默认在当前路径下面生成一个跟tumblr博客名字相同的文件夹, 照片和视频都会放在这个文件夹下面.

运行这个脚本,不会重复下载已经下载过的图片和视频,所以不用担心重复下载的问题.同时,多次运行可以帮你找回丢失的或者删除的图片和视频.

使用代理 (可选)

如果不能够顺利访问和下载tumblr的内容,你应该配置一下代理.

文件格式参考./proxies_sample1.json和./proxies_sample2.json. 然后把你的代理信息用json的格式写入./proxies.json. 你可以访问http://jsonlint.com/以确保你的格式是正确的.

如果文件./proxies.json没有任何内容,下载过程中不会使用代理.

如果你是全局模式使用Shadowsocks做代理, 此时你的./proxies.json文件可以写入如下内容,

{
    "http": "socks5://127.0.0.1:1080",
    "https": "socks5://127.0.0.1:1080"
}

然后重新运行下载命令.

喜欢就打赏吧!

如果您喜欢这个项目, 那就打个赏支持一下作者吧! 非常感谢!

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README_CN.md

README_CN.md

tumblr-crawler

怎么样方便地讨论交流

环境安装

程序猿和程序媛见这里

小白见这里

配置和运行

第一种方法:编辑sites.txt文件

第二种方法:使用命令行参数(仅针对会使用操作系统终端的用户)

站点图片/视频的下载与保存

使用代理 (可选)

喜欢就打赏吧!

Files

README_CN.md

Latest commit

History

README_CN.md

File metadata and controls

tumblr-crawler

怎么样方便地讨论交流

环境安装

程序猿和程序媛见这里

小白见这里

配置和运行

第一种方法:编辑sites.txt文件

第二种方法:使用命令行参数(仅针对会使用操作系统终端的用户)

站点图片/视频的下载与保存

使用代理 (可选)

喜欢就打赏吧!