phpspider -- PHP蜘蛛爬虫框架

《我用爬虫一天时间“偷了”知乎一百万用户，只为证明PHP是世界上最好的语言》所使用的程序

phpspider是一个爬虫开发框架。使用本框架，你不用了解爬虫的底层技术实现，爬虫被网站屏蔽、有些网站需要登录或验证码识别才能爬取等问题。简单几行PHP代码，就可以创建自己的爬虫，利用框架封装的多进程Worker类库，代码更简洁，执行效率更高速度更快。

demo目录下有一些特定网站的爬取规则，只要你安装了PHP环境，代码就可以在命令行下直接跑。对爬虫感兴趣的开发者可以加QQ群一起讨论：147824717。

下面以糗事百科为例, 来看一下我们的爬虫长什么样子:

$configs = array(
    'name' => '糗事百科',
    'domains' => array(
        'qiushibaike.com',
        'www.qiushibaike.com'
    ),
    'scan_urls' => array(
        'http://www.qiushibaike.com/'
    ),
    'content_url_regexes' => array(
        "http://www.qiushibaike.com/article/\d+"
    ),
    'list_url_regexes' => array(
        "http://www.qiushibaike.com/8hr/page/\d+\?s=\d+"
    ),
    'fields' => array(
        array(
            // 抽取内容页的文章内容
            'name' => "article_content",
            'selector' => "//*[@id='single-next-link']",
            'required' => true
        ),
        array(
            // 抽取内容页的文章作者
            'name' => "article_author",
            'selector' => "//div[contains(@class,'author')]//h2",
            'required' => true
        ),
    ),
);
$spider = new phpspider($configs);
$spider->start();

爬虫的整体框架就是这样, 首先定义了一个$configs数组, 里面设置了待爬网站的一些信息, 然后通过调用$spider = new phpspider($configs);和$spider->start();来配置并启动爬虫.

运行界面如下:

更多详细内容，移步到：

开发文档

Name	Name	Last commit message	Last commit date
Latest commit owner888 fix: 修复中文字符串截取 Dec 15, 2024 96fc4ba · Dec 15, 2024 History 397 Commits
core	core	Merge pull request #134 from woodylan/master	Dec 15, 2024
demo	demo	fix: 修复中文字符串截取	Dec 15, 2024
hacked-emails	hacked-emails	修复db类事务bug	Jul 16, 2018
library	library	my redis	Mar 12, 2018
.gitignore	.gitignore	“update”	Dec 2, 2017
README.md	README.md	Update README.md	Nov 10, 2016
autoloader.php	autoloader.php	修复redis lsize过期bug；修复内容分页attached_url处理的bug	Oct 9, 2020
composer.json	composer.json	in order to build my packagist	Aug 7, 2017
gitadd.sh	gitadd.sh	in order to build my packagist	Aug 7, 2017
test.go	test.go	test	Jul 9, 2020
test.php	test.php	修复redis lsize过期bug；修复内容分页attached_url处理的bug	Oct 9, 2020
worker.php	worker.php	修复db类事务bug	Jul 16, 2018

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

phpspider -- PHP蜘蛛爬虫框架

运行界面如下:

About

Releases 19

Packages

Contributors 6

Languages

owner888/phpspider

Folders and files

Latest commit

History

Repository files navigation

phpspider -- PHP蜘蛛爬虫框架

运行界面如下:

About

Topics

Resources

Stars

Watchers

Forks

Releases 19

Packages 0

Contributors 6

Languages

Packages