PHP实现的抓取小说网站内容功能示例

孙雪峰

2019-06-27

本文实例讲述了PHP实现的抓取小说网站内容功能。分享给大家供大家参考，具体如下：

爬取免费内容，弄到手机，听书，妥妥的。

ini_set('user_agent','Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 2.0.50727; .NET CLR 3.0.04506.30; GreenBrowser)');
ini_set('max_execution_time', '0');
$base = 'https://www.qu.la/book/19434/';
$start = '7504808.html';
$content_grep = '/    (.*)<br\/>/';
//$content_grep = '/<div id="content">(.*)<br\/>/sS';
$next_grep = '/<a id="pager_next" href=\"(\d+\.html)\" target="_top" class="next">下一章<\/a>/';
$next = $start;
$file_name = '听书了.txt';
while($next) {
  echo 'getting ' . $next . PHP_EOL;
  $result = file_get_contents($base . $next);
  preg_match_all($content_grep, $result, $match);
  $isTitle = true;
  $content = "";
  foreach($match[1] as $line) {
    $line  = str_replace("<br/>", '', $line);
    $line  = str_replace(" ", '', $line);
    if($isTitle) {
      $content = $line . PHP_EOL . PHP_EOL;
      $isTitle = false;
    } else {
      $content .= '    ' . $line . PHP_EOL . PHP_EOL;
    }
  }
  $file = fopen($file_name, 'a');
  echo 'write length: ' . strlen($content) . PHP_EOL;
  fwrite($file, $content);
  fclose($file);
  echo '.';
  preg_match($next_grep, $result, $match);
  $next = $match[1];
}

更多关于PHP相关内容感兴趣的读者可查看本站专题：《php socket用法总结》、《php字符串(string)用法总结》、《PHP数学运算技巧总结》、《php面向对象程序设计入门教程》、《PHP数组(Array)操作技巧大全》、《PHP数据结构与算法教程》、《php程序设计算法总结》及《PHP网络编程技巧总结》

希望本文所述对大家PHP程序设计有所帮助。

php 编程语言

孙雪峰

0 关注 0 粉丝 0 动态

相关推荐

PHP常量DIRECTORY_SEPARATOR原理及用法解析

在 Windows 中，斜线(/)和反斜线(\)都可以用作目录分隔符，在linux上路径的分隔符是"/"。在程序本地运行很正常，上传到服务器后，发现图片没有显示出来，图片链接是绝对路径 var/，而且当中带有 \ 但是我记得这个路径已经

Noneyes 5评论 2020-11-10

PHP实现倒计时功能

<p>考试结束时间：<?

wqcong 14评论 2020-11-16

关于PHP求解三数之和问题详析

给你一个包含 n 个整数的数组 nums，判断 nums 中是否存在三个元素 a，b，c ，使得 a + b + c = 0 ？请你找出所有满足条件且不重复的三元组。给定数组 nums = [-1, 0, 1, 2, -1, -4]，暴力枚举法，三层 fo

zyyjay 5评论 2020-11-09

PHP中isset、empty的用法与区别示例详解

在编写程序调用变量时，遇到未定义的变量时，会报错，这是就需要我们对变量先进行判断，再进行相关操作。如果已经使用 unset() 释放了一个变量之后，它将不再是 isset()。若使用 isset() 测试一个被设置成 NULL 的变量，将返回 FALSE。

xuebingnan 5评论 2020-11-05

PHP后门隐藏的一些技巧总结

Get-ItemProperty -Path D:\1.dll | Format-list -Property * -Force. powershell.exe -command "ls 'upload\*.*' | foreach-object

samtrue 5评论 2020-11-22

PHP 99乘法表的几种实现代码

首先按照规矩，还是先废话一番，对于刚学PHP的新手来讲，用php写九九乘法表无疑是非常经典的一道练习题。但不要小看这道练习题，它对于逻辑的考验还是相当到位的。也许有人会觉得，九九乘法表有什么难的，我两分钟就可以写出来。可是对于新手，却是可以锻炼逻辑思维的。

stefan0 5评论 2020-11-22

php7连接MySQL实现简易查询程序的方法

假设我们制作的是分班情况查询程序，将使用PHP7的环境以PDO的方式连接MySQL。通过学号和姓名查询自己所在班级。准备就绪，开始吧，现在！echo "<tr><th>学号</th><th>姓名&l

yifangs 5评论 2020-10-13

如何利用PHP实现上传图片功能详解

对于中文网页需要使用<meta charset="utf-8">声明编码，否则会出现乱码。二、form表单 <form>标签用于为用户输入创建 HTML 表单，表单里包含php文件路径，配置数据传输方式，{ec

songshijiazuaa 5评论 2020-09-24

PHP编程一定要改掉的5个不良习惯

测试循环前数组是否为空？foreach循环或数组函数可以处理空数组。这不是特定于PHP的，但我经常看到它。你可以通过提前返回，来减少缩进级别的极简代码！该函数的所有“有用”主体现在处于第一个缩进级别。而且该函数一次可以接受多个参数！最后一个错误我看到的往往

hebiwtc 5评论 2020-09-18

goto语法在PHP中的使用教程

在C++、Java及很多语言中，都存在着一个神奇的语法，就是goto。代码运行到 goto 位置时，就跳转到了 a: 所在的代码行并继续执行下去。它们都会报同样的错误，因为作用域的关系无法找到定义的 goto 标签。代码执行到 goto 时，跳回了之前的b

天步 5评论 2020-09-17

PHP http请求超时问题解决方案

1，curl进程运行了一个世纪还木结束，curl的时候设置了超时时间 --connect-timeout 1000. 2，operation timed out after 1000 milliseconds with 0 bytes received.

83911535 9评论 2020-11-13

PHP dirname简单使用代码实例

给出一个包含有指向一个文件的全路径的字符串，本函数返回去掉文件名后的目录名。在 Windows 中，斜线（/）和反斜线（\）都可以用作目录分隔符。在其它环境下是斜线（/）。否则返回的是把path中结尾的/component去掉之后的字符串。echo &qu

whatsyourname 5评论 2020-11-13

基于PHP实现用户在线状态检测

//$sql = ' delete from __TABLE__ where ';login_account')) { // 如果是登录用户

zhouyuqi 2评论 2020-11-10

PhpStorm 2020.3：新增开箱即用的PHP 8属性(推荐)

wzm 5评论 2020-10-30

PHP fopen中文文件名乱码问题解决方案

一般在php中会使用fopen进行生成文件，但是当文件名存在中文时保存文件会出现中文乱码。$fileName = __DIR__ . '\测试.txt';所以当要在页面上输出文件名又需要保存文件时，可以先保存原先的中文文件名，再通过文件名编码进行创建文件。

mathchao 5评论 2020-10-28

PHP dirname功能及原理实例解析

给出一个包含有指向一个文件的全路径的字符串，本函数返回去掉文件名后的目录名。在 Windows 中，斜线（/）和反斜线（\）都可以用作目录分隔符。在其它环境下是斜线（/）。否则返回的是把path中结尾的/component去掉之后的字符串。echo &qu

王志龙 5评论 2020-10-28

PHP dirname(FILE)原理及用法解析

即使这个文件被其他文件引用，__file__始终是它所在文件的完整路径，而不是引用它的那个文件完整路径。dirname;得到的是__FILE__所在文件的上一层目录名。_FILE_ 得到的就是完整路径即 F:\Modoer_2.6_SC_UTF8\upl

wwwsurfphpseocom 2评论 2020-10-28

如何运行/调试你的PHP代码

没有任何一名程序员可以一气呵成、完美无缺的在不用调试的情况下完成一个功能或模块。调试实际分很多种情况。本篇文章我分享下自己在实际开发工作中的经验，我个人理解,调试分三种,注意我所讲的是调试并非测试。这种方式简单粗暴,一般PHP程序员都会用，那就是浏览器调试

diskingchuan 5评论 2020-10-23

php redis setnx分布式锁简单原理解析

我就废话不多说了，大家还是直接看代码吧~如果一个请求更新缓存的时间比较长，甚至比锁的有效期还要长，导致在缓存更新过程中，锁就失效了，此时另一个请求会获取锁，但前一个请求在缓存更新完毕的时候，如果不加以判断直接删除锁，就会出现误删除其它请求创建的锁的情况，所

savorTheFlavor 2评论 2020-10-23

php使用event扩展的io复用测试的示例

//sock_set_option; //复用还处于 TIME_WAIT

Nicolase 5评论 2020-10-20

孙雪峰

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号