基于curl数据采集之单页面采集函数get_html的使用

starter0

2013-04-28

关注关注

这是一个系列没办法在一两天写完所以一篇一篇的发布

大致大纲：

1.curl数据采集系列之单页面采集函数get_html

2.curl数据采集系列之多页面并行采集函数get_htmls

3.curl数据采集系列之正则处理函数get _matches

4.curl数据采集系列之代码分离

5.curl数据采集系列之并行逻辑控制函数web_spider

单页面采集在数据采集过程中是最常用的一个功能有时在服务器访问限制的情况下只能使用这种采集方式慢但是可以简单的控制所以写好一个常用的curl函数调用是很重要的

百度和网易比较熟悉所以拿这两个网站首页采集来做例子讲解

最简单的写法：

代码如下：

$url = 'http://www.baidu.com';
 $ch = curl_init($url);
 curl_setopt($ch,CURLOPT_RETURNTRANSFER,true);
 curl_setopt($ch,CURLOPT_TIMEOUT,5);
 $html = curl_exec($ch);
 if($html !== false){
     echo $html;
 }

由于使用频繁可以利用curl_setopt_array写成函数的形式：

代码如下：

function get_html($url,$options = array()){
     $options[CURLOPT_RETURNTRANSFER] = true;
     $options[CURLOPT_TIMEOUT] = 5;
     $ch = curl_init($url);
     curl_setopt_array($ch,$options);
     $html = curl_exec($ch);
     curl_close($ch);
     if($html === false){
         return false;
     }
     return $html;
 }

代码如下：

$url = 'http://www.baidu.com';
echo get_html($url);

有时候需要传递一些特定的参数才能得到正确的页面如现在要得到网易的页面：

代码如下：

$url = 'http://www.163.com';
echo get_html($url);

会看到一片空白什么也没有那么再利用curl_getinfo写一个函数看看发生了什么：

代码如下：

function get_info($url,$options = array()){
     $options[CURLOPT_RETURNTRANSFER] = true;
     $options[CURLOPT_TIMEOUT] = 5;
     $ch = curl_init($url);
     curl_setopt_array($ch,$options);
     $html = curl_exec($ch);
     $info = curl_getinfo($ch);
     curl_close($ch);
     return $info;
 }
 $url = 'http://www.163.com';
 var_dump(get_info($url));

基于curl数据采集之单页面采集函数get_html的使用

可以看到http_code 302 重定向了这时候就需要传递一些参数了：

代码如下：

$url = 'http://www.163.com';
$options[CURLOPT_FOLLOWLOCATION] = true;
echo get_html($url,$options);

基于curl数据采集之单页面采集函数get_html的使用

会发现怎么是这样的一个页面和我们电脑访问的不同？？？

看来参数还是不够不够服务器判断我们的客户端是什么设备上的就返回了个普通版

看来还要传送USERAGENT

代码如下：

$url = 'http://www.163.com';
 $options[CURLOPT_FOLLOWLOCATION] = true;
 $options[CURLOPT_USERAGENT] = 'Mozilla/5.0 (Windows NT 6.1; rv:19.0) Gecko/20100101 Firefox/19.0';
 echo get_html($url,$options);

基于curl数据采集之单页面采集函数get_html的使用

OK现在页面已经出来了这样基本这个get_html函数基本能实现这样扩展的功能

当然也有另外的办法可以实现，当你明确的知道网易的网页的时候就可以简单采集了：

代码如下：

 $url = 'http://www.163.com/index.html';
 echo get_html($url);

这样也可以正常的采集

curl 大数据 html代码

starter0

0 关注 0 粉丝 0 动态

关注关注

PHP http请求超时问题解决方案

1，curl进程运行了一个世纪还木结束，curl的时候设置了超时时间 --connect-timeout 1000. 2，operation timed out after 1000 milliseconds with 0 bytes received.

83911535 9评论 2020-11-13

使用curl从命令行访问互联网

下载我们整理的 curl 备忘录。要在不使用图形界面的情况下从互联网上获取所需的信息，curl 是一种快速有效的方法。curl通常被视作一款非交互式 Web 浏览器，这意味着它能够从互联网上获取信息，并在你的终端中显示，或将其保存到文件中。从表面看，这是

曾是土木人 2020-10-31

在Ubuntu和其他Linux发行版上使用Yarn

本速成教程向你展示了在 Ubuntu 和 Debian Linux 上安装 Yarn 包管理器的官方方法。你还将学习到一些基本的 Yarn 命令以及彻底删除 Yarn 的步骤。Facebook 声称 Yarn 比 npm 更快、更可靠、更安全。与 npm

yegen00 2020-10-21

cURL简介：高级程序员都在用的工具

与cURL一起使用的选项很多，我们在此介绍的是可用于快速测试API端点的基本选项。cURL是一种用于从服务器传输数据或向服务器传输数据的传输工具。它支持各种互联网传输协议，包括：。我们可以使用cURL执行一些有用的技巧，如代理支持、用户身份验证、FTP上传

soralaro 2020-10-11

Curl命令

Curl命令在linux操作系统中经常来测试网络和url的联通性，模拟正常的网络访问，当然除了这个作用之外，作为y一款强大的工具，curl还支持包括HTTP、HTTPS、ftp等众多协议，还支持POST、cookies、认证、从指定偏移处下载部分文件等功能

katanaFlower 2020-09-18

Curl 分片下载

若返回结果内包含：Accept-Ranges:bytes ，则说明这个服务器是支持 HTTP Range Request的；curl --range 0-5000000000 -o part1 <url> --range 指定下载的某一片段；

wytzsjzly 2020-08-17

PHP利用curl发送HTTP请求的实例代码

PHP支持的由Daniel Stenberg创建的libcurl库允许你与各种的服务器使用各种类型的协议进行连接和通讯。libcurl目前支持http、https、ftp、gopher、telnet、dict、file和ldap协议。libcurl同时也支

88407710 2020-08-17

PHP语言对接抖音快手小红书视频/图片去水印API接口源码

以下为PHP语言调用去水印接口的示例，分别展示GET请求方式和POST请求方式的调用方式。示例代码中用到的userId和secretKey请前往开发者接口管理中心获取。

ChinaJoeEE 2020-08-16

php模拟post提交请求调用接口示例解析

下面是具体的调用案例。这样就提交请求，并且获取请求结果了。一般返回的结果是json格式的。这里的post是拼接出来的。也可以改造成下面的方式。将拼接也封装了起来，这样调用的时候就更简洁了。

CyborgLin 2020-08-15

PHP如何获取Cookie并实现模拟登录

$cookie_jar = dirname(__FILE__)."/pic.cookie";$url = "http://1.2.3.4/";$ch = curl_init();curl_setopt($ch, CU

Blueberry 2020-08-15

centos安装composer下载包curl时CA证书报错

curl performs SSL certificate verification by default, using a "bundle". of Certificate Authority public keys . If th

PinkBean 2020-08-11

一文学会爬虫技巧

作为冷数据启动和丰富数据的重要工具，爬虫在业务发展中承担着重要的作用，我们业务在发展过程中积累了不少爬虫使用的经验，在此分享给大家，希望能对之后的业务发展提供一些技术选型方向上的思路,以更好地促进业务发展。对于这种请求，bash 中的 curl 足堪大任!

katanaFlower 2020-08-03

终端命令行生存之——网络冲浪篇

Linux命令行是强大的工具，命令行是我们的日常工作，命令行更是我们日常生活。之前虫虫给大家写过一些命令的的介绍，命令行的工具，命令行下的开发。实际上命令行也是我们不可或缺的生活。本文我们来介绍一下命令行下的网络冲浪工具命令行浏览器。lynx一个历史悠久纯

hunningtu 2020-07-30

curl获取HTTP返回状态码

status_code=curl -I -m 10 -o /dev/null -s -w %{http_code} www.baidu.com. status_code=$(curl -H "Content-Type: application/j

阿债的方寸天地 2020-06-28

curl常用参数

curl -d ‘login=emma&password=123‘ -X POST example.com/login. curl -d ‘login=emma‘ -d ‘password=123‘ -X POST example.com/log

pingyan 2020-06-25

elasticsearch常用命令

获取es的基本信息。查看当前节点的所有 Index

tigercn 2020-06-25

curl

curl --noproxy ‘*‘ jd.com 所有要访问的url不使用代理,curl后可跟多个url, * 必须单引号或双引号包围,作为一个字符串传递给curl,否则shell会将其解析为当前目录下的所有文件名第一个作为noproxy的参数了

wytzsjzly 2020-06-25

curl 的用法指南

curl 是常用的命令行工具，用来请求 Web 服务器。它的名字就是客户端的 URL 工具的意思。它的功能非常强大，命令行参数多达几十种。如果熟练的话，完全可以取代 Postman 这一类的图形界面工具。本文介绍它的主要命令行参数，作为日常的参考，方便查阅

阳光岛主 2020-06-25

curl

curl --location --request GET ‘http://10.111.00.16:9999/api/b/gcode/predict?token=6f02b5336b15086bfb067c39407a4e11&channel_i

阿债的方寸天地 2020-06-16

curl使用小记(二)——远程下载一张图片

在之前的文章《curl使用小记(一)》中论述了命令行工具curl的基本使用。除此之外，curl还提供了能够直接供程序调用的模块库接口libcurl。这里就通过一个远程下载网络上的一个图片的实例，讲述libcurl的使用。libcurl库还是推荐直接找已经编

阳光岛主 2020-06-14

安科网

基于curl数据采集之单页面采集函数get_html的使用

starter0

starter0

相关推荐

PHP http请求超时问题解决方案

使用curl从命令行访问互联网

在Ubuntu和其他Linux发行版上使用Yarn

cURL简介：高级程序员都在用的工具

Curl命令

Curl 分片下载

PHP利用curl发送HTTP请求的实例代码

PHP语言对接抖音快手小红书视频/图片去水印API接口源码

php模拟post提交请求调用接口示例解析

PHP如何获取Cookie并实现模拟登录

centos安装composer下载包curl时CA证书报错

一文学会爬虫技巧

终端命令行生存之——网络冲浪篇

curl获取HTTP返回状态码

curl常用参数

elasticsearch常用命令

curl

curl 的用法指南

curl

curl使用小记(二)——远程下载一张图片

starter0