php file_get_contents抓取Gzip网页乱码的三种解决方法

ppwangGS

2013-11-12

把抓取到的内容转下编码即可($content=iconv("GBK", "UTF-8//IGNORE", $content);)，我们这里讨论的是如何抓取开了Gzip的页面。怎么判断呢？获取的头部当中有Content-Encoding: gzip说明内容是GZIP压缩的。用FireBug看一下就知道页面开了gzip没有。下面是用firebug查看我的博客的头信息，Gzip是开了的。

代码如下：

请求头信息原始头信息
Accept text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Encoding gzip, deflate
Accept-Language zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3
Connection keep-alive
Cookie __utma=225240837.787252530.1317310581.1335406161.1335411401.1537; __utmz=225240837.1326850415.887.3.utmcsr=google|utmccn=(organic)|utmcmd=organic|utmctr=%E4%BB%BB%E4%BD%95%E9%A1%B9%E7%9B%AE%E9%83%BD%E4%B8%8D%E4%BC%9A%E9%82%A3%E4%B9%88%E7%AE%80%E5%8D%95%20site%3Awww.nowamagic.net; PHPSESSID=888mj4425p8s0m7s0frre3ovc7; __utmc=225240837; __utmb=225240837.1.10.1335411401
Host www.nowamagic.net
User-Agent Mozilla/5.0 (Windows NT 5.1; rv:12.0) Gecko/20100101 Firefox/12.0

下面介绍一些解决方案：

1. 使用自带的zlib库
如果服务器已经装了zlib库，用下面的代码可以轻易解决乱码问题。

代码如下：

$data = file_get_contents("compress.zlib://".$url);

2. 使用CURL代替file_get_contents

代码如下：

function curl_get($url, $gzip=false){
 $curl = curl_init($url);
 curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
 curl_setopt($curl, CURLOPT_CONNECTTIMEOUT, 10);
 if($gzip) curl_setopt($curl, CURLOPT_ENCODING, "gzip"); // 关键在这里
 $content = curl_exec($curl);
 curl_close($curl);
 return $content;
}

3. 使用gzip解压函数

代码如下：

function gzdecode($data) { 
  $len = strlen($data); 
  if ($len < 18 || strcmp(substr($data,0,2),"\x1f\x8b")) { 
    return null;  // Not GZIP format (See RFC 1952) 
  } 
  $method = ord(substr($data,2,1));  // Compression method 
  $flags  = ord(substr($data,3,1));  // Flags 
  if ($flags & 31 != $flags) { 
    // Reserved bits are set -- NOT ALLOWED by RFC 1952 
    return null; 
  } 
  // NOTE: $mtime may be negative (PHP integer limitations) 
  $mtime = unpack("V", substr($data,4,4)); 
  $mtime = $mtime[1]; 
  $xfl   = substr($data,8,1); 
  $os    = substr($data,8,1); 
  $headerlen = 10; 
  $extralen  = 0; 
  $extra     = ""; 
  if ($flags & 4) { 
    // 2-byte length prefixed EXTRA data in header 
    if ($len - $headerlen - 2 < 8) { 
      return false;    // Invalid format 
    } 
    $extralen = unpack("v",substr($data,8,2)); 
    $extralen = $extralen[1]; 
    if ($len - $headerlen - 2 - $extralen < 8) { 
      return false;    // Invalid format 
    } 
    $extra = substr($data,10,$extralen); 
    $headerlen += 2 + $extralen; 
  } 

  $filenamelen = 0; 
  $filename = ""; 
  if ($flags & 8) { 
    // C-style string file NAME data in header 
    if ($len - $headerlen - 1 < 8) { 
      return false;    // Invalid format 
    } 
    $filenamelen = strpos(substr($data,8+$extralen),chr(0)); 
    if ($filenamelen === false || $len - $headerlen - $filenamelen - 1 < 8) { 
      return false;    // Invalid format 
    } 
    $filename = substr($data,$headerlen,$filenamelen); 
    $headerlen += $filenamelen + 1; 
  } 


  $commentlen = 0; 
  $comment = ""; 
  if ($flags & 16) { 
    // C-style string COMMENT data in header 
    if ($len - $headerlen - 1 < 8) { 
      return false;    // Invalid format 
    } 
    $commentlen = strpos(substr($data,8+$extralen+$filenamelen),chr(0)); 
    if ($commentlen === false || $len - $headerlen - $commentlen - 1 < 8) { 
      return false;    // Invalid header format 
    } 
    $comment = substr($data,$headerlen,$commentlen); 
    $headerlen += $commentlen + 1; 
  } 


  $headercrc = ""; 
  if ($flags & 1) { 
    // 2-bytes (lowest order) of CRC32 on header present 
    if ($len - $headerlen - 2 < 8) { 
      return false;    // Invalid format 
    } 
    $calccrc = crc32(substr($data,0,$headerlen)) & 0xffff; 
    $headercrc = unpack("v", substr($data,$headerlen,2)); 
    $headercrc = $headercrc[1]; 
    if ($headercrc != $calccrc) { 
      return false;    // Bad header CRC 
    } 
    $headerlen += 2; 
  } 


  // GZIP FOOTER - These be negative due to PHP's limitations 
  $datacrc = unpack("V",substr($data,-8,4)); 
  $datacrc = $datacrc[1]; 
  $isize = unpack("V",substr($data,-4)); 
  $isize = $isize[1]; 


  // Perform the decompression: 
  $bodylen = $len-$headerlen-8; 
  if ($bodylen < 1) { 
    // This should never happen - IMPLEMENTATION BUG! 
    return null; 
  } 
  $body = substr($data,$headerlen,$bodylen); 
  $data = ""; 
  if ($bodylen > 0) { 
    switch ($method) { 
      case 8: 
        // Currently the only supported compression method: 
        $data = gzinflate($body); 
        break; 
      default: 
        // Unknown compression method 
        return false; 
    } 
  } else { 
    // I'm not sure if zero-byte body content is allowed. 
    // Allow it for now...  Do nothing... 
  } 


  // Verifiy decompressed size and CRC32: 
  // NOTE: This may fail with large data sizes depending on how 
  //       PHP's integer limitations affect strlen() since $isize 
  //       may be negative for large sizes. 
  if ($isize != strlen($data) || crc32($data) != $datacrc) { 
    // Bad format!  Length or CRC doesn't match! 
    return false; 
  } 
  return $data; 
}

使用：

代码如下：

$html=file_get_contents('//www.jb51.net/');
$html=gzdecode($html);

就介绍这三个方法，应该能解决大部分gzip引起的抓取乱码问题了。

curl file_get_contents gzip 网页抓取 php

ppwangGS

0 关注 0 粉丝 0 动态

关注关注

PHP http请求超时问题解决方案

1，curl进程运行了一个世纪还木结束，curl的时候设置了超时时间 --connect-timeout 1000. 2，operation timed out after 1000 milliseconds with 0 bytes received.

83911535 2020-11-13

使用curl从命令行访问互联网

下载我们整理的 curl 备忘录。要在不使用图形界面的情况下从互联网上获取所需的信息，curl 是一种快速有效的方法。curl通常被视作一款非交互式 Web 浏览器，这意味着它能够从互联网上获取信息，并在你的终端中显示，或将其保存到文件中。从表面看，这是

曾是土木人 2020-10-31

在Ubuntu和其他Linux发行版上使用Yarn

本速成教程向你展示了在 Ubuntu 和 Debian Linux 上安装 Yarn 包管理器的官方方法。你还将学习到一些基本的 Yarn 命令以及彻底删除 Yarn 的步骤。Facebook 声称 Yarn 比 npm 更快、更可靠、更安全。与 npm

yegen00 2020-10-21

cURL简介：高级程序员都在用的工具

与cURL一起使用的选项很多，我们在此介绍的是可用于快速测试API端点的基本选项。cURL是一种用于从服务器传输数据或向服务器传输数据的传输工具。它支持各种互联网传输协议，包括：。我们可以使用cURL执行一些有用的技巧，如代理支持、用户身份验证、FTP上传

soralaro 2020-10-11

Curl命令

Curl命令在linux操作系统中经常来测试网络和url的联通性，模拟正常的网络访问，当然除了这个作用之外，作为y一款强大的工具，curl还支持包括HTTP、HTTPS、ftp等众多协议，还支持POST、cookies、认证、从指定偏移处下载部分文件等功能

katanaFlower 2020-09-18

Curl 分片下载

若返回结果内包含：Accept-Ranges:bytes ，则说明这个服务器是支持 HTTP Range Request的；curl --range 0-5000000000 -o part1 <url> --range 指定下载的某一片段；

wytzsjzly 2020-08-17

PHP利用curl发送HTTP请求的实例代码

PHP支持的由Daniel Stenberg创建的libcurl库允许你与各种的服务器使用各种类型的协议进行连接和通讯。libcurl目前支持http、https、ftp、gopher、telnet、dict、file和ldap协议。libcurl同时也支

88407710 2020-08-17

PHP语言对接抖音快手小红书视频/图片去水印API接口源码

以下为PHP语言调用去水印接口的示例，分别展示GET请求方式和POST请求方式的调用方式。示例代码中用到的userId和secretKey请前往开发者接口管理中心获取。

ChinaJoeEE 2020-08-16

php模拟post提交请求调用接口示例解析

下面是具体的调用案例。这样就提交请求，并且获取请求结果了。一般返回的结果是json格式的。这里的post是拼接出来的。也可以改造成下面的方式。将拼接也封装了起来，这样调用的时候就更简洁了。

CyborgLin 2020-08-15

PHP如何获取Cookie并实现模拟登录

$cookie_jar = dirname(__FILE__)."/pic.cookie";$url = "http://1.2.3.4/";$ch = curl_init();curl_setopt($ch, CU

Blueberry 2020-08-15

centos安装composer下载包curl时CA证书报错

curl performs SSL certificate verification by default, using a "bundle". of Certificate Authority public keys . If th

PinkBean 2020-08-11

一文学会爬虫技巧

作为冷数据启动和丰富数据的重要工具，爬虫在业务发展中承担着重要的作用，我们业务在发展过程中积累了不少爬虫使用的经验，在此分享给大家，希望能对之后的业务发展提供一些技术选型方向上的思路,以更好地促进业务发展。对于这种请求，bash 中的 curl 足堪大任!

katanaFlower 2020-08-03

终端命令行生存之——网络冲浪篇

Linux命令行是强大的工具，命令行是我们的日常工作，命令行更是我们日常生活。之前虫虫给大家写过一些命令的的介绍，命令行的工具，命令行下的开发。实际上命令行也是我们不可或缺的生活。本文我们来介绍一下命令行下的网络冲浪工具命令行浏览器。lynx一个历史悠久纯

hunningtu 2020-07-30

curl获取HTTP返回状态码

status_code=curl -I -m 10 -o /dev/null -s -w %{http_code} www.baidu.com. status_code=$(curl -H "Content-Type: application/j

阿债的方寸天地 2020-06-28

curl常用参数

curl -d ‘login=emma&password=123‘ -X POST example.com/login. curl -d ‘login=emma‘ -d ‘password=123‘ -X POST example.com/log

pingyan 2020-06-25

elasticsearch常用命令

获取es的基本信息。查看当前节点的所有 Index

tigercn 2020-06-25

curl

curl --noproxy ‘*‘ jd.com 所有要访问的url不使用代理,curl后可跟多个url, * 必须单引号或双引号包围,作为一个字符串传递给curl,否则shell会将其解析为当前目录下的所有文件名第一个作为noproxy的参数了

wytzsjzly 2020-06-25

curl 的用法指南

curl 是常用的命令行工具，用来请求 Web 服务器。它的名字就是客户端的 URL 工具的意思。它的功能非常强大，命令行参数多达几十种。如果熟练的话，完全可以取代 Postman 这一类的图形界面工具。本文介绍它的主要命令行参数，作为日常的参考，方便查阅

阳光岛主 2020-06-25

curl

curl --location --request GET ‘http://10.111.00.16:9999/api/b/gcode/predict?token=6f02b5336b15086bfb067c39407a4e11&channel_i

阿债的方寸天地 2020-06-16

curl使用小记(二)——远程下载一张图片

在之前的文章《curl使用小记(一)》中论述了命令行工具curl的基本使用。除此之外，curl还提供了能够直接供程序调用的模块库接口libcurl。这里就通过一个远程下载网络上的一个图片的实例，讲述libcurl的使用。libcurl库还是推荐直接找已经编

阳光岛主 2020-06-14

安科网

php file_get_contents抓取Gzip网页乱码的三种解决方法

ppwangGS

ppwangGS

相关推荐

PHP http请求超时问题解决方案

使用curl从命令行访问互联网

在Ubuntu和其他Linux发行版上使用Yarn

cURL简介：高级程序员都在用的工具

Curl命令

Curl 分片下载

PHP利用curl发送HTTP请求的实例代码

PHP语言对接抖音快手小红书视频/图片去水印API接口源码

php模拟post提交请求调用接口示例解析

PHP如何获取Cookie并实现模拟登录

centos安装composer下载包curl时CA证书报错

一文学会爬虫技巧

终端命令行生存之——网络冲浪篇

curl获取HTTP返回状态码

curl常用参数

elasticsearch常用命令

curl

curl 的用法指南

curl

curl使用小记(二)——远程下载一张图片

ppwangGS