python+pandas分析nginx日志的实例

heideyanmou

2018-04-28

需求

通过分析nginx访问日志，获取每个接口响应时间最大值、最小值、平均值及访问量。

实现原理

将nginx日志uriuriupstream_response_time字段存放到pandas的dataframe中，然后通过分组、数据统计功能实现。

实现

1.准备工作

#创建日志目录，用于存放日志
mkdir /home/test/python/log/log
#创建文件，用于存放从nginx日志中提取的$uri $upstream_response_time字段
touch /home/test/python/log/log.txt
#安装相关模块
conda create -n science numpy scipy matplotlib pandas
#安装生成execl表格的相关模块
pip install xlwt

2.代码实现

#!/usr/local/miniconda2/envs/science/bin/python
#-*- coding: utf-8 -*-
#统计每个接口的响应时间
#请提前创建log.txt并设置logdir
import sys
import os
import pandas as pd
mulu=os.path.dirname(__file__)
#日志文件存放路径
logdir="/home/test/python/log/log"
#存放统计所需的日志相关字段
logfile_format=os.path.join(mulu,"log.txt")
print "read from logfile \n"
for eachfile in os.listdir(logdir):
 logfile=os.path.join(logdir,eachfile)
 with open(logfile, 'r') as fo:
  for line in fo:
   spline=line.split()
   #过滤字段中异常部分
   if spline[6]=="-":
    pass
   elif spline[6]=="GET":
    pass
   elif spline[-1]=="-":
    pass
   else:
    with open(logfile_format, 'a') as fw:
     fw.write(spline[6])
     fw.write('\t')
     fw.write(spline[-1])
     fw.write('\n')
print "output panda"
#将统计的字段读入到dataframe中
reader=pd.read_table(logfile_format,sep='\t',engine='python',names=["interface","reponse_time"] ,header=None,iterator=True)
loop=True
chunksize=10000000
chunks=[]
while loop:
 try:
  chunk=reader.get_chunk(chunksize)
  chunks.append(chunk)
 except StopIteration:
  loop=False
  print "Iteration is stopped."
df=pd.concat(chunks)
#df=df.set_index("interface")
#df=df.drop(["GET","-"])
df_groupd=df.groupby('interface')
df_groupd_max=df_groupd.max()
df_groupd_min= df_groupd.min()
df_groupd_mean= df_groupd.mean()
df_groupd_size= df_groupd.size()
#print df_groupd_max
#print df_groupd_min
#print df_groupd_mean
df_ana=pd.concat([df_groupd_max,df_groupd_min,df_groupd_mean,df_groupd_size],axis=1,keys=["max","min","average","count"])
print "output excel"
df_ana.to_excel("test.xls")

3.打印的表格如下：

python+pandas分析nginx日志的实例

要点

1. 日志文件比较大的情况下读取不要用readlines()、readline(),会将日志全部读到内存，导致内存占满。因此在此使用for line in fo迭代的方式，基本不占内存。

2. 读取nginx日志，可以使用pd.read_table(log_file, sep=' ‘, iterator=True),但是此处我们设置的sep无法正常匹配分割，因此先将nginx用split分割，然后再存入pandas。

3. Pandas提供了IO工具可以将大文件分块读取，使用不同分块大小来读取再调用 pandas.concat 连接DataFrame

nginx log python

heideyanmou

0 关注 0 粉丝 0 动态

相关推荐

Docker部署nginx实现过程图文详解

docker.io/redis latest 1e70071f4af4 6 weeks ago 106.7 MB. [root@localhost my.Shells]# docker pull nginx //下载nginx

nginxs 2020-11-14

Nginx 502 Bad Gateway错误原因及解决方案

Nginx 502 Bad Gateway 的错误已经遇到好几次了，这里做一下记录，备忘哈哈。会有好多种情况出现502错误，下面我们分情况来说一下。出现错误，首先要查找nginx的日志文件，目录为/var/log/nginx，在日志中发现了如下错误。查阅了

Guanjs0 2020-11-13

Linux安装Nginx步骤详解

修改完成之后,重启nginx服务器.

liuchen0 6评论 2020-11-13

nginx配置proxy_pass中url末尾带/与不带/的区别详解

proxy_pass配置中url末尾带/时，nginx转发时，会将原uri去除location匹配表达式后的内容拼接在proxy_pass中url之后。到此这篇关于nginx配置proxy_pass中url末尾带/与不带/的区别详解的文章就介绍到这了,更多

小木兮子 2020-11-11

Linux安装Nginx步骤详解

修改完成之后,重启nginx服务器.

LUOPING0 5评论 2020-11-11

nginx location中多个if里面proxy_pass的方法

^~ #^~表示普通字符匹配，不是正则匹配。如果该选项匹配，只匹配该选项，不匹配别的选项，一般用来匹配目录。如果发现精确匹配，nginx停止搜索其他匹配。

yserver 2020-11-11

nginx 反向代理之 proxy_pass的实现

其中URL包含：传输协议、主机名、uri。为了方便记忆和规范配置，建议所有的 proxy_pass 后的url都以“/”结尾。

ssihc0 2020-11-11

Nginx搭建rtmp直播服务器实现代码

hls_path /你的服务器路径这个用于存放缓存文件的。root /同上，缓存用;完成以上配置后。下载一个软件叫做 open broadcaster software 的软件推流即可。然后点开始串流就可以了。下载打开vlc播放器（拉流）。输入 rtmp:

windle 2020-11-10

Nginx实现https网站配置代码实例

https基础 443端口. 用于了一个叫密钥的东西. 不要觉得这些东西您不了解也能实现. 不可能的.openssl genrsa -des3 -out server.key 1024;#这一步会让您输入密码. 输入就可以了下面这步要用到这个密码. 随意

HanksWang 12评论 2020-11-10

详解Nginx proxy_pass的一个/斜杠引发的血案

一个nginx的server模块下需要proxy到两个server，所以就通过location的不同路径来区分转发到不同的服务器上。但是忘记了server1上有个服务路径是/indexNew，结果就被proxy到了server1，出现404问题，然后紧急修

liuchen0 13评论 2020-11-10

nginx proxy_cache 缓存配置详解

由于本人工作原因，涉及到网络直播领域，其中视频的回放下载，涉及到了一些视频下载方面的技术。针对于一个完整视频的下载，目前市面上的主流做法是，先将整个视频流切片，存储到文件服务器中，在用户需要观看回放视频时。通过一个视频回源服务器，去文件服务器中逐个请求切片

Freshairx 2020-11-10

nginx简单配置多个server的方法

注意：LZ一直出现访问不了，折腾了许久，是因为服务器www.pigaudio.com或120.77.223.7只开了默认的80端口，而8088端口并未开，所以只需要登陆你的服务账号添加一个8088即可，比如你的服务器是阿里云购买的，则需要登陆阿里云加一个8

ccschan 2020-11-10

nginx 多个location转发任意请求或访问静态资源文件的实现

本文主要介绍了nginx 多个location转发任意请求或访问静态资源文件的实现，分享给大家，具体如下：。#去掉了只有url才转发的限制，因为直接访问域名会通不过if从而转发不了请求。没有特殊需求就不要判断直接proxy_pass到请求

liwf 2020-11-10

Nginx设置日志打印post请求参数的方法

我们项目的短信功能是接第三方，原来对接第三方给我们回执确认请求是get请求我们在排查问题的时候可以通过nginx的日志拿到对方给我们请求的参数；最近我们换了另外一家第三方，新的第三方给我们的确认请求是post，遇到问题排查，发现nginx没有打印具体参数，

Guanjs0 2020-11-09

nginx基于域名，端口，不同IP的虚拟主机设置的实现

利用虚拟主机，不用为每个要运行的网站提供一台单独的Nginx服务器或单独运行一组Nginx进程，虚拟主机提供了在同一台服务器，同一组 Nginx进程上运行多个网站的功能。跟Apache一样，Nginx也可以配置多种类型的虚拟主机，分别是基于IP的虚拟主机、

AderStep 2020-11-09

nginx里的rewrite跳转的实现

有业务需求要变更，需要使用新域名www.zhenguo.com代替，但是旧域名不能废除。需要跳转到新域名上，而且后面的参数保持不变。配置dns，分别配置www.peihua.com和www.zhenguo.com解析。作用场景：基于客户端IP访问跳转，例如

zrtlin 2020-11-09

Nginx配置实现下载文件的示例代码

lwplvx 2020-11-22

肝货！Nginx高性能优化配置实战总结

Nginx是Apache服务不错的替代品。其特点是占有内存少，并发能力强，事实上nginx的并发能力在同类型的网页服务器中表现较好，因此国内知名大厂例如：淘宝，京东，百度，新浪，网易，腾讯等等都在使用Nginx网站。在我们的日常工作学习中，我们会该如何去优

mqfcu 2020-11-10

终于有人把Nginx说清楚了，图文详解！

想必大家一定听说过 Nginx，若没听说过它，那么一定听过它的"同行"Apache 吧！这也使得各个 Web 服务器有着各自鲜明的特点。Apache 的发展时期很长，而且是毫无争议的世界第一大服务器。这些都决定了 Apache 不可能成

windle 2020-10-29

nginx 安装方法

./configure: error: the HTTP image filter module requires the GD library.You can either do not enable the module or install the

张立军的架构之路 2020-09-28

heideyanmou

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号