一:Nginx日志记录格式的介绍
log_format用来设置日志的记录格式:
log_format name format
name表示格式名称,format表示等义的格式。log_format有一个默认的无需设置的combined日志格式,相当于apache的combined日志格式,如下所示:
log_format combined '$remote_addr - $remote_user [$time_local] '
' "$request" $status $body_bytes_sent '
' "$http_referer" "$http_user_agent" ';
如果nginx位于负载均衡器,squid,nginx反向代理之后,web服务器无法直接获取到客户端真实的IP地址了。 $remote_addr获取反向代理的IP地址。反向代理服务器在转发请求的http头信息中,可以增加X-Forwarded-For信息,用来记录客户端IP地址和客户端请求的服务器地址。
下面是修改后,生产环境下代理服务器用的日志格式。可以根据需要添加对应的日志参数
log_format main '$remote_addr - $remote_user [$time_local] requesthost:"$http_host"; "$request" requesttime:"$request_time"; '
'$status $body_bytes_sent "$http_referer" - $request_body'
'"$http_user_agent" "$http_x_forwarded_for"';
二:Nginx日志参数详解
参数注释如下:
$remote_addr #与$http_x_forwarded_for 用以记录客户端的ip地址
$http_x_forwarded_for #当前端有代理服务器时,设置web节点记录客户端地址的配置,此参数生效的前提是代理服务器也要进行相关的http_x_forwarded_for设置
$remote_user #记录客户端用户名称,一般默认为空
$time_local #记录访问时间
$request #记录请求的URL和HTTP协议
$status #记录请求状态
$body_bytes_sent #记录发送给客户端文件内容大小
$http_referer #记录从哪个页面链接访问过来的
$http_user_agent #记录客户端浏览器相关信息
$request_time #处理完请求所花时间,以秒为单位
$http_host #请求地址,即浏览器中你输入的地址(IP或域名)
$request_body #记录POST数据
$request_length #客户端请求的长度
$upstream_status #upstream状态,成功是200
$upstream_addr #后台upstream的地址,即真正提供服务的主机地址
$upstream_response_time #请求过程中,upstream响应时间
三:Web服务流量名词介绍
网站并发连接数:定义为网站服务器在单位时间内能够处理的最大连接数。示例:某网站的并发是5000.意味着单位时间内(理解为1秒或数秒内),正在处理的连接数,正在建立的连接数,加起来一共是5000个。
IP:即Internet Protocol,一般指独立IP数,独立IP数是指不同IP地址的计算机访问网站时被计的总次数。一般一天00:00-24:00内相同IP地址只被计算一次。
PV:即Page View,中文翻译为页面浏览,即页面浏览量或点击量,不管客户端是否相同,也不管IP和网站页面是否相同,用户只要访问网站页面就会计算PV,一次计为一个PV
UV:即Unique Visitor,同一个客户端(PC或移动端)访问网站被计为一个访客。一天(00:00-24:00)内相同的客户端访问同一个网站只统计一次UV。UV一般是以客户端Cookie等技术作为统计依据的,实际统计会有误差。
IP,PV,UV的区别在哪?
举例说明:假设某个公司有10个员工,都访问了www.taobao.com这个网站。每个人平均浏览了5个页面,但是公司的对外出口是一个公网IP。所以对于www.taobao.com这个网站而言,只会计算1个独立IP访问。但是因为有10个人在访问www.taobao.com这个网站,并且平均都访问了5次,因此,对于www.taobao.com这个网站而言,PV数就是10x5=50个PV,而因为有10个人访问,就是10个不同的客户端访问,因此,UV(独立访客)为10.
因此上例结果为IP数为1个,PV数为50个,UV为10个。通过这个结果,不难看出,一个网站的独立IP数量要比网站实际访问的PV数量小得多。通常情况下,网站的UV数也会大于独立IP数
四:Nginx日志常用分析命令示范(注:日志的格式不同,awk取的项不同。下面命令针对上面日志格式执行)
1)总请求数
wc -l access.log |awk '{print $1}'
2)独立IP数
awk '{print $1}' access.log|sort |uniq |wc -l
3)每秒客户端请求数 TOP5
awk '{print $6}' access.log|sort|uniq -c|sort -rn|head -5
4)访问最频繁IP Top5
awk '{print $1}' access.log|sort |uniq -c |sort -nr |head -5
5)访问最频繁的URL TOP5
awk '{print $7}' access.log|sort |uniq -c |sort -nr |head -5
6)响应大于5秒的URL TOP5
awk '{if ($7 > 5){print $6}}' access.log|sort|uniq -c|sort -rn |head -5
7)HTTP状态码(非200)统计 Top5
awk '{if ($11 != 200){print $11}}' access.log|sort|uniq -c|sort -rn|head -5
8)分析请求数大于50000的源IP
cat access.log|awk '{print $NF}'|sort |uniq -c |sort -nr|awk '{if ($1 >50000){print $2}}'