使用这个 Python 工具分析你的 Web 服务器日志文件

时间：2020-08-13 16:55:16 来源：作者：

这个 Python 模块可以以多种格式收集网站使用日志并输出良好结构化数据以进行分析。

• 来源：linux.cn • 作者：Ben Nuttall • 译者：geekpi •

（本文字数：3262，阅读时长大约：4 分钟）

是否想知道有多少访问者访问过你的网站？或哪个页面、文章或下载最受欢迎？如果你是自托管的博客或网站，那么无论你使用的是 Apache、Nginx 还是 Microsoft IIS（是的，没错）， lars 都可以为你提供帮助。

Lars 是 Python 写的 Web 服务器日志工具包。这意味着你可以使用 Python 通过简单的代码来回溯（或实时）解析日志，并对数据做任何你想做的事：将它存储在数据库中、另存为 CSV 文件，或者立即使用 Python 进行更多分析。

Lars 是 Dave Jones 写的另一个隐藏的宝石。我最初是在本地 Python 用户组中看到 Dave 演示 lars。几年后，我们开始在 piwheels 项目中使用它来读取 Apache 日志并将行插入到我们的 Postgres 数据库中。当树莓派用户从 piwheels.org 下载 Python 包时，我们会记录文件名、时间戳、系统架构（Arm 版本）、发行版名称/版本，Python 版本等。由于它是一个关系数据库，因此我们可以将这些结果加入其他表中以获得有关文件的更多上下文信息。

你可以使用以下方法安装lars：

$ pip install lars

在某些系统上，正确的方式是 sudo pip3 install lars。

首先，找到一个 Web 访问日志并制作一个副本。你需要将日志文件下载到计算机上进行操作。我在示例中使用的是 Apache 日志，但是经过一些小（且直观）的更改，你可以使用 Nginx 或 IIS。在典型的 Web 服务器上，你会在 /var/log/apache2/ 中找到 Apache 日志，通常是 access.log、ssl_access.log（对于 HTTPS）或 gzip 压缩后的轮转日志文件，如 access-20200101.gz 或者 ssl_access-20200101.gz 。

首先，日志是什么样的？

81.174.152.222 - - [30/Jun/2020:23:38:03 +0000] "GET / HTTP/1.1" 200 6763 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:77.0) Gecko/20100101 Firefox/77.0"

这是一个显示了请求源 IP 地址、时间戳、请求文件路径（在本例中是主页 /）、HTTP 状态代码，用户代理（Ubuntu 上的 Firefox）等的请求。

你的日志文件将充满这样的条目，不仅是每个打开的页面，还包括返回的每个文件和资源：每个 css 样式表、JAVAScript 文件和图像，每个 404 请求、每个重定向、每个爬虫。要从日志中获取有意义的数据，你需要对条目进行解析、过滤和排序。这就是 Lars 的用处。本示例将打开一个日志文件并打印每一行的内容：

with open('ssl_access.log') as f:
    with ApacheSource(f) as source:
        for row in source:
            print(row)

它会为每条日志显示如下结果：

Row(remote_host=IPv4Address('81.174.152.222'), ident=None, remote_user=None, time=DateTime(2020, 6, 30, 23, 38, 3), request=Request(method='GET', url=Url(scheme='', netloc='', path_str='/', params='', query_str='', fragment=''), protocol='HTTP/1.1'), status=200, size=6763)

它解析了日志条目，并将数据放入结构化格式中。该条目已成为具有与条目数据相关属性的 命名元组 (namedtuple)，因此，例如，你可以使用 row.status 访问状态代码，并使用 row.request.url.path_str 访问路径：

with open('ssl_access.log') as f:
    with ApacheSource(f) as source:
        for row in source:
            print(f'hit {row.request.url.path_str} with status code {row.status}')

如果你只想显示 404 请求，可以执行以下操作：

with open('ssl_access.log') as f:
    with ApacheSource(f) as source:
        for row in source:
            if row.status == 404:
                print(row.request.url.path_str)

你可能要对这些数据去重，并打印独立的 404 页面数量：

s = set()
with open('ssl_access.log') as f:
    with ApacheSource(f) as source:
        for row in source:
            if row.status == 404:
                s.add(row.request.url.path_str)
print(len(s))

我和 Dave 一直在努力扩展 piwheel 的日志记录器，使其包含网页点击量、软件包搜索等内容，归功于 lars，这些并不难。它不会告诉我们有关用户的任何答案。我们仍然需要进行数据分析，但它去掉了复杂不便的文件格式，并以我们可以利用的方式将它放入我们的数据库。

查阅 lars 的文档，以了解如何读取 Apache、Nginx 和 IIS 日志，并了解你还可以使用它做什么。再次感谢 Dave 提供的出色工具！

最初发布在 Ben Nuttall 的 Tooling Blog 中，并获许重新发布。

via: opensource.com

作者： Ben Nuttall 选题： lujun9972 译者： geekpi 校对： wxy

本文由 LCTT 原创编译， Linux中国荣誉推出

Tags：Web 服务器点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

一个比 Nginx 功能更强大的 Web 服务器

Caddy 简介Caddy 是一个 Go 编写的 Web 服务器，类似于 Nginx，Caddy 提供了更加强大的功能，随着 v2 版本发布 Caddy 已经可以作为中小型站点 Web 服务器的另一个选择；相较于 Ngin...【详细内容】

2021-03-01　　Tags: Web 服务器点击:(168)　　评论:(0)　　加入收藏

使用这个 Python 工具分析你的 Web 服务器日志文件

这个 Python 模块可以以多种格式收集网站使用日志并输出良好结构化数据以进行分析。• 来源：linux.cn • 作者：Ben Nuttall • 译者：geekpi •（本文字数：3262，阅...【详细内容】

2020-08-13　　Tags: Web 服务器点击:(70)　　评论:(0)　　加入收藏

▌简易百科推荐

VMware更新阿里云镜像源CentOS7镜像

阿里云镜像源地址及安装网站地址https://developer.aliyun.com/mirror/centos?spm=a2c6h.13651102.0.0.3e221b111kK44P更新源之前把之前的国外的镜像先备份一下切换到yumcd...【详细内容】

2021-12-27　　干程序那些事　　　　Tags:CentOS7镜像　点击:(1)　　评论:(0)　　加入收藏

Netty客户端断线重连实现及问题思考

前言在实现TCP长连接功能中，客户端断线重连是一个很常见的问题，当我们使用netty实现断线重连时，是否考虑过如下几个问题：如何监听到客户端和服务端连接断开 ? 如何实现断线后重...【详细内容】

2021-12-24　　程序猿阿嘴　　CSDN　　Tags:Netty 　点击:(12)　　评论:(0)　　加入收藏

Centos7如何安装google-chrome浏览器

一. 配置yum源在目录 /etc/yum.repos.d/ 下新建文件 google-chrome.repovim /etc/yum.repos.d/google-chrome.repo按i进入编辑模式写入如下内容:[google-chrome]name=googl...【详细内容】

2021-12-23　　有云转晴　　　　Tags:chrome 　点击:(7)　　评论:(0)　　加入收藏

HTTP gzip压缩

一. HTTP gzip压缩,概述 request header中声明Accept-Encoding : gzip，告知服务器客户端接受gzip的数据 response body，同时加入以下header：Content-Encoding: gzip：表明bo...【详细内容】

2021-12-22　　java乐园　　　　Tags:gzip压缩　点击:(8)　　评论:(0)　　加入收藏

Centos7使用ping命令对普通用户提权

yum -y install gcc automake autoconf libtool makeadduser testpasswd testmkdir /tmp/exploitln -s /usr/bin/ping /tmp/exploit/targetexec 3< /tmp/exploit/targetls -...【详细内容】

2021-12-22　　SofM　　　　Tags:Centos7 　点击:(7)　　评论:(0)　　加入收藏

云服务器选操作系统

Windows操作系统和Linux操作系统有何区别？Windows操作系统：需支付版权费用，（华为云已购买正版版权，在华为云购买云服务器的用户安装系统时无需额外付费），界面化的操作系统对用户使...【详细内容】

2021-12-21　　卷毛琴姨　　　　Tags:云服务器　点击:(6)　　评论:(0)　　加入收藏

Hive安装和使用

参考资料:Hive3.1.2安装指南_厦大数据库实验室博客Hive学习（一）安装环境：CentOS 7 + Hadoop3.2 + Hive3.1 - 一个人、一座城 - 博客园1.安装hive1.1下载地址hive镜像路径 ht...【详细内容】

2021-12-20　　zebra-08　　　　Tags:Hive 　点击:(9)　　评论:(0)　　加入收藏

Linux 服务器安全加固 10 条建议

以下是服务器安全加固的步骤，本文以腾讯云的CentOS7.7版本为例来介绍，如果你使用的是秘钥登录服务器1-5步骤可以跳过。1、设置复杂密码服务器设置大写、小写、特殊字符、数字...【详细内容】

2021-12-20　　网安人　　　　Tags:服务器　点击:(7)　　评论:(0)　　加入收藏

Nginx 解决PDF不能在线预览

项目中，遇到了一个问题，就是PDF等文档不能够在线预览，预览时会报错。错误描述浏览器的console中，显示如下错误：nginx代理服务报Mixed Content: The page at ******** was loaded...【详细内容】

2021-12-17　　mdong　　　　Tags:Nginx 　点击:(7)　　评论:(0)　　加入收藏

Windows Terminal：SSH连接远程服务器

转自： https://kermsite.com/p/wt-ssh/由于格式问题，部分链接、表格可能会失效，若失效请访问原文密码登录以及通过密钥实现免密码登录Dec 15, 2021阅读时长: 6 分钟简介Windo...【详细内容】

2021-12-17　　LaLiLi　　　　Tags:SSH连接　点击:(16)　　评论:(0)　　加入收藏

推荐资讯

远程软件发展迅猛，ToDe	倒计时！企业QQ即将下架
极简Windows11与iPhon	iPhone信号问题，花10元
惊人数据：App Store中4	个人所得税递延纳税报
非常实用的 Python 库	等离子电视技术先进，为