转!网址日志检测和剖析!

应小伙伴们的规定,我还是写一篇关于服务器法开展的基本原理及其它的优点和缺点是啥。请小伙伴们留意,服务器法并不易开展,新手,及其在绝大部分状况下,开展以客户个人行为为关键的网站分析,用不上服务器日志法。但是,做为网站分析历史时间不可缺少的一部分及其关键的基本章节,服务器日志法依然非常值得一书。下边的本文也是我想编写的书里提取的內容(我想马不停蹄赶快写了,早已错过了过多盆友的重任,很抱歉很抱歉!)。

【文章正文】

网站分析搜集数据信息的方法实际上有五、六种之多,大家最普遍的有三种,分别是:服务器日志(Server Log)、网页页面标识(Page Tag)和客户端搜集(Client End/Desktop)。我的CWAblog()中关键解读的全是网页页面标识法,今日则跟大伙儿解读一下服务器日志方式的基本原理及优点和缺点。

1. 服务器日志是啥

真实实际意义上的网站分析是以服务器日志刚开始的,并且直至今日,剖析服务器(也称之为server log file,或通称log file)日志依然是网站分析的关键方式。

这儿的服务器指的是网站服务器(Web Server),而服务器日志跟飞机场的飞机黑匣子一样,是用于记录网站服务器的运作信息内容的,或是简易说,是用于记录服务器中的哪些网页页面在什么时候被谁浏览了。比如,假如你浏览一次站长统计:,那麼一般状况下,网站服务器的日志便会记录在某时某刻来源于某一IP的来访者数据库索引了网页页面“/index.php”。自然,网站服务器日志还会继续记录别的很多內容,这种內容可以协助大家剖析网址的总流量和来访者在网址上的个人行为。

下边这一图表明了网址日志是怎样造成的。当客户浏览一个网站的情况下,实际上是浏览这一网址的某一个实际的网页页面,大家假定这一网页页面叫Page 1。这时候,大家的这一浏览个人行为会请求服务器中Page 1的具体的文档,随着把这个压缩文件下载到电脑浏览器上。因为请求和免费下载个人行为都是会造成服务器的回应和相对的行動,因而就必须记录下服务器的这种行動。

你能问,为何必须记录服务器的行動呢?缘故非常简单,由于大家不愿让这一服务器变为“二哈9000”(二哈9000是库布里克《2001太空奥德赛》里边拥有自我认同的电脑上,它立即威协来到电影中的航天员)啊!这自然仅仅玩笑,但是目地并无差,便是可以根据服务器日志,对服务器的运作历史时间开展记录,那样当有一切异常现象产生的情况下,大家都可以根据日志探索难题产生的缘故――跟记录飞机场运作情况的飞机黑匣子的功效十分相近。

基本原理看上去并不繁杂,但是log file事实上并不容易。为了更好地让log file具备易读性,log file并不能依照每个网址使用者的爱好随便记录的,只是有自身的标准。W3C机构界定了server log file的通用性文件格式(假如给你兴趣爱好,能够在这儿看一下这种文件格式全是怎样界定的:#common_logfile_format),而别的一些机构或是本人又依据自身的必须附加拓展了这一文件格式,使log file可以较为全方位地记录网站服务器开展的各种各样主题活动。

一条规范的web server log记录一般包括以下信息内容:

l 远程控制服务器(Remote Host)的IP地址/姓名

l 用户名(Log Name)

l 登陆全称(Full Name)

l 请求产生的时间(Date)

l 请求产生的時间(Time)

l 和规范格林威治時间的误差(GMT Offset)

l 请求的方式(Request Method)

l 请求的文档的详细地址(File)

l 请求遵循的协议书(Protocol)

l 请求的情况(Status)

l 被请求文本文档的长短(Length)

下边是一条规范的log file记录:

202.71.113.38 C –[03/Jan/2010:01:56:12 0800]"GET /Chinawebanalytics/Sidney.htm HTTP/1.0" 200 5122

从左往右,202.71.113.38便是远程控制服务器的IP;而用户名和登陆全称指的是进行这一请求的客户的姓名,这一一般大伙儿自然不是要想表露的了,因此 远程控制主机遇严禁得出这两个信息内容,log file自然就记录不出来了,用2个短中划线替代。随后,03/Jan/2010是请求产生的时间,01:56:12则是時间,以后的 0800就是指比格林威治時间要晚八个钟头,便是大家中国北京时间了。再以后的GET是请求的方式,另一种方式是POST,能够简易了解为GET便是索要,POST便是递交。然后:/Chinawebanalytics/Sidney.htm是被请求文档的详细地址,能够是肯定详细地址还可以是相对性详细地址。HTTP/1.0是请求所遵循的协议书,这儿的协议书是HTTP 1.0。全部记录的末尾是2个数据,在其中200表明一种请求的情况,意思是请求一切正常。有时这一数据会显示信息为404,坚信大伙儿一见到这一数据就头疼,它表明请求的文档无法找到(file not found);又有时,这一数据会显示信息为301,表明网页页面被再次定项来到其他详细地址。最终的一个数字5593,表明所请求的文本文档的长短为5122 bytes。

通用性文件格式其实不是很难,可是里边的这11类记录通常不充足协助大家开展更深层次的剖析,因而别的的一些记录被添加进去,在其中最重要的一些是:

l 请求来源于(Referrer):指联接到被请求資源的网址的URL。假如请求时根据点一下一个连接时产生,那麼这一新项目便会被记录;

l 手机客户端(User Agent):记录客户的电脑浏览器或是传出请求的程序流程的基本信息;