日志文件是很好的信息源,可以领会应用是若何执行的。不要对它置之度外。好好行使日志文件,可以削减系统的生产问题。
本着要用准确的工具完成事情的精神,让我们来看看可能每个人都有但却常常被忽略的工具一日志文件。除非你有意关闭了Web或应用服务器的纪录日志功效,否则险些种种应用都有错误和接见日志。 Apache有错误和接见日志,Tomcat有java.util.logging或Log4j,Webshpere有Systremerr和Systemout日志。这些日志是非常有用的工具,可以让我们领会应用的性能和可能会故障扩展的问题。要最合理行使这种工具,需要遵守下面几个简朴但主要的步骤。
使用日志文件的第一步是把它们聚集起来。由于你可能有几十甚至几百台服务器,那么需要把数据聚集起来才气使用。若是数据量太大,无法聚集起来,那么可以采样,如每N个服务器采集一次。另一种计谋是把几台服务器的日志聚集到一台日志服务器上,然后由这台服务器把这些半聚集的日志通报到最终聚集地点。专用的日志服务器可以把日志数据聚集起来,然后发送到数据存储装备上。这种聚集操作通常是经由带外网络执行的,与生产环境使用的不是同一个网络。要制止日志数据、监控数据或聚集数据影响生产环境的流量。
下一步是监控这些日志。令人吃惊的是,许多客户花费了时间和盘算资源纪录和聚集日志,然则却忽略了其中的数据。虽然你会使用发生事故时的日志文件辅助恢复服务,但这没有最大化行使日志。首先可以接纳的方式是行使自动化工具监控这些日志文件。可以使用定制的剧本举行监控,如一个shel剧本,可以按给定模式搜索文件内容,累计错误数目,当跨越阈值时举行修改。更庞大的工具,像Cricket或 Cacti,具有绘制图形的能力。同时具有聚集和监控日志文件功效的工具是Splunk在聚集了日志并监控错误后,最后一步是修正问题。这需要分配程序员和QA职员,识別与个体问题相关的一样平常错误。通常,应用程序流中的一个bug会造成形式各异的错误。发现这个bug的程序员很可能会被指派为修正它的人,也可能会把这个义务分配给其他程序员。
虽然我们希望日志文件中完全没有错误,然则不可能一直这样。日志文件中的错误很常见,需要确立一个流程,确保它们不会失控或被忽略了。有些小组会定期(每公布三个版本或四个版本)清算那些不需要立刻处置的错误。这些错误很简朴,可能是应用中没有重定向设置,或者没有处置已知错误的条件等。
(责任编辑:网络)

评论列表