SCOM能为Windows Server 2008 R2做什么

在Windows Server 2008 R2服务器维护中,日志信息是管理员又喜欢又头疼的内容。日志中记录着服务器的运行情况,可以为管理员排错提供非常宝贵的资料。同时日志中记录的信息又非常的繁杂。在比较复杂的网络架构中,一个月不到就可能产生一百多万条记录。如何追踪并分析这些信息,让服务器管理员感到非常的吃力。SCOM系统中心操作管理器就是用来解决这个问题的软件包。它可以跟Windows Server 2008 R结合,对服务器进行监控,不产生相关的日志信息。
  
一、在什么情况下该使用SCOM?

虽然SCOM系统中心操作管理器是一个非常不错的工具,但是并不是在什么情况下都适合使用。如果企业的网络环境比较简单,如整个网络中就只有一台域控制器或者只有十几台客户端,此时使用SCOM系统中心操作管理器反而是大题小作,将简单的问题复杂化。在小型的网络中,一般只需要使用操作系统自带的日志管理器即可。

而在一些比较复杂的网络环境中,使用SCOM则可以大幅度的提高管理员的工作效率。对于复杂的定义一般很难下。笔者认为,如果域控制器中每天产生的日志信息达到5000条以上,此时就可以采用SCOM。因为SCOM能够提供跟踪每天发生的数万条事件日志消息的能力。也就是说,对收集到的日志信息进行处理,并根据相关的规则发出警报或者自动响应等的功能。SCOM基于模型的体系结构从根本上改变了以前传统的网络与操作系统监控方法。其通过相互依赖的组件,将整个服务器与网络环境以分层的服务器组进行立体式的监控。故对于比较复杂的应用环境,其仍然可以比较轻松的应对,而不会影响相关应用的性能。

故总之SCOM的使用也需要分情况对待。一般情况下只有在比较复杂的网络环境中,SCOM才能够体现其价值。

二、收集相关信息。

对于日志来说,其处理主要有四个过程,分别为日志信息的收集、定义监控规则、自动报警机制以及相关的报表信息。其中收集相关信息是这个环节中的第一步,也是最重要的一步。巧妇难为无米之炊。如果不能够收集到充分、必要的信息,那么即使是专家级别的专家,也会对故障束手无策。对于信息的收集,有两个基本的要求。一是收集的信息不能够有重大遗漏,二是信息收集时不能够影响到服务器以及相关应用程序的正常作业。

在SCOM中,系统提供了一种叫做管理包的机制。简单的说,管理包就是应用程序特定的监控规则由单独文件提供,或者说就是一对一。如对于微软旗下的数据库、DNS服务器等等,都提供了对应的管理包。这可以大大的提高数据收集的效率,同时也不会遗漏重要的信息。管理包会随着应用程序的启动,而自动加载正确的故障检修和确定问题所需要的相关信息。

三、自定义事件监控规则。

在比较复杂的应用环境中,每天产生的日志信息可能就有上万条。让管理员每天去查看这么多的信息,显然是不现实的。故收集信息必然重要,如何处理这些信息才是整个环节中的关键问题。对于我们管理员来说,希望服务器能够带有一些“智能化”的功能。简单的说,就是系统要能够自定义相关的监控规则。当某些特定的信息出现时,才报告给管理员。而不是让管理员每天坐在服务器前面查看日志信息。

根据笔者的切身提前,笔者认为SCOM以下两个特性可以帮助管理员解决这个难题。

一是在SCOM中,可以启用基于状态的监控器。也就是说,将数据包与监控器结合使用,可以实现高级的基于状态的监控和服务的健康程度的积累。同时还可以根据两三个不同的状态配置提供自我调整的性能阀值。如有一台服务器,可以将其CPU的使用情况划分为30%、60%、80%等不同的状态。然后根据不同的状态,设置不同的规则。

二是可以自定义事件监控规则。虽然使用以前的系统默认的事件管理器,也可以对相关的内容进行规则定义,但是其范围比较小。如可能只能够对单个资源进行监控。而在SCOM中,则可以对多个资源进行组合监控。如可以组合内存与CPU的使用率,对其进行加权,最后得到一个阀值。对于一些应用服务器来说,这些加权平均以后得到的值,可能会更加切合实际,具有更好的参考价值。

正是由于如上两个特性,才使得SCOM能够比传统的监控事件提供更加好的服务。

四、自动报警、通知及响应。

规则定义完成之后,接下去要考虑的问题,就是如果相关事件触犯了这个规则,那么该如何处理?其实规则就好像是数据库中的触发器。当有某些事件触发这个触发器时,系统必须有所反映。如果让用户自己去追踪、核对的话,那是不现实的。换一句话说,就是在遇到某些触发自定义规则的事件时,系统要能够自动报警、通知以及响应。

在SCOM中有一个组件叫做OpsMgr。这个组件可以通过启用电子邮件报警、寻呼、短消息服务、即使消息(如果启用了这些服务)和定义的功能警报角色来提供高级的警报功能。具体的来说,在自动警报、通知及响应中可以实现如下内容。

一是可以自定义警报的高度。如磁盘的可用空间剩下40%的时候,通过邮件方式向管理员报警;磁盘的可用空间剩下10%的时候,就需要通过寻呼或者即时消息的报警。设想一下,如果一旦某个规则被触发,不管三七二十一,系统就向管理员发送即时消息,那么可能管理员一天就会收到好几百条的警告信息。而通过设置合理的警报级别,可以让一些比较紧急的内容通过即时消息等手段放松。而一些普通的警报功能,则可以通过邮件方式发送。

二是选择不同的警报方式。可能不同的管理员会有不同的需求。如有的喜欢邮件通知,而有的喜欢寻呼等等。在SCOM中,管理员可以根据自己的需要进行自由的选择。不过在选择的过程中,笔者建议要兼顾警报的级别或者高度。即对于一些比较紧急的事件,最好能够通过即时消息。换句话说,就是对于紧急事件,当系统发出警报信息的时候,要能够在第一时间收到。

五、相关的报表。

每隔一段时间,服务器管理员都需要对日志信息进行分析。如需要了解服务器在一天的哪个时段、或者在一个月的哪些天特别的繁忙,CPU使用率、数据的吞吐量等等居高不下。了解这些内容,可以帮助管理员判断网络中是否有病毒的存在,或者为其改善服务器与网络的性能提供数据的支持。

而要对这些信息进行分析,则必须要有历史数据作为支持。没有半年或者一年的数据,是很难发现有规律的内容。故在这个过程中,报表仍然是不可或缺的内容。在SCOM中,可以配置将相关的信息自动发送给报表数据库服务器进行归档。然后在以后有必要的情况下,对这些归档的数据进行分析,以得到管理员所需要的结果。

综上所述,SCOM能够与Win2008 R2进行友好的整合。从而有利于管理员对日志信息进行收集、分析、追踪、管理等等。为改善服务器性能、提高服务器的稳定性提供数据方面的支持。