IT专业人员最流行的一种消遣是抱怨用户所做的各种蠢事。我们看到类似“愚蠢用户的10大典故”文章时都会哈哈大笑。但是如果我们够诚实,我们必须承认计算机新手们并不是唯一会犯错的人。绝大多数网络管理员都可以说出他们的“最尴尬时刻”(但很可能他们不愿这么做) 。那个时刻,可能是你发现由于某个意外而配置错了防火墙,直接导致了企业网络连接被关闭,又或者是你每天都做文件备份,最终却发现你 备份的文件根本不是应该要备份的那个。现在让我们来看一些IT专业人员们最常见的错事,这些错误将直接导致网络一片混乱,以及如何避免自己产生类似的错误。
1:没有一个全面的备份/灾难恢复计划
并不是做备份有多么困难。问题是很多时候你会因为忙乱而忘记了他们。因为大多数的系统管理员往往一天下来都忙得头昏脑涨,而备份看起 来是件浪费时间,毫无意义的工作——直到你真正需要它们之前。
显然,你需要备份企业的重要数据。我不是暗示大多数管理员们没有适当的备份策略。但是这些备份策略中,有很多策略十年来从未改变过。 你按照规定的时间间隔,用磁带备份了指定的重要文件,然后你就把它抛在脑后了。你没有考虑过评估与校正备份策略,甚至你都没有定期测 试备份磁带,以确认你的数据的确被正确备份下来了。直到某一天你不得不这么做(磁带系统毁坏了,甚至更惨——你遭遇了一次灾难性的数 据损失,现在你不得不使用备份来恢复)
至于灾难恢复,拥有一个完善考虑过的灾难恢复计划往往更糟。也许,在你的抽屉里就躺着一份写好的商务持续性计划,但是它真的是最新的 吗?它的确考虑到了你的所有设备和人员吗?所有重要的人员都了解该计划吗?(举个例子,也许在计划完成之后,又有新人被提升到了关键 的位置上。)这个计划已经覆盖了所有的重要因素吗?包括如何尽可能迅速的发现问题,如何提醒相关人员,如何隔离被影响的系统,以及如 何修复和恢复生产?
2: 忽视警报信号
UPS已经显示了一周的警报,提醒你是时候更换这老古董了。邮件服务器突然每天都会重起好几次。用户投诉他们的网页连接会突然神秘中断几 分钟而后再恢复正常。不过所有的一切似乎都还在正常运转,所以你稍稍推迟了检查问题的时间……直到某一天,你刚上班,网络就瘫痪了。
正如对待我们自己的身体健康状况一样,你应当及早留心网络故障的早期危险信号,并在问题变得严重之前及早将它揪出来。
3: 从不记录变动情况
当你对服务器的设置作过变动之后,应当花点时间把它记录下来。当物理损坏的灾难发生时,或者你的操作系统损坏以致你不得不从头开始重 做系统时,你会很高兴你事先做了这个工作。甚至有时候,情况根本没刚才说的发生灾难这么糟——你只是刚刚对服务器的设置作了变更,但 是看起来它并没按照你的预期方式进行工作,而不巧的是此时你却又忘记了原来的设置是什么。
的确,做记录花了你一点时间。但是就像备份一样,它值得你花这些时间。
4: 从不在LOG记录上浪费空间
节省磁盘空间的一个方法是放弃使用LOG记录功能,或者设置你的LOG记录文件每增长到一个很小的数值后就覆盖旧文件。但是实际问题是磁盘 空间其实相对便宜,但是相对于没有了LOG文件后,你抓耳挠腮去查找问题所在并试图解决问题所花费的数小时而言,无论是从金钱还是你所遭 受的挫折,所节省的空间都实在没有多大价值。
某些软件默认状态下,没有自动打开他们的LOG记录功能。但是如果你想在问题出现后的众多悲痛中解救自己的话,记住这个原理:“任何可以 被记录的东西都应该被记录下来”。
5:不及时安装重要的更新
“这不会发生在我身上”的乐观综合症导致了许多网络的垮台。的确,某些更新和补丁有时会打断重要的应用软件,导致连接故障,或者干脆 瘫痪操作系统。因此你应该在部署之前彻底的测试这些升级程序,以避免上述现象的发生。但是一旦确认这些更新或补丁安全后,你应当尽可 能快地安装它们。
想想Nimda以及其他主要病毒、蠕虫对系统造成的巨大损害吧,虽然针对它们的补丁早已被放了出来。
|
|
|
|
|
|
|
|
|