取消
显示结果 
搜索替代 
您的意思是: 
cancel
3045
查看次数
16
有帮助
0
评论
julianchen
Spotlight
Spotlight
近期,一家文化传播公司的IT运维总监向我讲述了,他的团队是如何像当年玩《大航海时代》那样将IT系统的战舰越造越大,并使之在企业运营的海洋中平稳前行的。在此,我将他的心路历程分享出来,希望能帮助您改变那种像小仓鼠一样一直在环形轮上盲目地“跑酷”状态。


背景


该文化公司成立于2013年,他们最初从简单的“PC服务器 + 二手三层交换 + 托管服务器”这样的硬件架构起步,既要对内满足员工的“上网 + 邮件 + 文件共享 + 存储”,又要对外则提供“官网 + 视频上传/下载”的服务。在IT系统的建成初期,由于处于运维四少(即:设备少、应用少,流程上,问题少)的状态,他和另一名同事组成的哼哈二将模式完全可以hold住各种与Ops相关的需求和问题。但是随着公司这几年来的多元化发展,各种看得见的设备和看不见的软件越来越多,特别是“论坛 + 会员博客 + 微官网 + 在线订单 + 移动支付 + 远程访问”等业务所带动的系统复杂性,纵然他们不断练就七十二变,也无法笑对前方的八十一难。


Ops+的概念


在扩大运维团队的同时,他们通过整合资源、逐步转变并提升了运维的相关观念和操作模式,摸索出了一条具有本企业特色的Ops+运维模式。总的说来就是:针对整个运维生命周期中的三个核心问题:“想做什么实现什么发生什么,用三种方式来优化和解决,即“标准化配置与流程、自动化操作与安全、平台化监控与管理”。


当我问及他们现在处于什么阶段的时候,他很自信地答曰:正在从单纯的OpsOps+迈进中。


标准化配置与流程


过去他们的运维人员一般是技术上的大牛,由于上手门槛较高,部门里往往充斥着个人英雄主义,当然也就造成了人员资源上的单点风险。与此同时,他们又时常被服务厂商所绑架。由于各家实现方式的不尽相同,因此在系统出现问题的时候,要么相互推诿,要么一拥而上、各自为政。这些都给系统的正常运营带来了各种缺陷并埋下了隐患。在经过数次多么痛的领悟之后,他们逐渐认识到标准化的重要性,并在如下的方面进行了实践。


· 软硬件类型标准化 无论是网络设备、服务器端、用户终端、还是操作系统和应用软件,他们都有既定的支持和首选的列表,这样一来,在品牌和型号层面上大幅降低了不兼容性,并缩小了排查的可能性范围。


· 安装配置标准化可参照的实施步骤文档与配图包括:


o 设备上架安装所在的机房和机架的物理位置。
o 网线、电源线的走向、编号和颜色等规范。
o 在服务器端,涉及到虚拟硬件资源(CPU、内存、磁盘空间、分区大小)的分配、虚拟机安装文件的准备、主机名/IP地址/默认使用目录/日志目录/代码目录的定义。
o 在用户端,通过PXEcobbler来使用镜像文件批量安装操作系统。
o 规范服务端所用到的基础支撑软件(如IIS)和产品应用的部署路径和配置顺序。
o 账号名称、对应的密码和权限属性、以及服务与端口的关开列表。
· 流程规范标准化无论是新建发布、服务变更、事件处理、事故响应、还是项目推进等,都有可遵循的流程和清晰的操作次序图表。


· 交接标准化虽然他们不像一些互联网企业那样有专门的Dev团队、且产品迭代也不频繁,但是他们也充分考虑到了“建转运”过程中的风险。通过分阶段、分步骤地制定了相应的转化流程,他们实现了测试账户的及时回收,并合理区分了系统类与业务类账户与数据的迁移。


除了上述各个方面的标准化之外,他们还日常维护着诸如:硬件设备全量清单、软件应用全量清单、第三方服务提供清单、干系人联系清单等支持类文档。这些文档多以图表的形式清晰直观地提供了各类速查的信息,同时方便了后面将要提到的平台化所进行二次筛选与统计。他们有专门的共享知识库(后面会提到CMDB)来分门别类地妥善存放所有的标准化文档。可以说,以标准化作为基础的Ops+模式,可以有效地降低人员犯低级错误的发生频率,统一整体的服务水平,提高他们的响应和处理速度,并能简化对其工作质量的考核。


自动化操作与安全


虽说上述各个方面的标准化能够从规范的角度减少出错的可能,但是不可避免地会在效率上大打折扣。他自己部门的员工尚可理解和接受,但是涉及到与其他部门特别是业务部门协作的时候,他们不是被含蓄地递过来一个复杂的眼神自己去体会,就是分分钟“被”友尽了。为此,他们团队在如下方面进行了自动化的尝试,进而提高了系统日常管理的效率。


· 监控自动化 通过软件(如zabbix)的自动注册与发现特性实现了:


o 机房环境、物理设备、网络流量、虚拟化、数据库、业务应用、存储状态、备份作业、和日志等方面实时自动巡检。
o 自动跟踪监测的项目除了标准的CPU、内存、磁盘、I/O之外,还有定制化的某项服务(如NginxPHP页面等)的KPI性能。
o 在显示上通过自动发现,能提供2D机房拓扑图、3D机架视图、地域链路实时图、流量历史曲线图和各类应用的dashboard等。而运维人员通过进一步点击,则可细致到每个服务自有的状态视图,以便人工分析潜在的异常并介入跟踪诊断。
入门指南

使用上面的搜索栏输入关键字、短语或问题,搜索问题的答案。

我们希望您在这里的旅程尽可能顺利,因此这里有一些链接可以帮助您快速熟悉思科社区:









快捷链接