网络公司运行维护管理制度及流程目录总则编制方法运维工作职责运维服务管理体系运维服务管理对象运维系统功能框架运维管理组织结构项目负责人项目经理技术主管服务台网络管理员应用数据库管理员终端管理员运维服务流程项目运维服务工作流程图服务台事件管理工单管理问题管理变更管理配置管理知识库管理统计及工作报告运维服务内容服务目标资产统计服务网络安全系统运维服务主机存储系统运维服务数据库系统运维服务中间件运维服务终端外设运维服务应急服务响应措施应急预案实施基本流程突发事件应急策略服务管理制度规范服务时间行为规范总则第一条为保障辽宁家加网络科技有限公司信息系统软硬件设备的良好运行使员工的运维工作制度化流程化规范化特制订本制度第二条运维工作总体目标立足根本促发展开拓运维新局面在企业发展壮大时期通过网络桌面系统等的运维促进企业稳定可持续性发展第三条运维管理制度的适用范围运维模块全体人员编制方法本实施细则包括运维服务全生命周期管理方法管理标准规范管理模式管理支撑工具管理对象以及基于流程的管理方法本实施细则以为基础以信息化项目的运维为目标以管理支撑工具为手段以流程化规范化标准化管理为方法以全生命周期的循环为提升途径体现了对运维服务全过程的体系化管理运维部工作职责一负责网站运维和技术支持一根据网站运营战略和目标负责网站整体架构栏目应用系统等技术开发方案制定和组织开发保障网站技术的稳定性和先进性二负责网站栏目和应用系统的使用培训和操作使用指南编写对用户使用过程中出现问题的沟通和解决三网站设备和软件购买计划书的拟定包括采购数量品牌规格技术参数会同行政部进行采购四网站设备和软件操作规程和应用管理制度的制定并负责监督执行五网站设备和软件安装调试和验收使用培训和维修保养六网站日常运行过程中信息安全和技术问题的协调解决保障网站小时安全稳定运行七网站技术服务外包管理主要包括技术外包开发运行服务托管和空间域名管理八负责网站管理系统及设备保密口令的设置和保存保密口令设置后报中心主任备案保密口令设定后任何人不得随意更改保密口令每季度更新一次九负责网站新程序新系统和网站改版升级方案技术的设计开发二负责网站信息和技术安全一执行国家和省上有关网络信息技术安全的法律法规与通信管理和网络安全监管部门联络及时处理网站信息技术安全方面存在的问题确保网站安全稳定可靠运行二网站信息技术安全保密制度和工作流程的制定落实信息技术安全保密责任制执行谁主管谁负责谁主办谁负责的原则责任到人三在服务器和计算机之间设置硬件防火墙在服务器及工作站上均安装防病毒软件进行硬件和技术双保护确保网站不受病毒和黑客攻击四负责网站信息技术安全应急处理预案制定和实施五安排专人监控网站各频道各页面各版块各栏目信息内容建立网站信息技术安全监控值班登记制度发现问题及时处理并登记问题和处理结果登记六建立多机备份网站信息服务系统机制一旦主系统遇到故障或受到攻击导致不能正常运行可以在最短的时间内替换主系统提供服务七建立网站系统集中式权限管理按照岗位职责设定工作人员操作权限针对不同应用系统终端操作人员设置共享数据库信息的访问权限并设置密码不同的操作人员设定不同的用户名且定期更换严禁操作人员泄漏密码运维服务管理体系运维服务管理体系规定了运维活动涉及的各类实体以及这些实体间的相互关系相关的实体按照运维服务管理体系进行有机组织并协调工作按照服务协议要求提供不同级别的运维服务运维服务管理对象运维服务管理对象包括基础设施应用系统用户供应商以及IT运维部门和人员具体内容如下基础设施包括网络主机系统存储备份系统终端系统安全系统以及机房动力环境等应用系统包括内部办公系统门户网站面向公众的应用系统等用户包括使用如上应用系统的用户供应商包括基础设施和应用系统的供应商以及运维服务的供应商运维部门和人员包括内部参与运维活动的相关部门和人员以及提供运维服务的企业和相关人员运维系统功能框架根据建设单位的系统结构和业务开展需要运维项目组将项目的维护框架分为9个具体组成部分分别为服务台时间管理工单管理问题管理变更管理配置管理工程师考核知识库管理统计系统管理等9个子项而具体运维流程将以此为依据开展工作运维管理组织结构本运维项目的运维管理结构位三层模式具体如下图所示由项目负责人与甲方进行业务范围接洽并将沟通结果向下传递项目经理负责项目的整体运维工作包括各种制度的制定和实施运维工程师则在项目经理的指导下开展维护工作项目负责人职责负责项目商务整体协调事宜职位描述1整体负责建设单位运维项目服务计划的制定领导项目经理并安排项目工作指导项目经理完成具体维护工作每周听取项目经理的工作汇报负责考核项目经理工作完成情况2协助建设单位完成新增项目的调研方案设计并指导项目经理进行具体实施项目经理职责规划执行完善信息化项目的运维工作指导网络数据库维护工程师开展工作职位描述1根据公司战略目标指导下属工程师开展客户服务工作确保运维工作能够满足客户的实际需要2建立和持续完善运维管理体系优化运维流程流程解决运维服务中出现的特殊问题3规划并提升运维工程师专业服务能力在整体上提高客户满意度4制定和持续完善绩效考核体系5制定整理运维项目的应急预案系统并指导运维工程师实施6提高自身专业技能在业务方面给予网络管理员和数据库管理员指导技术主管职责应用数据库管理oracle性能调优实现应用负载均衡职位描述1技术主管非项目常驻人员根据项目需要进行专业方面指导2负责数据库性能分析与调优数据库运行状态监控及时发现异常并快速处理3熟练掌握Oracle10G的RAC技术能够实现部署及调优4掌握WASWeblogicTomcatwebsphere等中间件的工作原理能够实现部署调优及故障解决5熟练掌握redflagredhat等linux操作系统部署oracle10gmysql数据库熟练掌握dataguard技术保证oracle数据库冗灾数据保护故障恢复6负责应用负载均衡的部署和调试7负责指导数据库工程师管理员开展工作服务台职责故障电话受理文档管理职位描述1负责业务的救助电话的受理工作2故障处理的发起人同时进行维护工程师指派跟踪事件处理状态3进行维护故障统计用户满意度统计工作报表输出等工作4协助项目经理进行文档整理归类保存等工作网络管理员职责维护建设单位网络系统正常解决网络相关故障职位描述1对现有服务器局域网络及机房配线间的日常管理维护2对信息安全建设提出相关建议确保网络的安全3保证外网光纤线路正常保证局域网运行正常4对网络系统和网络设备的运行状态进行监控5熟练掌握域策略设置DHCPDNSFTP服务器NTFS权限设置等6编写网络部分的应用处理预案并实施7工作认真细致积极主动有条理性具有良好的沟通能力及团队合作精神应用数据库管理员职责维护建设单位业务系统运行正常解决应用和数据库故障职位描述1监测业务系统运行状况应用数据库性能监视及优化作必要调整2规划不同数据的生命周期制订备份恢复迁移和灾备策略根据业务的需要执行数据转换及迁移等操作3保证应用和数据库系统的安全性完整性和运行效率4负责数据库平台的整体架构及解决方案的制定和实施5工作认真细致积极主动有条理性具有良好的沟通能力及团队合作精神终端管理员职责维护建设单位桌面系统运行正常解决终端外设故障职位描述1各部门电脑打印机传真机的维护2对各部门职员进行电脑相关的技术支持及培训工作3精通WindowsXP及Office的使用能够熟练使用Excel2003Excel2007及以上版本能够制作相应教程对其他部门员工进行培训运维服务流程运维服务管理流程涉及服务台事件管理问题管理配置管理变更管理发布管理服务级别管理财务管理能力管理可用性管理服务持续性管理知识管理及供应商管理等随着运维活动的不断深入和持续改进其他流程可能会逐步独立并规范项目运维服务工作流程图服务台服务台是支持运维服务的核心功能与各个流程联系密切所有管理流程都要通过服务台为用户提供单点联系解答用户的相关问题和需求或为用户寻求相应的支持人员在本系统中服务台是接收各种来源服务请求和相关信息反馈的唯一入口和出口同时服务台还负责一般请求通过知识库历史事件能够解决的请求他也是复杂问题二线处理的桥梁事件管理事件管理流程的主要目标是尽快恢复服务提供并减少其对业务的不利影响尽可能保证最好的服务质量和可用性等级事件管理流程通常涉及事件的侦测和记录事件的分类和支持事件的调查和诊断事件的解决和恢复以及事件的关闭本系统把所有服务请求和报警归结为事件事件管理是提供服务台和事件管理者对于事件记录处理查询审核派发等功能它也包括通过和第三方监控系统对接把其发送报警形成事件的功能工单管理工单管理工单是现场运维二线支持的任务载体运维工程依据所接收工单进行运维工作工单管理是对工单实现创建变更查询浏览派发监督等功能的模块问题管理问题管理流程的主要目标是预防问题和事故的再次发生并将未能解决的事件的影响降低到最小问题管理流程包括诊断事件根本原因和确定问题解决方案所需要的活动通过合适的控制过程尤其是变更管理和发布管理负责确保解决方案的实施问题管理还将维护有关问题应急方案和解决方案的信息问题管理是针对已处理事件的遗留问题或处理事件的方案只是治标不治本的不能彻底解决问题而考虑的模块根据事件及处理方案问题处理人经过调查诊断并提出最终解决方法变更管理变更管理实现所有基础设施和应用系统的变更变更管理应记录并对所有要求的变更进行分类应评估变更请求的风险影响和业务收益其主要目标是以对服务最小的干扰实现有益的变更变更管理是要对重大资源的新增变更升级等运维活动进行审核的功能以免这些活动对现有资源的可用性造成没有必要的影响和破坏同时他还要实现在工单中产生的变化进行后审计的功能配置管理配置管理流程负责核实基础设施和应用系统中实施的变更以及配置项之间的关系是否已经被正确记录下来确保配置管理数据库能够准确地反映现存配置项的实际版本状态配置管理实际上是全部资源的统一管理的功能包括资源整个生命周期的参数或配置的变化记录的管理管理信息主要涉及分类型号版本位置状态相关资料等基本信息还包括核心参数等知识库管理知识库管理知识库是提供给运维人员重要的技术资料内容他汇集在工作的遇到的典型案例归纳总结的知识要点和全面实用资料手册在本系统中知识库管理提供便于使用的人机接口快速查询的技术手段和维护手段统计及工作报告运维管理系统提供一线解决率统计客户满意度统计按分类的事件汇总统计工作报告生成的功能按照一定格式根据事件数据工单数据问题数据配置数据变更数据可以帮助运维管理者能把运维的所做的工作内容清晰的罗列出来运维服务内容服务目标运维项目组提供的运行维护服务包括信息系统相关的主机设备操作系统数据库和存储设备的运行维护服务保证用户现有的信息系统的正常运行降低整体管理成本提高网络信息系统的整体服务水平同时根据日常维护的数据和记录提供用户信息系统的整体建设规划和建议更好的为用户的信息化发展提供有力的保障用户信息系统的组成主要可分为两类硬件设备和软件系统硬件设备包括网络设备安全设备主机设备存储设备等软件设备可分为操作系统软件典型应用软件如数据库软件中间件软件等业务应用软件等服务项目范围覆盖的信息系统资源以下方面的关键状态及参数指标运行状态故障情况配置信息可用性情况及健康状况性能指标资产统计服务服务内容包括硬件设备型号数量版本等信息统计记录软件产品型号版本和补丁等信息统计记录网络结构网络路由网络地址统计记录综合布线系统结构图的绘制其它附属设备的统计记录网络安全系统运维服务从网络的连通性网络的性能网络的监控管理三个方面实现对网络系统的运维管理设备基础性能检测内存使用情况监测设备日志查看设备状态测试等工具的连通性网络安全策略应用是否正常带宽流量的实时监测网络拓扑链路状态监测异常网络数据包流量等网络攻击情况监测线路的误码率丢包率监测主机存储系统运维服务提供的主机存储系统的运维服务包括主机存储设备的日常监控设备的运行状态监控故障处理操作系统维护补丁升级等内容进行监控管理的内容包括性能管理内存使用情况管理硬盘利用情况管理系统进程管理主机性能管理实时监控主机电源风扇的使用情况及主机机箱内部温度监控主机硬盘运行状态监控主机网卡阵列卡等硬件状态监控主机运行状况主机系统文件系统管理监控存储交换机设备状态端口状态传输速度监控备份服务进程备份情况起止时间是否成功出错告警监控记录磁盘阵列磁带库等存储硬件故障提示和告警并及时解决故障问题对存储的性能如高速缓存光纤通道等进行监控数据库系统运维服务提供的数据库运行维护服务是包括主动数据库性能管理数据库的主动性能管理对系统运维非常重要通过主动式性能管理可了解数据库的日常运行状态识别数据库的性能问题发生在什么地方有针对性地进行性能优化同时密切注意数据库系统的变化主动地预防可能发生的问题进行监控管理的内容包括数据库基本信息文件系统碎片死锁占用率较大或时间较长的语句表空间使用信息监测数据库文件读写情况连接数量监控数据库监听运行状态监测查看每日数据备份数据同步是否正常报警日志监测对表和索引进行检查表空间碎片检测数据库后台进程数据库对象的空间扩展情况监测中间件运维服务中间件管理是指对等中间件的日常维护管理和监控工作提高对中间件平台事件的分析解决能力确保中间件平台持续稳定运行中间件监控指标包括配置信息管理故障监控性能监控执行线程监控中间件配置执行线程的空闲数量内存内存曲线正常能够及时的进行内存空间回收连接池连接池的初始容量和最大容量应该设置为相等并且至少等于执行线程的数量以避免在运行过程中创建数据库连接所带来的性能消耗检查中间件日志文件是否有异常报错如果有中间件集群配置需要检查集群的配置是否正常终端外设运维服务负责对终端笔记本以及工作站的操作系统应用软件和硬件的维护解决使用人员在应用过程中遇到的问题并进行简单培训完成打印机等其他外设的故障处理工作应急服务响应措施运维项目组制定了详尽的应急处理预案整个流程严谨而有序但在服务维护过程中意外情况将难以完全避免我们将对项目实施的突发风险进行详细分析并且针对各类突发事件设计了相应的预防与解决措施同时提供了完整的应急处理流程应急预案实施基本流程突发事件应急策略值班人员平时应做好应急事件的监控工作对于突发事件应认真分析准确判定故障发生的数据域负责跟踪该事件直至其结束对于不在运维中心的故障应在第一时间内通知负责人去现场处理密切关注事件流程及进展情况并做好登记工作上报领导正常情况下要求值班人员在分钟内进行事件确认如果属于一般事件则按照事件流程进行分派处理否则应迅速启动应急预案并严格按照应急预案所规定的步骤快速实施应急处置及时汇报上级领导掌握实时处理情况在处理过程中如需其他部门去现场增援处理应及时向上级领导部门汇报协调沟通尽快联系技术工程师或厂家技术支持赶赴现场援助处理已解决扩大应急发现故障启动应急预案并通知领导按事件流程处理初步判定故障恢复联系技术支持处理联系开发人员或厂家工程师现场处理一般事件突发事件总结修订应急预案已解决未解决突发事件应急组未解决已解决汇报进度汇报进度汇报增援记录服务管理制度规范服务时间在小时工作时间内设置由专人职守的热线电话接听内部的服务请求并记录服务台事件处理结果在非工作时间设置有专人小时接听的移动电话热线用于解决内部的技术问题以及接听小时机房监控人员的机房突发情况汇报服务响应时间故障级别响应时间故障解决时间级属于紧急问题其具体现象为系统崩溃导致业务停止数据丢失分钟分钟内提交故障处理方案小时以内级属于严重问题其具体现象为出现部分部件失效系统性能下降但能正常运行不影响正常业务运作分钟分钟内提交故障处理方案小时以内级属于较严重问题其具体现象为出现系统报错或警告但业务系统能继续运行且性能不受影响分钟分钟内提交故障处理方案小时以内级属于普通问题其具体现象为系统技术功能安装或配置咨询或其他显然不影响业务的预约服务分钟小时内提交故障处理方案小时以内行为规范遵守用户的各项规章制度严格按照用户相应的规章制度办事与用户运行维护体系其他部门和环节协同工作密切配合共同开展技术支持工作出现疑难技术业务问题和重大紧急情况时及时向负责人报告现场技术支持时要精神饱满穿着得体谈吐文明举止庄重接听电话时要文明礼貌语言清晰明了语气和善遵守保密原则对被支持单位的网络主机系统软件应用软件等的密码核心参数业务数据等负有保密责任不得随意复制和传播