工作内容
・ 负责执行 IT 服务管理平台的内外部推广使用。
・ 定期收集用户对 IT 服务管理平台的需求和改进建议,并组织对应的答疑和培训;
・ 协同外部供应商以及内部团队,严格遵守 SLA 的约定进行故障的响应和解决,监督各系统的事件升级和沟通。
・ 负责提供和监督业务系统的优化方案落实,包括应用系统、监控、容量、性能等方面进行分析以提前发现隐患问题,并推动优化解决,不断提高系统运行稳定性;
・ 负责应用系统重大故障快速诊断与解决,跟进及推动故障改进措施实施;负责协调团队制定系统运行应急方案,并使用应急预案优先恢复应用系统;
・ 负责监督撰写信息系统的部分运维文档和管理文档,如系统维护手册、用户使用手册、FAQ 和应急预案文档等。
・ 定期组织内部人员,和外部供应商对事件进行整体故障复盘,并核算 SLA 和服务可用性等指标的达成情况。
・ 针对重大事件,按需及时组织相关人员进行复盘,并协调供应商出具复盘改进方案。
・ 跟进好复盘报告的事项,确保复盘报告事项被按时、保质完成。
・ 能积极寻求解决方案应对线上的疑难杂症,同时能发现现有系统上的不足并推进改进方案的落实。