北京雅智信科技有限公司

数据中心全栈运维管理平台

产品介绍

---军内信息系统在运行过程中，数据中心运行管理处于管理的核心位置。一旦某台设备出现故障，对数据传输、存储及系统运行构成威胁，就会影响到整个业务系统的运行。目前基于传统体系的运维仅关注基础架构，包括：网络带宽使用率、服务器硬件资源使用率、应用进程状态等基础信息，以及传统的IT监控解决方案主要关注资源监测、资源协调和纠错，并且由于这种面向网络、主机、数据库、应用软件的平台级监控系统都是孤立、单独的监控与管理，无法通过全局视角掌控整个数据中心健康状态。全栈智能运维技术，结合智能运维、动环监控、基础设施监控、业务系统监控、运维值班于一体，能够集中智能化统一管理数据中心所有重要的监控指标健康状态，提升数据中心运维的综合管理效率。

系统特点

①故障告警正确率不低于90%（虚警率不超过10%）；能够准确定位故障点，并给出故障发生的根本原因。
②能够提前24小时给出设备、基础软件和业务系统运行状态劣化趋势预测，提供潜在故障及故障点趋势图，并给出潜在故障原因分析。
③具备监控、告警和日志数据的统一接入、统一存储、统一分析处理、统一管理能力，可与80%以上行业主流运维产品实现互联互通，具备快速适配新运维产品的能力，适配周期不超过三天。
④提供系统运行态势，可多角度、多粒度、多层次全面展示数据中心各种资源及业务系统的运行状态，并可以快速生成首长关心的视图。
⑤符合全J综合业务信息系统明确的相关技术体制要求；支持《军用关键软硬件自主可控产品名录》中的相关主流国产软硬件产品。

产品功能

①智能运维:
基于大数据技术和机器学习算法，对来自于各种监控系统的数据指标与告警消息进行统一的接入与处理，整合业务与IT资源，围绕业务价值构建多维度的运维监控体系。通过系统对象的指标、健康度、告警，以及对象之间的关联关系，实现快速发现、分析并定位故障，通过对告警事件的过滤、通知、响应、处置、定级、跟踪以及多维分析，实现问题事件全生命周期的全局管控。利用动态基线、频域分析、自动阈值等多种算法，实现运维数据的告警收敛、异常检测、根因分析、智能预测等智能运维场景化应用，并结合自动化平台实现故障自愈。
②动环运维：
提供数据中心动力和环境设备资源集成监控功能，支持接收和解析资源数据，支持市电、发电机、UPS、配电柜、插座电源、精密空调、消防、烟感、气体灭火、视频监控、配线、传输、KVM等设备集中配置管理和实时监控。针对对数据中心的空间利用率、承重利用率、电力利用率、机位使用利用率、功耗容量资源进行查询、分析和建议。提供数据中心机房、机柜、IT设备、动环设备的全方位3D可视化展现。
③维管支撑：
通过SNMP、SSH、IPMI、插件式监控探针等多种数据采集方式，对网络设备、计算存储设备、国产虚拟化、国产操作系统、国产数据库、国产中间件及云资源集中监控，实现对IT基础设施的全局性能管理，保障基础设施稳定性，减少业务损失。
④业务维管：
能够全景展示前端页面访问性能、应用服务器端各个应用组件、中间件、数据库的调用效率，分析业务系统健康等级，全面掌握业务系统和组件的运行态势，形成当前健康状态图谱、业务逻辑交互关系全景拓扑、业务代码实时热度树，监控业务应用性能，及时对用户体验显著劣化、服务异常业务系统进行告警，并定位问题到客户端、网络、服务端，服务端可精确到代码行、数据库执行语句，支持从前端应用到后端服务的全栈问题定位追踪。
⑤运维值班：
值班人员主动实时掌握故障或问题事件，定位问题手动转派到对应的负责人，并发起通知。支持故障事件关联运维知识库，让现场值班人员在某些领域不具备专业知识的情况下，能快速了解并具备简单定位能力，让事件能够减少转派环节，提升处理效率。通过智能算法学习将故障事件关联出历史相似故障事件，并可查看历史相似故障处理工单，直接获取处理负责人、处理方式及处置结论，从而达到全员赋能、快速处置，保障业务连续性的目的。

系统运用说明

---在运维管理区部署智能运维、运控系统（动环运维、维管运维、业务维管、运维值班），在数据中心接入交换机上部署采集器服务器集群，实时采集数据中心所有计算存储、网络、UPS、应用系统等资源状态性能指标，并定时将资源状态性能数据上传给数据存储服务器集群。智能运维、运控系统指定及下发监测任务给采集器集群，采集器集根据监测任务的属性，定时执行监测任务、采集资源状态数据并回传，智能运维、运控系统根据资源状态数据实时分析和算法建模计算，实现故障预测及故障自愈。

产品展示