服务运行实例维度分析(200523)

原文转载自 「人月神话的BLOG」 ( http://blog.sina.com.cn/s/blog_493a84550102z8bg.html ) By 人月神话

预计阅读时间 0 分钟(共 0 个字, 0 张图片, 0 个链接)



今天谈下服务运行实例数据的维度分析,本来今天是周六不用谈技术类的文章,但是这个这周新考虑的一个关键问题,因此需要及时做些记录和整理,避免后续遗忘。

在前面谈SOA服务运行监控的时候就可以看到,对于服务运行监控预计,服务心跳监控,服务运行统计分析,服务基准监控等诸多功能都是基于服务运行实例数据进行的。通过服务运行实例数据我们既可以进行准实时的服务心跳监控,也可以进行事后的服务运行统计分析和大数据分析工作。

因此:服务运行实例数据是我们进行即席查询分析和大数据分析的基础

对于服务运行监控,我们做了很多的功能,类似监控预警,基准监控,异常日志监控,运行统计分析,大数据量运行服务监控等,所有的功能都是在定制开发,当我们发现了一个新的需要监控的业务规则的时候我们就定制开发相应的查询统计功能或预警功能来实现。

但是对于服务运行监控的本质究竟在哪里的?经过分析,我们看到

运行监控的本质是基于服务运行数据来找到相应的运行突变点,有差异化突变就需要及时关注。

简单来说这种突变可以针对任何的KPI指标体现,比如运行次数,时长,数据量,业务异常数,系统异常数等,只要发生了突变我们就要关注,需要去分析引起突变的原因,然后再来观察这些突变是否需要进行后续的处理措施,比如进行服务流控,进行数据量控制,进行服务授权取消等。

如果从自动化运维的角度来看,我们更加希望是形成一种闭环的自动化持续优化。

服务运行实例数据-》突变分析-》找到根源-》自动触发处理措施和逻辑

在整个处理逻辑里面第一个关键就是多维度的服务运行实例数据,我们可以看下服务运行实例数据首先需要进行一次加工,加工的基础应该是最小时间间隔的初次统计数据。应该包括:

统计时段
消费方系统
服务名
提供方系统
运行次数
最大时长,最短时长,平均时长
最大数据量,最小数据量,平均数据量
业务异常数
系统异常数

基于该表又会形成其它一些关键维度表,主要包括了

1. 基于统计时段,可以形成月-》周-》天-》小时-》分钟的维度统计表
2. 可以形成区域-》消费方组织-》消费方系统维度表
3. 可以形成区域-》提供方组织-》提供方系统维度表

以上就是我们形成的一个初步核心数据模型维度表。通过这个核心维度表我们就可以进行后续的数据即席查询分析和大数据多维度分析来发现数据差异和突变,并对突变进行实时预警。

那么下面一个重点就是如何来发现突变,如何制定突变的规则。当然对于突变个人理解仍然需要考虑两个方面,一个是本身的阈值维度,一个是基于历史数据趋势引起的突变。

 
more_vert