99网
您的当前位置:首页一种基于动态贝叶斯模型的大型IP网络故障诊断方法

一种基于动态贝叶斯模型的大型IP网络故障诊断方法

来源:99网
2013年第11期 SCIENCE&TECHNOLOGY INFORMATION O IT论坛0 科技信息 一种基于动态贝叶斯模型的大型 IP网络故障诊断方法 李志青 (莱芜市农村信用联社,山东莱芜271 100) 【摘要】为了提高IP业务的服务质量,利用告警等症状和已有知识快速准确地定位根故障十分重要。基于贝叶斯网络的不确定推理方法 是近年来广泛应用的一种故障诊断方法。目前.基于静态贝叶斯网络的故障定位只是利用当前信息进行故障诊断,无法处理时间信息;而已有 基于动态贝叶斯网络的诊断算法复杂度太高.不适用于大型网络。本文针对大型IP网络,建立用于故障诊断的动态贝叶斯模型,并对基于动态 贝叶斯网络的一种通用的精确算法进行改进.实验证明它能够对大型IP网络快速准确的定位故障。本文方法充分利用告警库中的历史数据和 当前症状信息.对当前的系统状态进行估计,完成故障诊断。 【关键词】网络管理;故障诊断;动态贝叶斯网络 Fault Diagno ̄s for Large-scale IP Networks Based on Dynamic Bayesian Model LI Zhi-qing (Laiwu Rural Credit Cooperative,LaiwIl Shandong,271100) 【Abstract]To improve the quality of IP service,it is important to quickly and accurately diagnosis the root fault from the observed symptoms and knowledge.The approximate inference based on Bayesian networks is the most popular fault diagnosis technology in recent years.Presently,fault localization based on Bayesian networks is only according to the current information and does not consider the time information.The existing methods based on dynamic Bayesian networks aren’t itf for large-scale networks because of their complexity.This paper establishes a fault diagnosis model for lrge-scaale IP networks based 0n aynamic Bayesian networks.at the same time improves a universal exact algorithm and implements simulation.11he results show that the lgoriathm can run wel1.This method makes full use of the historical data and current observations to estimate the current system state and complete the fault diagnosis. 【Key words]Network management;Fault dignosais;Dynamic bayesian networks 在IP网络中.基于静态贝叶斯网络的故障诊断.没有考虑时间因 素,即同一个节点在不同时间片的状态传播关系.充分利用这个关系 故障诊断作为网络故障管理中的一个核心功能.在大型IP网络 可以大大提高诊断效率。例如。假设节点有两个状态:故障状态和正常 系统中发挥着越来越大的作用。由于网络中大量业务的部署,故障诊 状态.如果节点在上一个时间片处于故障状态.在没有人为干预的情 断已经不只局限于协议栈底层。而上层各类业务应用故障是由各种不 况下.此节点还处于故障状态的可能性很大.当前时间片进行诊断时 同原因引起的且具有很大的不确定性.这给广泛应用的确定性故障定 可以充分利用这个关系进行故障诊断,从而提高诊断的准确度。 位方法带来了挑战.例如基于规则、基于模型和基于案例的故障诊断 基于动态贝叶斯网络的推理方法分为精确推理和近似推理.其中 技术。因此出现了一些基于图论、神经网络的不确定性推理技术.其中 精确算法中一种通用的方法是the interface algorithm.此算法是把接 基于贝叶斯网络的推理技术成为其中比较流行的技术之一 3中节点的联合概率作为信息.传递给下一个时间片.并且每传递一 11.1已有工作 次信息,都要利用iunction tree算法m执行一次更新,算法复杂度高。 目前.基于静态贝叶斯网络的故障诊断备受关注.主要有几种算 本文在充分理解the interface algorithm的基础上.对此算法作了 法:变量消元算法、团树传播算法、迭代信度传播算法、随机抽样算法_1 J改进,算法模型是两个时间片的DBN.第一个时间片作为算法起始 等,以及这些算法的变种,例如IHU算法日、Shrink算法【3]等,它们都有 点,算法执行时只需要在第二个时间片上执行迭代运算.并且将接口 个共同的假设作为前提.即在故障诊断的过程中.系统是不变的.即 中的节点分解成一些的团.利用这些团中节点的联合概率的乘积 它只能够利用当前状态下的观测值.对当前的状态进行估计.并取得 来近似接口中所有节点的联合概率.执行算法时不需要执行一次全局 了很好的效果.但是并没有利用历史数据进行故障诊断 而在大型IP 更新.仅需要在分解接13得到的各个小团中执行一次局部更新 网络中,短时间内网络物理拓扑、网络路由以及端到端的链路上节点 本文的贡献主要在于: 的状态都有可能发生变化。在网络规模比较大时,观测周期不可能过 1)利用相邻时间片节点状态的传播关系进行故障诊断 IP网络是 于密集.在同一个观测周期内观测到的节点状态可能出现不一致的情 个动态系统.各个组件的状态随时间动态变化.利用相邻时间片节 况.在静态贝叶斯模型的故障诊断中.这些矛盾的节点状态被认为是 点状态之间的关系进行故障诊断。将会大大提高诊断的准确度 系统噪声引起的.这样使得诊断错误率升高.诊断效率降低。 2)用接13节点传递信息.诊断模型只需两个时间片的DBN。因为 动态贝叶斯网络将系统表示成从起始时间到终止时间的一系列 动态贝叶斯网络具有马尔科夫性。即在已知Xt取值的前提下.xr-t和 快照.每一个快照都包括一个完整的贝叶斯网络.表示系统在该时间 xm的取值没有任何关系.当用接口节点来进行时间片之间信息的传 的状态.前后两个快照之间相关的节点添加因果联系.表示在不同时 递时.以前所有时间片的信息都包含在接口中.因此只需要两个时间 间片的节点状态传播关系。基于动态贝叶斯网络的推理是处理动态不 片的DBN作为故障诊断模型即可 确定性问题的重要方法.在动态系统故障诊断中发挥着重要的作用 3)为适应大型IP网络故障诊断的需要,对算法做近似。将接口节 精确推理算法有forwards—backwards算法、frontier算法、The interface 点拆分成多个小接13(后文中称为小团).分别将信息收集到小团 算法嘴争.由于精确推理算法复杂度高.不能满足大规模的动态贝叶斯 中,在小团中执行更新,并利用小团向下一个时间片传递信息.大大降 网络推理的需要.因此研究者把目光转向近似推理.主要近似推理算 低了算法复杂度 法有The Boyen—Koller(BK)算法 、11}le factored frontier fFr3算法 、PF 4)仿真与the interface lagorithm算法作对比.故障诊断准确度略 算法【7】等。BK算法利用团树算法执行一次精确推理的全局更新,对于 微降低,但是复杂度明显降低,诊断时间大大减少.因此更适于大规模 大型网络是不适用的.FF算法是将所有节点分别向下一个时间片传 的网络 递信息.近似后算法准确度太低.而PF算法是一种基于统计学的方 1研究背景 一一法。 1.2本文主要贡献 2动态贝叶斯网络故障诊断模型 在介绍动态贝叶斯网络故障诊断模型之前.首先了解两个重要概 作者简介;李志青(1985一),男,汉族,山东莱芜人,硕士生,毕业于北京邮电大学,莱芜市农村信用联社科技部办事员,研究方向为网络管理与故障定位。 l02 科技信息 O IT论坛o SCIENCE&TECHNOLOGY INFORMATION 2013年第11期 念:(1)症状,当网络和业务应用中出现问题时,表现出来的各种反映 较大,为了节省开销,必须对The interface algorithm进行改善,算法描 系统状态的信息:(2)故障,上述症状出现的根本原因。在具体网络中, 述如下: 症状是外在的.一般是可以被观测到的.但是具体的故障一般是不可 观测的.只能由我们根据所得到的症状信息进行推理.以确定故障的 根源所在。 DBN模型是BN模型在时间上的扩展.首先利用EM算法 .根据 IP网中所有可能的症状节点、故障节点及二者之间的关系.建立静态 贝叶斯模型,然后扩展时间片,建立动态贝叶斯模型。设置观测周期t (通常比BN中小的多).在每一个观测周期内收集所有可能的症状信 息,得到一个症状集合s={s。t,s ,s ,…s 1,这些症状反映了网络在此 时间片内的状态.所有节点除了拥有静态贝叶斯模型中的参数外.故 图3 The interface algorithm接口信息传递模型 障节点都分别对应于一个传播概率P(FIIFI ),且所有症状节点都在叶 子节点上,如图i是两个时间片的动态模型,F:下标表示时间片内故 障节点的编号,上标表示时间片;s:下标表示时间片内症状节点的编 号,上标表示时间片。 初始化阶段: 1)选择接13节点I: 根据性,将I 分解成多个小团C; 21根据2TBN的第一个时间片.创建团树J ,J 的in—clique和out— clique由I 分解得到的多个小团e组成,初始化先验概率; 31根据2TBN的第二个时间片和第一个时间片的接口节点.创建 团树Jl,Jt的in—clique和out—clique由I 分解得到的多个小团c组成, 初始化先验概率: 4)初始化时间片t=1,时间片总数T; 故障诊断阶段: 在团树J..给症状节点赋值为时间片t=1观测值,收集信息到各 个小团c ;并执行边缘化到小团中的节点d…1 … =∑ (c ,N。); Nj 图1 两个时间片的动态贝叶斯模型 如果 r=1 将各个小团执行边缘化操作.得到所要查询的故障节点F的后验 以上模型是进行动态贝叶斯故障诊断的基本模型.以下诊断算法 便是基于这个模型进行故障定位的。 概率:∑h(F,cl—F); q—F 否则 3故障诊断近似算法 如果t!=T.执行循环 t++: 由于动态贝叶斯网络满足马尔科夫性.选出一些故障节点的集 将各个小团中信息分别传递到下一个时间片.如下式: 合.在已知这些节点取值的情况下.过去节点的状态和将来节点的状 态没有任何关系.这些节点被称为接口节点。接口节点It定义为时间 币一曲 呷 n _c … ; 片t中的、在t+l时间片有子节点的节点集合 在对当前时间片进行节 给症状节点赋值为此时间片的观测值,收集信息到各个小团C,; 点状态估计时.前面时间片的所有节点信息已经全部包含在接口节点 中.因此在故障诊断模型中只需要两个时间片(2TBN) ̄IJ可。在IP网故 并执行边缘化到小团中的节点d…t m =∑^(c , ); 障诊断模型中.故障节点在下一个时间片都有子节点.所以接口节点 否则 即为故障节点 将T时间片的各个out—cliqueIq执行边缘化,得到所要查询的故 首先依据团树算法,建立两个团树J 和J 。J。是根据2TBN的第一 个时间片建立.作为初始时间片的团树:J1是根据2TBN的第二个时间 障节点F的后验概率:∑h(F,Ci-F); 片和第一个时间片中的接口节点建立的.作为后续每一个时间片的团 算法把团Out—cliue分解成一些的小团(任意一个小团中节 q树。将团树中各个团中节点的CPT乘积作为各个团的概率,记为 , 点在其他小团中都不会有子节点),将信息分别收集到各个小团,并执 如图2所示: 行边缘化到小团中的接口节点.对于每一个小团c ,都对应于一个in— =out-diq ue clique—c 和out-cliuqe—c。,此时Or=17∑^(c:, ),例如对于图1中的 c: ,接口 ,F ,F 1}可分解为( 。 ,F,1}fF 1)}这两个小团中节点之间并没 ,有直接的因果关系.即任意一个团中节点在另外一个团中均没有子节 点.因此根据下式的向下一个时间片传递信息: Ⅸ = ̄in-clqi . Ⅸ。 h ., ‘ 图中in—clique表示包含上一个时间片的接口节点的团.Out—dique表示包含当 前时间片的接口节点的团 图2 2TBN模型 其中咖 一表示t时间片,c 对应的in—clique的概率。如图4所 示. The interface algorithm思想描述如下:根据团树传播算法,首先对 症状节点赋值(观测值),将信息收集到团Out—clique,执行边缘化到I 得到0【,N 为当前时间片Out—clique中的非接口节点 则d= ^( , ).其中h㈩表示收集到的概率信息,将d乘到下一个时间片的In— clique 第一个时间片是起始时间片,然后在第二个时间片进行迭代, 如果到达所要查询的时间片.则执行边缘化到所要查询的故障节点. 图4本文算法接口信息传递模型 从而得到此故障节点的后验概率.从而判断故障节点的可能状态。如 图3所示。 当利用各个小团进行信息传播时,由于小团中节点数目较小,收 而在本文建立大型IP网的故障诊断模型中,I 即为故障节点.由 集信息和计算故障节点的后验概率均在小团内进行,时间开销和空间 于节点数目通常比较大.收集所有信息到团Out—clique,花费开销比 开销都比较小,故可以大大提高算法效率。 103 2013年第11期 SCIENCE&TECIINOLOGY INFORMATION O IT论坛。 科技信息 4仿真试验及结果分析 本节使用j a实现改进后的算法,同时建立起仿真模拟环境.使 用本文算法进行仿真试验,并与the intefrace algorithm作比较。 一个小团,分别向下一个时间片传递信息,此时算法最快,但是准确度 很低。 首先建立实验仿真所使用的模拟网络环境。本仿真实验在Red 预测,即在没有观测值的情况下无法完成故障诊断功能。因此,如何利 Hat LINUX AS4的环境下使用网络拓扑图生成工具是:network manipulator(nem)version 0.9.6 for LINUX生成网络拓扑。在生成的网 络拓扑图中.选取端到端的服务作为症状节点。构成端到端服务之间 【参考文献】 的各段链路作为故障节点。观测时间为3分钟(时间片为3分钟),保 [1]张连文,郭海鹏.贝叶斯网引论[M】.科学出版社,2006. 本算法只是利用告警历史数据和当前观测值.对当前系统状态进 行估计,完成故障诊断,但并不能利用历史数据和当前数据,进行故障 用告警历史数据进行故障预测,将是下一步研究的重点。e 存各个时间片的告警信息,假设模型最多有1O个时间片,即从当前观 12 JM.Steinder,A.S.Sethi:Non-deterministic event—driven fault diagnosis thmugh 测值往前取出10组观测值,利用这10组观测值进行故障诊断.其中 incremental hypothesis updating.G.Goldszmidt,J.Sehoenwaelder(Eds.)叨.Integrated 传播概率的取值如下: Network Management VIII,Colorado Springs,CO。2003:635-648. P(栅 t): 10.99; =1 t~=。 [3]Kandula S.Kati D.Vasseur JP.Shrink:A tool for failure diagnosis in IP network8fR1.Proc.of the Sigeomm2005 MineNet Workshop.20o5. 14]Kevin Patrick Murphy:Dynamic Bayesian Networks:Representation,Inference Leamin对D1.A dissertation submitted in partial satisfaction of the requirements 节点规模分别在50~100之间的六组试验.随机产生故障.故障数 and for the degree of Doctor of Philosophy University of California,Berkeley 2002. 目限定在4个以内.分别利用本算法和the interface algorithm执行故 JBoyen,X.and Koner,D.Tractable inference for complex stochastic processes 障诊断,结果显示二者诊断的准确度基本持平,都在90%以上.the 【5 『D1.In Proc.of the Conf.on Uncertainty in AI,1998. interface lagorithm略高于本算法:二者诊断时间都呈现上升趋势.tlle 16 JKevin Patick Murrphy and Yair Weiss:The Factored Ffionter Algorithm for interface algorithm在网络规模在7O个节点时.诊断时间骤然上升.已 approximate inference in DBNs[D】.Computer Science Department University of 经失去诊断意义.而改进后的算法,诊断时间上升缓慢。 California Berkeley.CA 94720—1776. 5总结 【7 JArulampalam,S ,Maskell,S.,Gordon,N…J and Clapp,T.(2002)“A Tutorial on Particle Filters for On—line Nonlinear/Non—Gaussian Bayesin Traacking,”fJ1. EEE Tran on Signal Proc.,5O(2):174-188. 本文对一种基于动态贝叶斯网络的精确算法进行了改进.利用改 IJGlenn R.Shafer and Prakash P.Shenoy:Probability Propagation[J].Annals and 进所得到的近似算法进行大型IP网的故障诊断。它并不利用团树算 18 Mathematies and Artiifcial Intelligenee,Vo1.2。Nos.1-4.1990:327—351. 法执行一次全局更新.因为在网络规模很大时.仅执行一次全局更新 复杂度就相当太:而只是在分解得到的小团上执行一次局部更新。然 后执行边缘化操作、 将各个小团中的信息分别传递到下一个时间片 当由接El节点分解得到的各个小团相互时.即小团相互不包含子 节点时.近似算法的诊断准确度最好.但是相对精确算法.诊断准确度 略微降低.而复杂度明显降低。算法的最坏近似是每一个节点都作为 【9 JNir Friedman:The Bayesin Staructural EM Algorithm[D】.Computer Science Division,387 Soda Hall University of Caliorfnia,Berkeley.CA 94720. [责任编辑:曹明明] (上接第49页)3数值模拟 [1]刘崇新,物理学报m.2002,51:1198—1202. [2]Mandelbort B B,The Fractal Geometry of Naturo[M].1983,New York:Freeman. 通过赋初值( (O),ym(O),z (O))=(10,2,-4) 和( (O),y (O),z [3]Grigorcnko I,Grigorenko E,Phys.Rev.Lett[]J.2003,91:34-101.  I4]Li C P,Peng G J,Chaos Soliton and Fractals叨.2004,22:443. (O)):(一1,1,一1)T时间步长h=0.005,以1000个点为研究对象,模拟结 [5]“G G,Chen G R,Chaos Soliton.Fract[J].2004,22:549. 果如图fig.1和fig.2。 [6]Carrol T L,Pecora L M.Synchronizing chaotic circuits.IEEE Transactions on ,4结论 Cicuirts and Systems[J].1991,38(4):453--456. 追踪控制与同步。利用数值模拟,验证了所设计的控制器以及参数变 更规则的有效性。本文方法通用性强,适用范围宽,可以为各种条件下 实现混沌控制与同步提供新的途径。 [7]Tll L L Lu J A,Chin.Phys[J].2005,14:17-55. Jian,Xu Hang—Bing,Wang Hou-Jun,Chin.Phys[J].2006,15:953—957. 本文基于分数阶系统稳定性理论,设计了线性控制器和未知参数 [8]Zhang [9]王兴元,武相军.物理学报『J1.2006,55:605—609. 自适应更新规则.实现了参数未知的分数阶Chen混沌系统的自适应 [1O]陈关荣,吕金虎.Lorenz系统族的动力学分析、控制与同步『M1.科学出版社。 2o03:34—97. [1 1]韩建兵,韩焱,赵灵冬.物理学报lJ1.2009,58:22—35. 【参考文献】 [责任编辑:杨扬] (上接第5O页)数学课程中很多知识来源与实际。比如概率统计 来源于生活,更要运用于生活。在概率统计的教学中要尽可能地接近 现实生活.让学生认识到生活中处处有随机性问题 例如.在公交车站 等车时间的长短,投递信件问题,动物的身长与体重的关系,赌徒输赢 的概率能力等等。让学生灵活运用知识和方法去解决实际问题.是实 现学生由理性认识到实践的一个飞跃。利用已有的知识去解决实际生 活中的简单的数学问题,解释周围生活的数学现象.这不仅能提高学 生的学习热情.在一定程度上也培养了学生的创新能力 全国大学生 数学建模竞赛为用数学知识解决实际问题提供了一个良好的平台 数 学建模的思想在培养学生的应用知识能力、实践能力和创新能力方面 都具有重要意义。因此,我们在讲授数学课程的同时.有必要将数学建 模的思想融人到概率统计的教学中 总之,“授人以鱼,不如授人以渔”,改革的重点在于将大学数学教 学中的“被动学习—接受一应用”转换为“主动学习一吸收一创造性应 用”的过程,即以培养学生的实践能力和创新精神为主线.由传统的教 师讲授(黑板板书、PPrr演示)改为互动共享式教学。在数学课程的教 学中要注重对大学生综合素质的培养,通过对教学模式的不断改进, 建立全新的教学理念.为大学生以后走上社会或从事科研工作打下良 好的基础。 【参考文献】 [1]魏悦姿,姚玉平.概率统计教学中培养学生实践能力和创新素质能力的探索 叨.吉林省教育学院学报,2009,25(2):92—94. [2]徐秀娟,工科数学教学中的知识传授与能力培养【J】.河北理工大学学报:社会 科学版,2006,6f3):109—1 13. [3]朱若松.数学教学中培养学生的创新意识与能力 长沙大学学报,2005,19 (2):71—73. [4]刘银萍.关于大学数学的创造性思维教学模式的探讨【JJ.大学数学,2003,19 (5):17-20. [责任编辑:杨扬] 104 

因篇幅问题不能全部显示,请点此查看更多更全内容