计算机系统性能评价+7.docx

资源描述

计算机系统性能评价+7.docx

《计算机系统性能评价+7.docx》由会员分享，可在线阅读，更多相关《计算机系统性能评价+7.docx（24页珍藏版）》请在冰豆网上搜索。

计算机系统性能评价+7.docx

计算机系统性能评价+7

第7讲自相似传输模型（第六章）

（先看一些自相似简介，自然中的自相似现象，了解自相似学科的背景）

本单元的学习我们需要掌握以下内容：

1.为什么要研究自相似传输模型？

2.了解自相似现象（自然中的自相似现象、几何中分型学、信息学中的自相似）

3.数据自相似现象的数学描述及性质

4.自相似现象在对性能评价的影响

为什么要研究自相似传输模型？

（1）在一些真实系统中，排队分析结果不同与实际观测结果；

（2）真实的网络业务具有统计上的自相似性；

（3）自相似作为一门新的数学工具，正在用于许多领域中。

自相似网站：

6.1数据的自相似现象

例子：

1Mbs传输链路，4000bits的帧，每一个帧的传输时间为4ms。

在接收者接收帧到达的时间（每一个帧的第1位到达）：

082432728096104216224240248288296312320

648656672680720728744752864872888896936944960968

●很难给出到达的统计规律和特性

●呈现出突发性

●一些到达时间紧密组合在一起，一些到达时间松散，最大间隔328ms（从320到648），很多比较小的间隔40ms左右。

我们压缩这个传输，分成集群，在每个集群中到达帧之间的间隔不超过5个帧的传输时间（20ms），并且记录每个集群的开始时间，我们有：

172216288648720864936

在集群之间的间隔是不均衡的，仍然难于考察其特性。

试图进行更大的压缩，在每个集群中到达帧之间的间隔不超过10个帧的传输时间（40ms），并且记录每个集群的开始时间，我们有：

1216648864

在这种情况下，4个集群中每个集群之间的间隔是216，432，216。

一个小间隔216，跟随一个大间隔432，再跟随一个相同的小间隔216。

现在回来看第一次压缩的情况，有8个集群，

172216288648720864936

同后面的压缩有相同的规律。

前4个集群：

到达的间隔是72，144，72。

后4个集群：

到达的间隔也是72，144，72。

两个集群组之间有一个大的间隔。

再回来观测原来32个数据帧的达到，将它们分成8个组，有同样的规律呈现。

082432728096104216224240248288296312320

648656672680720728744752864872888896936944960968

在每个组中，数据帧到达的间隔是8，16，8。

结论：

该时间序列在各个分辨率上都呈现出相同的模式，与压缩的程度无关。

这就是信息学上的自相似的特性。

自相似是一个物理现象，在一个域（dimension）以不同程度的“透镜”或不同尺度进行观测时，表现出同一性。

域可以是空间（以长度，宽度度量）或时间。

本节仅考虑时间序列和对于时间而呈现自相似性的随机过程。

（a）一个时间序列

（b）压缩的时间序列

图6.1.1自相似时间序列

图6.1.1显示了在时间序列上的自相似现象。

图6.1.1（a）可以看做数据帧到达时间序列，而图6.1.1（b）可以看做数据帧压缩集群到达时间序列。

这个例子可从坎特（Cantor，也有翻译为康托集）集中推导出来。

坎特集的组织结构，遵循如下规律：

1.从[0,1]闭区间开始，由一个长线表示。

2.去掉这个长线中间的1/3部分。

3.对每下一步，去掉上一步产生长线中间的1/3部分。

这是一个递归过程，可由下列步骤精确定义。

让Si表示第i层递归后的坎特集，那么：

我们可想象坎特线是一个时间线，每下一步按乘1/3修改时间线。

在每一步，集合的左（右）部分的处理同整个集合的处理相同。

坎特集合揭示所有自相似现象的两个特性：

1.可以在任何小级别（scale）上进行组织。

组织过程可无穷尽，可得到各种间隔的样式。

另一方面，在不断重复修改下，我们可以看到一个平滑、连续的曲线，同时它就越来越没有特点。

2.结构的重复性。

一个自相似结构包含在所有级别上本身更小的重复。

例如，在每一步，坎特集合的左（右）部分是上一步整个集合的完全重复。

在真实物理现象中，这些特性不一定完全保持。

在某个级别的某个点，结构和自相似性可能破坏，但纵观所有级别的整个范围，物理现象呈现出自相似性。

6.2自相似数据传输

由于数据传输是一个随机过程，因此，要考虑统计自相似。

6．2．1自相似定义

1．连续时间定义

一个自相似随机过程的常见定义是基于连续时间变量的直接分级，见下面描述。

一个随机过程x（t）具有参数H（0.5H1）在统计上是自相似，如果对于任何a>0，过程a-Hx（at）同x（t）有相同的统计

特性。

相互关系可由下面3个条件表达：

均值

方差

自相关

H是突发（Hurst）参数或叫做自相似参数，它是自相似的关键度量。

更确切地说，H是统计现象持续性（persistence）的测量，是随机过程的长范围相关（long-rangedependence）的一个测量。

H＝0.5表示缺少自相似。

H值越接近1，持续性或长范围相关的程度就越大。

例：

考虑分数布朗运动（fractionalBrownianmotion,FBM）过程BH（t）定义如下：

其中，X是一个正态分布的随机变量，它的均值为0，方差为1；H是这个过程的一个参数。

证明它具有自相性。

已知:

对正态分布的的随机变量X,E[X]=0,Var[X]=1,

FBM过程的概率密度分布表达为：

可以证明这个随机过程具有平稳增量，在随机过程中已经证明：

Var[BH（t）–BH（s）]=E[（BH（t）–BH（s））2]=|t–s|2H

证明：

（1）均值：

因为E[X]=0，所以E[BH（t）]=0。

（2）方差：

对于任何随机变量X和常数a，Var（aX）=a2Var（X），因此Var[BH（t）]=Var[tHX]=t2H。

对于一个给定的t值，BH（t）等于一个常数乘以正态随机变量X，因此BH（t）是具有零均值的正态分布随机变量。

注意当H＝0.5时，FBM过程就简化为一个一般布朗运动过程。

（3）自相关

BH（t）的自相关是一个重要数量关系，表达为

=E[BH（t）BH（s）]。

这个值可用下面方法推导。

首先，可以获得：

重新排列，获得：

利用上面的式子：

综合以上三点：

分布朗运动过程具有自相似性。

2．离散时间定义

在很多情况，我们关心一个随机过程，它是定义在离散时间点上，离散时间随机过程X（t）定义为{xt,t=0,1,2,}。

对于一个静止时间序列x，我们定义m-压缩时间序列

，以致于：

例如，

定义为：

这个压缩时间序列一种观察的方法可认为是压缩时间级别的一种技术。

我们可以考虑

是这个时间序列的最高级或最高解。

过程

是相同过程在级别上缩减3的一个因子。

如果过程的统计（均值、方差、相关等）随着压缩而保留，那么我们能够处理和解决自相似过程。

我们也能把序列

的每一个点看做过程x的一个时间的平均。

对于一个遍历（ergodic）过程，一个时间平均应等于全体平均，而且时间平均的方差当m变大时应相当快地变成零。

对于一个自相似过程，情况并不是这样，方差是要变成零，但要比静态遍历过程慢得多。

一个具有参数β（0<β<1）的过程x是确切自相似的，如果对于所有m=1,2,，我们有

方差

自动相关

参数β是同上面定义突发参数H是相关的，H=1-（β/2）。

对于静态、遍历的过程β=1，而且时间均值的方差以1/m的速率减成零。

对于一个自相似过程，时间均值的方差减成零的速率相当慢。

一个弱的自相似过程条件描述如下：

一个过程x说做是渐近自相似的，如果对于所有k足够大

方差

自动相关

这个定义说明压缩过程的自动相关同前面的定义有相同的形式，变化的程度或突发性在不同时间级别是相同的。

6．2．2自相似过程的性质

1．长范围相关

自相似过程最重要特性之一是长范围相关。

这个特性以τ增加时自协方差C（τ）的行为来定义。

对许多过程来说，自协方差随着τ快速减弱。

例如，泊松增加过程具有增量L和均值λ，对于τ>L，自协方差是：

一般，一个短范围相关（short-rangdependent）过程满足条件：

它的自协方差减弱速率至少同指数一样快，有

其中≈表示两边的表达式是彼此渐进成比例。

在典型的数据传输模型中，一般使用的是短范围相关过程。

使用下列关系式：

我们能获得

是有限的。

同上述短范围相关相反，一个长范围相关有双曲线减弱的自协方差：

其中β如以前定义一样，是相关的突发参数，H=1-（β/2）。

在种情况中，

。

长范围相关直观地影响自相似过程的持续性，亦即，在所有时间级别上集群和突发特性的存在。

2．频谱密度（SpectralDensity）

平稳随机过程的功率谱（或谱密度）是它自相关函数的傅立叶变换。

关于长范围相关的另一种说法，可由频谱表达。

功率频谱密度接近幂定律：

一个离散时间随机过程的频谱密度可以定义如下：

能够表达γ=1–β=2H–1。

同长范围相关相反，短范围相关过程的特性由频谱密度表达时，当w→0，它依旧是有限的。

当γ=0或者说H＝0.5，表明是短范围相关过程。

在自动相关函数中，如果对于大的k，R（k）的值不能充分快速地衰弱而形成一个有限和，造成S（0）的值是无限的。

3．重尾分布（Heavy-tailedDistributions）

重尾分布可由概率密度表达，概率密度函数用于描述传输过程，例如，分组到达的间隔时间和突发长度。

一个随机过程X的分布说是重尾的，如果：

在一般情况下，一个具有重尾分布的随机变量，表现出一个高的或甚至无限的方差。

最简单的重尾分布是具有参数k和α（k,α>0）的帕里多（Pareto）分布，它的密度和分布函数是：

并且它的均值是：

参数k规定随机变量可取的最小值。

参数决定随机变量的均值和方差：

如果2，分布有无限的方差；如果1，它有无限的均值和方差。

图6.2.2比较了Pareto和指数密度函数在长线性级别上的情况。

注意到，在这个级别上，指数密度函数是一条直线，反映分布的指数性衰减。

Pareto分布的尾部衰减比指数慢得多，这就是“重尾”的含义。

6．2．2自相似数据传输的例子

自从1993年以来，一些研究成果已经表明数据传输的样式可由自相似过程模拟，它适合真实网络的多种情况。

下面表现一些典型例子。

例子1.Ethernet传输

Leland和Willinger等人收集了在Bellcore在1989年和1992年之间各种各样EthernetLAN的数据，证明了泊松到达传输的假定是不充分的，需要新的信源模型[1,2]。

他们发表的论文引发了这个领域潮水般的研究。

基于各种测试的统计，他们估计Ethernet信源是自相似的，突发参数H＝0.9。

Willinger等人使用多个Pareto样式ON/OFF源来监控Ethernet信源的产生[3]。

每一个信源在ON和OF周期之间变换，ON周期是分组突发的周期，OFF周期是懒惰周期，没有分组发送。

如果我们使用有限方差分布，例如，指数或几何分布，来描述ON和OFF周期长度，那么我们产生的传输是传统信源模型。

这样的模型不能真实地反应Ethernet信源的情况。

Willinger等人模型ON/OFF时间周期使用了无限方差分布，亦即，Pareto分布，参数在1到2之间。

正如上面所述，在这个范围内，随机变量有有限均值和无限方差。

Willinger等人显示多个Pareto分布ON/OFF监控的信源产生了自相似传输，它的突发参数H＝（3-）/2，对于1<<2，0.5

研究的结果表明，Ethernet的每个信源＝1.2，相应H＝0.9。

1.LelandW,TaqquM,WillingerW,andWilsonD.Ontheself-similarnatureofEthernettraffic,In:

ProceedingsofSIGCOMM’93,September1993.

2.LelandW,TaqquM,WillingerW,andWilsonD.Ontheself-similarnatureofEthernettraffic（ExtendedVersion）,IEEE/ACMTransactionsonNetworking,February1994.

3.WillingerW,TaqquM,ShermanR,andWilsonD.Self-similaritythroughhighvariability:

statisticalanalysisofEthernetLANtrafficatthesourcelevel,IEEE/ACMTransactionsonNetworking,February1997.

例子2.WWW传输

Cover等人收集了在波士顿大学37个Web工作站的Web浏览器的数据，研究了超过50万个Web文件要求的传输状况[1]。

他们使用的方法同Ethernet信源研究相同。

研究的结果表明，Web浏览器产生的传输样式是自相似的。

每一个Web浏览器可模型为一个Pareto分布ON/OFF监控的信源，参数在1.16和1.5之间。

另外，在这个研究中发现通过Web浏览的文件大小规模的分布是重尾的。

1.CoverT,andBestavrosA.Self-similarityinWorld-WideWebtraffic:

evidenceandpossiblecauses.In:

ProceedingsoftheSigmetricsConferenceonMeasurementandModelingofComputerSystems,May1996.

例子3.信号系统7号传输源

Duffy等人研究了数值远程网络上控制信令信源的产生[1]。

在ISDN和其他数值网络上，控制信令协议是信令系统7号（SS7）。

这个研究收集了来自各种不同SS7控制网络的1.7亿信令信息。

这个研究表明传统的泊松分布模型对于SS7行为的描述是不充分的，发现自相似信源模型更适合SS7信令源，而且发现呼叫的区间可更好的由重尾分布描述。

1.DuffyD,McIntoshA,RosensteinM,andWillingerW.StatisticalanalysisofCCSN/SS7trafficdatafromworkingCCSsubnetworkings,IEEEJournalonSelectedAreasinCommunications,April1994.

例子4.TCP，FTP，和TELNET传输

Paxson等人研究了TCP传输源以及在TCP连接上FTP和TELNET的传输[1]，得出如下几点结论：

●一般使用的泊松分布模型严重地低估了TCP传输在广泛时间级别上的突发性。

●对于交互TELNET传输，连接到达可很好由泊松分布模型。

然而，分组到达的泊松假定将严重地低估了传输的突发性。

●对于FTP执行的大批量传输，传输的结构不同于泊松分布。

同TELNET数据传输一样，FTP会话达到对应于泊松模型，但数据连接有比较大的突发达到速率。

此外，在每个突发区间的字节数量的分布是重尾上翘的。

1.PaxsonV,andFloydS.Wideareatraffic:

thefailureofPoissonmodeling,IEEE/ACMTransactionsonNetworking,June1995.

例子5.可变位速率Video

已有一定数量的研究表明数值化的video在ATM网络和Internet上的传输具有自相似特性。

例如，Garret等人使用“星球大战”影片作为信源进行了2个小时的video传输[1]。

video使用JPEG标准进行编码，数据流包括可变长帧。

在帧长度中的变化是一个随机过程。

分析结果发现video传输呈现出自相似特性，帧长对应一个Pareto分布，至少在这个分布的尾部。

Garret等人显示了电影中动作变化分布，它包含：

镜头没有什么动作、镜头有一点动作和镜头连同快速移动。

所有这些对应着编码video的一个重尾分布。

在广泛的研究中，Beran观测了20个不同可变位速率（VBR）序列[2]，它是由一定数量不同编码产生的，它覆盖了很宽不同镜头，如上面所述。

分析表明VBRvideo传输一个固有的特性是长范围相关，它与使用的编码和镜头无关。

1.GarretM,andWillingerW.Analysis,nodeling,andgenerationofself-similarVBRvideotraffic,In:

ProceedingsofSIGCOMM’94,August1994.

2.BeranJ,ShermanM,TaqquS,andWillingerW.Long-rangedependenceinvariable-bit-ratevideotraffic,IEEETransactionsonCommunications,February1995.

例子6.确定数据传输

Deane等人观测了一个广义令牌网络[1]，这个网络可以用于模型令牌环或令牌总线LAN。

他们使用确定的数据源和变化的网络负载，负载由每个源产生。

对于一个复杂的网络，它包括几百个站点，数据传输是自相似的。

Deane等人得出结论，在一个网络中，一定数量的协议在远程源和目标之间相互作用，协议管理着数据传输流的动态行为，这样的数据传输流产生自相似行为。

1.DeaneJ,SmytheC,andJefferiesD.Self-similarityinadeterministicmodelofdatatransfer,InternationalJournalofElectronics,No.5,1996.

6.3自相似性能影响

对于目前高速计算机和网络的数据传输，我们可以通过充分的数据收集和分析决定给定环境中自相似的存在。

但是，自相似对系统的性能有深远影响，需要深入的分析。

1．Ethernet/ISDN的分析

在上节讨论了Ethernet数据的自相似特性，研究者使用相同方法也研究了ISDN的数据。

在这两种情况，研究了实际分组延时与利用率之间的关系。

图6.3.1表示了完成的结果。

结果表明使用传统排队论分析获得的估价等待时间与实际等待时间比有较大的差距，排队论分析一个服务器的有效能力大约是80%，而实际测试是50－60%。

2．Ethernet数据

Leland和Willinger等人的一个重要发现是：

在Ethernet，负载越高，突发参数H值也就越高，亦即，自相似的程度也就越高。

这个问题之所以重要是因为系统在高负载时性能问题更重要。

Ethernet分析的等价重要结果表明传统排队模型是不充分的。

例如，一般关于数据传输的假定是：

大量孤立传输流的多路复用形成一个泊松过程。

但实际结果显示：

如果输入是自相似，那么自相似流的多路复用将要增加延时和缓冲的容量。

3．具有自相似输入的存储模型

前面的讨论是基于实际数据同泊松假定模型的比较。

在这里将介绍Norros的工作，他企图开发自相似行为的可靠模型[1]。

他的工作引发了许多这方面的工作。

Norros使用FBM过程作为建筑模块，开发基于FBM过程的工作负载模型和具有常数服务时间的无限缓冲。

在一定假定下，储存或缓冲要求q是平均利用率ρ的函数：

其中H是突发参数。

当H=0.5，这个关系简化为q=ρ/（1-ρ），也就回到典型的排队模型（M/M/1），模型具有指数到达间隔时间和指数服务时间。

对于常数服务时间（M/D/1），典型的排队模型具有结果：

图6.3.2显示了H=0.9和H=0.75的结果，并同M/M/1和M/D/1模型情况进行比较。

可以看到，对于高程度的长范围相关（H值比较高），在低水平利用率时，缓冲要求就开始爆炸。

这个结果同缓冲设计原则是一致的：

对于自相似传输，如果要求高水平利用率，非常大的缓冲是需要的，要比基于典型排队模型预测分析所要求的缓冲大得非常多。

1.NorrosI.Astoragemodelwithself-similarinput,QueueingSystems,Vol.16,1994.

4．自相似模型的适用性

必须考虑自相似传输样式普遍程度怎么样和在什么条件下性能分析必须采用自相似模型。

这些问题的回答是一个活跃的研究领域。

上面讲的工作已经显示了在各种条件下的自相似传输源，但读者要始终要记住这并不意味着传统排队分析现在已无用途。

自相似模型的适用范围在1995年SIGMETRICS会议的一个分组会议考虑了这一点[1]。

分组会议报告结果表明自相似影响一些网络环境，但对其他环境没有重要性能影响。

在[2]中提供了一个关键的看法。

他们在应用层和网络层的自相似之间划定了区别。

应用层的自相似性是数据传输源固有的，网络层自相似是同网络相互作用的结果。

1.ErramilliA.（sessionorganizer）.Performanceimpactofself-similarityintraffic,In:

ProceedingsofSigmetrics’95/Performance’95,May1995.

2.RyuB,andLowenS.Pointprocessapproachesformodelingandanalysisofself-similartraffic,PartII-Applications,In:

ProceedingsoftheInternationalConferenceonTelecommunicationsSystems,Modelings,andAnalysis,March1997.

6.4自相似数据传输的模型和估价

一般的自相似数据传输分析的方法：

首先判断实际数据到达时间序列是否

自相似；如果是自相似的，估价自相似参数H。

1．方差时间的曲线

回忆一个自相似过程的压缩时间序列

，对于大的m，方差服从：

其中自相似参数H=1-（β/2）。

这个式子可以写作：

由于log[Var（x）]是与m无关的常数，如果我们在log-log图上画Var（

）作为m函数曲线，结果将得到一条斜率为-β的直线。

在压

展开阅读全文