基于熵算法的股票指数高频数据复杂度测算与评价.docx-资源下载

基于熵算法的股票指数高频数据复杂度测算与评价.docx

1、基于熵算法的股票指数高频数据复杂度测算与评价基于熵算法的股票指数高频数据复杂度测算与评价温博慧+袁铭+侯笠摘要在日内高频环境下检验基于兼容法的柯尔莫哥洛夫熵、样本熵和模糊熵等复杂度测算方法对我国沪深300股票指数的测算效率，并运用筛选后的有效算法分阶段研究和比较了序列复杂度的变化过程与变化幅度.结果表明，模糊熵算法是一种更适用于我国沪深300股票指数的有效复杂度测算方法，其对相似容忍度的敏感性更低，测度值连续性更好.随时间推移，我国沪深300股票指数复杂度整体呈上升趋势，而相较于发达市场甚至周边新兴市场其复杂度偏低.关键词沪深300股票指数；复杂度；kolmogorov熵；样本熵；模糊

2、熵中图分类号 F830 文献标识码 AAbstractThis paper studied the high frequency data of the CSI 300 index， and examined the efficiency of complexity measures such as Kolmogorov entropy， sample entropy and fuzzy entropy in high frequency environment. By using the effective measurement， it compared the changing proc

3、ess and range of the complexity both before and after the subprime crisis. The results show that， compared with the Kolmogorov entropy based on the compatible method and sample entropy， fuzzy entropy is more suitable for measuring the CSI300 indexs complexity， which has the lower sensitivity to the

4、similar tolerance and the better continuity of measure value. The CSI 300 indexs complexity is rising during the sample interval. However， the complexity during the crisis is far more less than the two other stages， and the complexity after the crisis is higher than that before the crisis. Compared

5、with the developed markets and even some emerging markets， the CSI 300 indexs complexity is much lower.Key wordsthe CSI 300 index； complexity； Kolmogorov entropy； sample entropy； fuzzy entropy1问题提出与相关文献回顾根据混沌理论，复杂度被定义为非线性动力系统或序列的复杂性程度1.其大动态范围、短平稳性和小数据量的特征被认为是最适于分析非线性系统的动力学特征参数，也是非线性动力系统研究的重要方面2.沪深30

6、0股票指数是联系我国股票现货市场与股指期货市场之间的重要桥梁，金融机构往往需在日内动态调整资产头寸并关注风险管理，因此，沪深300股票指数高频数据的复杂性程度对于风险管理和交易策略实施均具有重要意义.在我国市场环境下，有效地复杂度测算方法是什么？与成熟市场和周边的新兴市场相比，我国沪深300股票指数的复杂度如何？围绕次贷危机的影响，不同时间阶段其复杂度的变化幅度与变化过程如何？既有研究尚未对上述系列重要问题做出较为全面地解答，同时学术界和实务界对采用何种方法来进行复杂度测算亦尚未达成共识.早期文献表明，关于混沌序列复杂度的研究始于20世纪60年代.西方学者提出了各种相关测度指标与方法，但成果主

7、要集中于工程计算领域.随着金融市场非线性动力学行为与混沌效应的存在性逐渐得到实证，关于股价波动复杂度的测算研究成为热点，但方法局限于围绕分形维数的测算，研究结论也在多重分形错觉方面存在较大争议3，4.近年来，学者们运用不同类型的熵模型展开了复杂度测算研究，主要包括柯尔莫哥洛夫熵（kolmogorov）、近似熵（ApEn）、样本熵（SampEn）和模糊熵（FuzzyEn）算法.kolmogorov（1965）将复杂度界定为能够产生某一（0，1）序列所需的最短程序的比特数，并形成Kolmogorov熵算法.Lempel和Ziv（1976）给出了其在计算机中实现的具体算法.对此，肖辉，吴冲锋，吴文峰

8、，等（2002）将之应用于中国股票市场检测，计算了沪市综合指数与深市成份指数的复杂度5.尽管该算法有着严格的数学理论基础和依据，但因需将给定时间序列转换成符号序列，使得转换方法成为该算法在股价波动复杂度测算应用时的关键.然而，均值法、极值法和遗传密码法三种主要转换方法均未考虑序列整体性质，亦不能区分弱混沌与周期序列，以及强混沌与随机序列（Abuasad， ect.， 2012）6.综合法（He，Xu，2000）为解决上述问题，按不同时间序列分别应用均值法和极值法，但受限于需事先明确知道时间序列性质（赵波等，2014）.对此，王福来和达庆利（2007）提出了基于兼容法的Kolmogorov熵算法

9、并应用于上证综合指数日收盘价序列复杂度测算7，为Kolmogorov熵算法缺陷问题的解决提供了新视角.由于近似熵算法（Pincus，1995）采用Heaviside函数进行相似性量度，敏感于阀值和相空间维数，从而参数选取会使其计算精度带有经验性（蔡觉平，李赞，宋文涛，2003）.样本熵算法通过不计算自身匹配的统计量，对其形成了改进，但在无模板匹配的情况下可能出现ln0的无意义结果（贺少波，尹林子，阿地力多力坤，2012）.对此，学术界相继提出了多种改进方法.肖方红，阎桂荣和韩宇航（2004）将混沌伪随机序列看成符号序列，提出符号熵算法.虽然该算法不涉及参数的选取，计算比近似熵算法更为简单，但符

10、号熵算法需预先知道符号空间，且只针对伪随机序列，应用范围局限性较大.Chen（2011）在对样本熵（SampEn）进行改进基础上提出模糊熵（FuzzyEn）算法，并基于TDERCS系统成功检验了其有效性（贺少波，尹林子，阿地力多力坤，2012）8.模拟显示，基于模糊熵的复杂度测算方法可能在对参数依赖的敏感性方面更低，测度值的连续性更好，从而获得更高的测度效率（李鹏，等，2013）9.文章的创新之处在于：1）不仅较为全面的对比了各种基于熵算法的复杂度模型测算效率，而且进行了小样本修正，以期为沪深300股票指数复杂度测算提供可靠的实证依据与分析结论.2）围绕次贷危机的影响分阶段研究和比较了危机前、

11、中、后期序列复杂度的变化过程与变化幅度，并与发达市场乃至周边新兴市场股指期货标的指数的复杂度相较，得到我国沪深300股票指数复杂度的演化规律与独特性质.2代表性熵算法、有限样本修正与测算效率评价标准通过对相关研究成果的梳理可知，对既有测算效率形成一定改进后的代表性熵算法主要集中为基于兼容法的Kolmogorov熵、样本熵和模糊熵.重构相空间维数m、相似容限度r和序列长度N是测算过程中的共同关键变量.如模糊熵：当时间长度足够长时，MFDFA方法计算得到的h（q）是较准确的，但在实际应用中，序列长度很难满足要求，此时有限样本会使h（q）的计算产生偏误，进而也会使关联维数以及熵计算中的相空间维数m产

12、生偏误，因此需要对MFDFA中的有限样本效应进行修正，以提升测算和评价结果的准确性.修正方法基本思路为：利用Liu（2007）和吴栩等（2014）对马尔科夫转换多重分形模型（MSM）的解析，构造能够尽可能反映原始股指序列多重分形特征的模拟序列，该模拟序列的长度应该足够的长，从而可以消除MFDFA计算中的有限样本效应.在测算复杂度的过程中，对模型效率的评价标准主要集中于算法本身的稳定性和结果对模型参数的依赖程度，即，算法鲁棒性，对相空间维数、相似容限度和时间序列长度的敏感性和依赖性，以及测度结果的连续性11.由于是对我国沪深300股票指数运动的复杂度进行测算，而复杂度的标准值尚未知，不同于在某些

13、性质既定和已知正确结果的复杂系统下对研究方法的评价，因此，通过算法鲁棒性来评价模型效率的路径尚不能行通.在熵算法模型中股指序列长度N既定，相空间维数m通过计算获得，测度值对参数的敏感性和依赖性，以及结果的连续性主要与相似容限度r密切相关12.因此可以认为，当在相似容限度的经验取值范围内，某一算法未出现错误度量值，其测度结果趋于稳定且图像相对平滑，则该算法对相似容限度的敏感性和依赖性较低，测度效率相对较高.3数据说明与采样频率筛选以2005年5月9日至2013年12月31日沪深300股票指数1分钟、5分钟、10分钟、15分钟和60分钟高频数据选择了相关研究中主要出现的若干种高频频率作为筛选对象.

14、作为基础研究样本.数据来源为Reset数据库.虽然我国沪深300股票指数于2005年4月8日上市，但考虑到上市之初，市场各方对该指数存在熟悉过程13，为准确起见，在数据选取时剔除掉了2005年4月的交易数据.直接采用股票指数而未如传统证券市场定量分析采用收益率数据在有关证券市场的定量分析中通常使用收益率样本而不是指数本身，主要是考虑到价格序列的相关性违反以高斯假设和正态分布为基础的线性分析框架原则.，主要缘于文章的复杂性研究视角，避免收益率变量可能对系统非线性相依结构所形成的破坏.沪深300股票指数1分钟、5分钟、10分钟、15分钟和60分钟高频数据的描述性统计结果如表1所示，其中IF1、

15、IF5、IF10、IF15和IF60依次对应不同采样频率.统计结果显示，各种不同采样频率的高频数据都表现出有偏和尖峰厚尾的统计特征，且明显超出了正态分布假定的范围（JarqueBera统计量显著） .因此，可以认为各序列明显具有非线性特质.鉴于不同采样频率可能会带来不同检验结果，在进行复杂度测算之前需要进行有效采样频率甄别.由既有熵测算方法可知，相空间维数是各熵算法中的关键变量.较窄的多重分形度置信区间对应较精确的维数.因此，遵从多重分形度置信区间计算方法，以对多重分形度置信区间宽度的比较筛选有效高频采样频率，比较结果如表2所示.根据表2结果可知：各采样频率下经有限样本效应修正后的多重分形度均

16、仍接近于1，我国沪深300股票指数运行具有多重分形特征；置信区间宽度随采样间隔的增加而变化，其中当间隔为5分钟时宽度最窄.从而，沪深300股票指数5分钟高频数据为进行复杂度测算的有效采样频率数据.为方便与发达市场和周边新兴市场的股指期货标的指数复杂度的对比，文章还选择了标准普尔500指数、日经225指数和韩国指数2005年5月9日至2013年12月31日的5分钟高频数据，作为第四部分对比分析中的研究数据.4沪深300股票指数高频数据复杂度的熵测算实证结果与分析由于涉及了三种熵算法模型，且模型中至少涉及了三种关键参数，为了清晰起见，此处不逐一报告参数的估计结果，而是直接展示对应熵算法下的复杂度结果，及其随关键参数值改变而变化的过程，并进一步进行模型测算效率评价.4.1关键参数值的

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？