hase函数.docx
《hase函数.docx》由会员分享,可在线阅读,更多相关《hase函数.docx(12页珍藏版)》请在冰豆网上搜索。
hase函数
Hash,一般翻译做“散列”,也有直接音译为"哈希"的,就是把任意长度的输入(又叫做预映射,pre-image),通过散列算法,变换成固定长度的输出,该输出就是散列值。
这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的空间,不同的输入可能会散列成相同的输出,而不可能从散列值来唯一的确定输入值。
数学表述为:
h=H(M),其中H()--单向散列函数,M--任意长度明文,h--固定长度散列值。
在信息安全领域中应用的Hash算法,还需要满足其他关键特性:
第一当然是单向性(one-way),从预映射,能够简单迅速的得到散列值,而在计算上不可能构造一个预映射,使其散列结果等于某个特定的散列值,即构造相应的M=H-1(h)不可行。
这样,散列值就能在统计上唯一的表征输入值,因此,密码学上的Hash又被称为"消息摘要(messagedigest)",就是要求能方便的将"消息"进行"摘要",但在"摘要"中无法得到比"摘要"本身更多的关于"消息"的信息。
第二是抗冲突性(collision-resistant),即在统计上无法产生2个散列值相同的预映射。
给定M,计算上无法找到M',满足H(M)=H(M'),此谓弱抗冲突性;计算上也难以寻找一对任意的M和M',使满足H(M)=H(M'),此谓强抗冲突性。
要求"强抗冲突性"主要是为了防范所谓"生日攻击(birthdayattack)",在一个10人的团体中,你能找到和你生日相同的人的概率是2.4%,而在同一团体中,有2人生日相同的概率是11.7%。
类似的,当预映射的空间很大的情况下,算法必须有足够的强度来保证不能轻易找到"相同生日"的人。
第三是映射分布均匀性和差分分布均匀性,散列结果中,为0的bit和为1的bit,其总数应该大致相等;输入中一个bit的变化,散列结果中将有一半以上的bit改变,这又叫做"雪崩效应(avalancheeffect)";要实现使散列结果中出现1bit的变化,则输入中至少有一半以上的bit必须发生变化。
其实质是必须使输入中每一个bit的信息,尽量均匀的反映到输出的每一个bit上去;输出中的每一个bit,都是输入中尽可能多bit的信息一起作用的结果。
Damgard和Merkle定义了所谓“压缩函数(compressionfunction)”,就是将一个固定长度输入,变换成较短的固定长度的输出,这对密码学实践上Hash函数的设计产生了很大的影响。
Hash函数就是被设计为基于通过特定压缩函数的不断重复“压缩”输入的分组和前一次压缩处理的结果的过程,直到整个消息都被压缩完毕,最后的输出作为整个消息的散列值。
尽管还缺乏严格的证明,但绝大多数业界的研究者都同意,如果压缩函数是安全的,那么以上述形式散列任意长度的消息也将是安全的。
这就是所谓Damgard/Merkle结构:
在下图中,任意长度的消息被分拆成符合压缩函数输入要求的分组,最后一个分组可能需要在末尾添上特定的填充字节,这些分组将被顺序处理,除了第一个消息分组将与散列初始化值一起作为压缩函数的输入外,当前分组将和前一个分组的压缩函数输出一起被作为这一次压缩的输入,而其输出又将被作为下一个分组压缩函数输入的一部分,直到最后一个压缩函数的输出,将被作为整个消息散列的结果。
MD5和SHA1可以说是目前应用最广泛的Hash算法,而它们都是以MD4为基础设计的。
1)MD4
MD4(RFC1320)是MIT的RonaldL.Rivest在1990年设计的,MD是MessageDigest的缩写。
它适用在32位字长的处理器上用高速软件实现--它是基于32位操作数的位操作来实现的。
它的安全性不像RSA那样基于数学假设,尽管DenBoer、Bosselaers和Dobbertin很快就用分析和差分成功的攻击了它3轮变换中的2轮,证明了它并不像期望的那样安全,但它的整个算法并没有真正被破解过,Rivest也很快进行了改进。
下面是一些MD4散列结果的例子:
MD4("")=31d6cfe0d16ae931b73c59d7e0c089c0
MD4("a")=bde52cb31de33e46245e05fbdbd6fb24
MD4("abc")=a448017aaf21d8525fc10ae87aa6729d
MD4("messagedigest")=d9130a8164549fe818874806e1c7014b
MD4("abcdefghijklmnopqrstuvwxyz")=d79e1c308aa5bbcdeea8ed63df412da9
MD4("ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789")=043f8582f241db351ce627e153e7f0e4
MD4("12345678901234567890123456789012345678901234567890123456789012345678901234567890")=e33b4ddc9c38f2199c3e7b164fcc0536
2)MD5
MD5(RFC1321)是Rivest于1991年对MD4的改进版本。
它对输入仍以512位分组,其输出是4个32位字的级联,与MD4相同。
它较MD4所做的改进是:
1)加入了第四轮
2)每一步都有唯一的加法常数;
3)第二轮中的G函数从((X∧Y)∨(X∧Z)∨(Y∧Z))变为((X∧Z)∨(Y∧~Z))以减小其对称性;
4)每一步都加入了前一步的结果,以加快"雪崩效应";
5)改变了第2轮和第3轮中访问输入子分组的顺序,减小了形式的相似程度;
6)近似优化了每轮的循环左移位移量,以期加快"雪崩效应",各轮的循环左移都不同。
尽管MD5比MD4来得复杂,并且速度较之要慢一点,但更安全,在抗分析和抗差分方面表现更好。
消息首先被拆成若干个512位的分组,其中最后512位一个分组是“消息尾+填充字节(100…0)+64位消息长度”,以确保对于不同长度的消息,该分组不相同。
64位消息长度的限制导致了MD5安全的输入长度必须小于264bit,因为大于64位的长度信息将被忽略。
而4个32位寄存器字初始化为A=0x01234567,B=0x89abcdef,C=0xfedcba98,D=0x76543210,它们将始终参与运算并形成最终的散列结果。
接着各个512位消息分组以16个32位字的形式进入算法的主循环,512位消息分组的个数据决定了循环的次数。
主循环有4轮,每轮分别用到了非线性函数
F(X,Y,Z)=(X∧Y)∨(~X∧Z)
G(X,Y,Z)=(X∧Z)∨(Y∧~Z)
H(X,Y,Z)=X⊕Y⊕Z
I(X,Y,Z)=X⊕(Y∨~Z)
这4轮变换是对进入主循环的512位消息分组的16个32位字分别进行如下操作:
将A、B、C、D的副本a、b、c、d中的3个经F、G、H、I运算后的结果与第4个相加,再加上32位字和一个32位字的加法常数,并将所得之值循环左移若干位,最后将所得结果加上a、b、c、d之一,并回送至ABCD,由此完成一次循环。
所用的加法常数由这样一张表T[i]来定义,其中i为1…64,T[i]是i的正弦绝对值之4294967296次方的整数部分,这样做是为了通过正弦函数和幂函数来进一步消除变换中的线性性。
当所有512位分组都运算完毕后,ABCD的级联将被输出为MD5散列的结果。
下面是一些MD5散列结果的例子:
MD5("")=d41d8cd98f00b204e9800998ecf8427e
MD5("a")=0cc175b9c0f1b6a831c399e269772661
MD5("abc")=900150983cd24fb0d6963f7d28e17f72
MD5("messagedigest")=f96b697d7cb7938d525a2f31aaf161d0
MD5("abcdefghijklmnopqrstuvwxyz")=c3fcd3d76192e4007dfb496cca67e13b
MD5("ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789")=d174ab98d277d9f5a5611c2c9f419d9f
MD5("12345678901234567890123456789012345678901234567890123456789012345678901234567890")=57edf4a22be3c955ac49da2e2107b67a
参考相应RFC文档可以得到MD4、MD5算法的详细描述和算法的C源代码。
3)SHA1及其他
SHA1是由NISTNSA设计为同DSA一起使用的,访问http:
//www.itl.nist.gov/fipspubs可以得到它的详细规范--[/url]"FIPSPUB180-1SECUREHASHSTANDARD"。
它对长度小于264的输入,产生长度为160bit的散列值,因此抗穷举(brute-force)性更好。
SHA-1设计时基于和MD4相同原理,并且模仿了该算法。
因为它将产生160bit的散列值,因此它有5个参与运算的32位寄存器字,消息分组和填充方式与MD5相同,主循环也同样是4轮,但每轮进行20次操作,非线性运算、移位和加法运算也与MD5类似,但非线性函数、加法常数和循环左移操作的设计有一些区别,可以参考上面提到的规范来了解这些细节。
下面是一些SHA1散列结果的例子:
SHA1("abc")=a9993e364706816aba3e25717850c26c9cd0d89d
SHA1("abcdbcdecdefdefgefghfghighijhijkijkljklmklmnlmnomnopnopq")=84983e441c3bd26ebaae4aa1f95129e5e54670f1
其他一些知名的Hash算法还有MD2、N-Hash、RIPE-MD、HAVAL等等。
上面提到的这些都属于"纯"Hash算法。
还有另2类Hash算法,一类就是基于对称分组算法的单向散列算法,典型的例子是基于DES的所谓Davies-Meyer算法,另外还有经IDEA改进的Davies-Meyer算法,它们两者目前都被认为是安全的算法。
另一类是基于模运算/离散对数的,也就是基于公开密钥算法的,但因为其运算开销太大,而缺乏很好的应用前景。
没有通过分析和差分攻击考验的算法,大多都已经夭折在实验室里了,因此,如果目前流行的Hash算法能完全符合密码学意义上的单向性和抗冲突性,就保证了只有穷举,才是破坏Hash运算安全特性的唯一方法。
为了对抗弱抗冲突性,我们可能要穷举个数和散列值空间长度一样大的输入,即尝试2^128或2^160个不同的输入,目前一台高档个人电脑可能需要10^25年才能完成这一艰巨的工作,即使是最高端的并行系统,这也不是在几千年里的干得完的事。
而因为"生日攻击"有效的降低了需要穷举的空间,将其降低为大约1.2*2^64或1.2*2^80,所以,强抗冲突性是决定Hash算法安全性的关键。
在NIST新的AdvancedEncryptionStandard(AES)中,使用了长度为128、192、256bit的密钥,因此相应的设计了SHA256、SHA384、SHA512,它们将提供更好的安全性。
Hash算法在信息安全方面的应用主要体现在以下的3个方面:
1)文件校验
我们比较熟悉的校验算法有奇偶校验和CRC校验,这2种校验并没有抗数据篡改的能力,它们一定程度上能检测并纠正数据传输中的信道误码,但却不能防止对数据的恶意破坏。
MD5Hash算法的"数字指纹"特性,使它成为目前应用最广泛的一种文件完整性校验和(Checksum)算法,不少Unix系统有提供计算md5checksum的命令。
它常被用在下面的2种情况下:
第一是文件传送后的校验,将得到的目标文件计算md5checksum,与源文件的md5checksum比对,由两者md5checksum的一致性,可以从统计上保证2个文件的每一个码元也是完全相同的。
这可以检验文件传输过程中是否出现错误,更重要的是可以保证文件在传输过程中未被恶意篡改。
一个很典型的应用是ftp服务,用户可以用来保证多次断点续传,特别是从镜像站点下载的文件的正确性。
更出色的解决方法是所谓的代码签名,文件的提供者在提供文件的同时,提供对文件Hash值用自己的代码签名密钥进行数字签名的值,及自己的代码签名证书。
文件的接受者不仅能验证文件的完整性,还可以依据自己对证书签发者和证书拥有者的信任程度,决定是否接受该文件。
浏览器在下载运行插件和java小程序时,使用的就是这样的模式。
第二是用作保存二进制文件系统的数字指纹,以便检测文件系统是否未经允许的被修改。
不少系统管理/系统安全软件都提供这一文件系统完整性评估的功能,在系统初始安装完毕后,建立对文件系统的基础校验和数据库,因为散列校验和的长度很小,它们可以方便的被存放在容量很小的存储介质上。
此后,可以定期或根据需要,再次计算文件系统的校验和,一旦发现与原来保存的值有不匹配,说明该文件已经被非法修改,或者是被病毒感染,或者被木马程序替代。
TripWire就提供了一个此类应用的典型例子。
更完美的方法是使用"MAC"。
"MAC"是一个与Hash密切相关的名词,即信息鉴权码(MessageAuthorityCode)。
它是与密钥相关的Hash值,必须拥有该密钥才能检验该Hash值。
文件系统的数字指纹也许会被保存在不可信任的介质上,只对拥有该密钥者提供可鉴别性。
并且在文件的数字指纹有可能需要被修改的情况下,只有密钥的拥有者可以计算出新的散列值,而企图破坏文件完整性者却不能得逞。
2)数字签名
Hash算法也是现代密码体系中的一个重要组成部分。
由于非对称算法的运算速度较慢,所以在数字签名协议中,单向散列函数扮演了一个重要的角色。
在这种签名协议中,双方必须事先协商好双方都支持的Hash函数和签名算法。
签名方先对该数据文件进行计算其散列值,然后再对很短的散列值结果--如Md5是16个字节,SHA1是20字节,用非对称算法进行数字签名操作。
对方在验证签名时,也是先对该数据文件进行计算其散列值,然后再用非对称算法验证数字签名。
对Hash值,又称"数字摘要"进行数字签名,在统计上可以认为与对文件本身进行数字签名是等效的。
而且这样的协议还有其他的优点:
首先,数据文件本身可以同它的散列值分开保存,签名验证也可以脱离数据文件本身的存在而进行。
再者,有些情况下签名密钥可能与解密密钥是同一个,也就是说,如果对一个数据文件签名,与对其进行非对称的解密操作是相同的操作,这是相当危险的,恶意的破坏者可能将一个试图骗你将其解密的文件,充当一个要求你签名的文件发送给你。
因此,在对任何数据文件进行数字签名时,只有对其Hash值进行签名才是安全的。
3)鉴权协议
如下的鉴权协议又被称作"挑战--认证模式:
在传输信道是可被侦听,但不可被篡改的情况下,这是一种简单而安全的方法。
需要鉴权的一方,向将被鉴权的一方发送随机串(“挑战”),被鉴权方将该随机串和自己的鉴权口令字一起进行Hash运算后,返还鉴权方,鉴权方将收到的Hash值与在己端用该随机串和对方的鉴权口令字进行Hash运算的结果相比较(“认证”),如相同,则可在统计上认为对方拥有该口令字,即通过鉴权。
第8章Hash函数
密码学上的Hash函数是一种将任意长度的消息(message)压缩为某一固定长度的消息摘要(messagedigest)的函数.
Hash函数可以用于数字签名.将Hash函数应用于数字签名有许多好处.
(1)可以提高签名的速度.当签名者想对一个消息优进行签名时,他可以首先利用Hash函数H,计算消息/'n的消息摘要。
一日(m),然后计算签名y-Sigt(z).这里k是签名密钥,Sigt是签名函数.
(2)可以不泄露签名所对应的消息.对消息in的签名是y=Si9。
(2),其中名一H(研),H是一个Hash函数.Y是签名应当公开,消息摘要2可以公开以便于验证签名,而消息m则可以保密.
(3)可以将对消息的签名变换与加密变换分开处理.
Hash函数除了可用于数字签名之外,还可以用于其他方面,譬如消息的完整性检测.为保证消息的完整性,及时发现消息是否被非法篡改,可以在消息传输之前先对消息做Hash变换,然后对消息进行传输,对于接收到的消息也做Hash变换,将传输前的消息的Hash变换值与接收到的消息的Hash变换值做比较,如果两者相同,则可以认为消息在传输过程中没有被篡改,否则消息一定被非法篡改了.
本章简单介绍Hash函数的基本性质和两个常见的Hash函数一一Hash函数MD4和安全Hash算法SHA.
8.1Hash函数的性质
Hash函数的输入为任意长度的消息,而其输出为固定长度的消息.一个Hash函数是一个多对一的映射.
定义8.1设H是一个Hash函数,给定一个消息z,如果寻找另外一个与X不同的消息z',使得H(z)一H(z')是计算上不可行的,则称H关于消息X是弱无碰撞的(weaklycollision-free).
在一个应用Hash函数的签名方案中,假设s是签名者对消息z的一个有效签名,S-Sigt(H(z)).对手可能会试图寻找另外一个与.27不同的消息x7,使得H(z)一H(z7).如果对手找到了一个这样的z7,则对手就可以伪造对消息27的签名,这是因为S也是对消息z7的有效签名.如果应用于签名方案中的Hash函数H关于消息2是弱无碰撞的,则相应的签名方案就可以抵抗对手的上述伪造攻击.
对Hash函数的另外一种可能的攻击是对手可能会寻找两个不同的消息,27和z,使得H(z)一H(z7),然后对手说服签名者对消息z进行签名,得到S-Sigk(H(z)).由于s=Sim(日(z')),所以对手得到了一个对消息z7的有效签名.对手的这种攻击方法导致我们定义强无碰撞的Hash函数.
定义8.2设H是一个Hash函数,如果寻找两个不同的消息2和z7使得H(z)一H(z7)在计算上是不可行的,则称日是强无碰撞的(stronglycollision-free).
显然,一个Hash函数H是强无碰撞的当且仅当寻找一个消息32使得日关于z不是弱无碰撞的在计算上是不可行的,也就是说,一个Hash函数H是强无碰撞的当且仅当对任意消息37,H关于消息2是弱无碰撞的.
在一个应用Hash函数的签名方案中,假设对手得到了关于一个消息摘要z的有效签名s,s=Si9。
(2),则对手可能会试图寻找一个消息z,使得2一H(z).如果对手找到了这样的消息z,则S就是消息2的有效签名.为抵抗对手的这种攻击,我们应该要求Hash函数是单向函数.
定义8.3设H是一个Hash函数,如果对于任意给定的2,寻找满足H(z)一2的消息z是计算上不可行的,则称H是单向的(one-way).
可以证明,如果一个Hash函数H不是单向的,则H一定不是强无碰撞的,也就是说,如果一个Hash函数日是强无碰撞的,则H一定是单向的.
综上所述,一个密码学上安全的Hash函数日应具有以下性质:
(1)对任意消息z,计算H(z)是容易的;
(2)寻找两个不同的消息z和z7使得H(z)一H(z7)是难解的.
8.2基于分组密码的Hash函数
利用已有的分组密码来构造Hash函数是一种常见的比较简单的构造方法.在4.4节中我们提到,在分组密码的CBC工作模式和CFB工作模式中,一个明文块的改变,在加密时将会引起相应的密文块以及其后的所有密文块的改变.因此,我们自然会想到利用分组密码的CBC工作模式和CFB工作模式来构造Hash函数.
设&是一个分组长度为,z的分组密码的加密算法,密钥为k.对于任意消息z,首先对2进行分组,每组的长度为卵.如果z的长度不是咒的倍数,则在z的最后适当添加一些数据使得z的长度恰好是卵的倍数.在以下的讨论中,我们假设消息的长度都是以的倍数.
设z是任意一个消息,
基于分组密码的CBC工作模式的Hash函数H如图8.1所示,其构造过程可以形式化地描述为:
首先选取一个初始向量IV∈GF
(2)",令Y。
-----IV;然后计算
基于分组密码的CFB工作模式的Hash函数日如图8.2所示,其构造过程为:
首先选取一个初始向量IV∈GF
(2)",令Y。
----IV;然后计算
基二F分组密码的CBC工作模式和CFB工作模式的Hash函数中的密钥五可以公开也可以不公开.如果密钥k保密,则我们得到的是带密钥的Hash函数.如果密钥志公开,则我们得到的就是通常的不带密钥的Hash函数.
带密钥的Hash函数常用于产生消息认证码(messageauthenticationcode).对于通信双方之间传输的任意消息z,用带密钥的Hash函数H对z做变换,结果H(z)作为消息2的认证码,附在消息z的后面.消息认证码用于保证通信双方之间传输的消息的完整性,使双方确信消息没有被第三方篡改或伪造.
不难看出,在密钥公开的情况下,基于分组密码的CBC工作模式和CFB工作模式的Hash函数是不安全的,它们甚至不是弱无碰撞的.
8.3Hash函数MD4
Hash函数MD4是由R.L.Rivest于1990年提出的.MD4的设计没有基于任何假设和密码体制.Hash函数的这种直接构造方法受到了人们的广泛青睐.MD4的效率很高,非常实用.
下面我们来介绍Hash函数MD4.
设z是一个消息,用二进制表示.首先由37生成一个数组
(2)令z为Izlmod264的二进制表示.z的长度为64位.如果2的长度不足64位,则在z的左端添0补足.
(3)M=xlll||04|11.
这里Izl表示37的长度,Il表示序列的连接,譬如zlIy表示将序列y排在序列z的右端.在M的构造中,首先在z的右端添加一个1,然后填充尽可能多的0使其长度恰好为512的倍数减去64,最后64位表示消息填充前长度的二进制表示.如果.27的长度IzJ不小于2",则最后64位为JzIrood264的二进制表示.这样M的长度恰好为512的倍数.
MD4将从M开始产生一个l28位的消息摘要.算法如下:
(1)设A,B,c,D是四个32位的寄存器,其初值(用十六进制表示)Yt别为
A=67452301,B=efcdab89.C=98badcfe,D一10325476.
(2)对i一0至N/16-1执行第(3)步至第(8)步.
(3)对J一0至15执行x[.『]=M[16i+力.
(4)将寄存器A,B,C,D中的值存储到另外四个寄存器AA,BB,CC,DD中.
AA=A,BB-B,CC=C,DD=D.
(5)执行Roundl.(6)执行Round2.(7)执行Round3.(8)A-A+AA,B-B+BB,C-C+cc,D-D+DD.
在上述算法中,每次循环处理16个字,循环的次数为N/16.最后一次循环结束时,将寄存器A,B,C,D中的值