哈希函数的特性以及比特币挖矿的技术原理解析

时间：2020-05-21 07:00:01

关键字：哈希函数比特币 TARGET CK

手机看文章

扫描二维码
随时随地手机看文章

[导读] 比特币是世界上第一种成功的加密货币，之前的尝试都没有像比特币这样有效解决有关货币的各种问题。比特币本身是密码学发展的产物，利用了密码学中的很重要的“单向散列函数”以及数字签名

比特币是世界上第一种成功的加密货币，之前的尝试都没有像比特币这样有效解决有关货币的各种问题。

比特币本身是密码学发展的产物，利用了密码学中的很重要的“单向散列函数”以及数字签名两大技术来构建，今天我们来集中精力讲解单向散列函数的5种重要的特性，以及比特币挖矿相关的技术原理。

下面我们先讲哈希函数的特性：

单向散列函数（one-wayhash function），也就是通俗叫的哈希函数。

第一个特点：输入可以任意长度，输出是固定长度

哈希函数不用知道输入信息代表的是什么意思，也无所谓信息的长度有多长，只要输入hash函数出来的都是固定长度的比特值。比如非常有名的SHA256 哈希函数，输入任何值出来的都是256比特的0和1. 输入一本《三国演义》或者仅仅输入一个字母a，出来的都是256位比特长度的数据。

第二个特点：计算hash值的速度比较快

这一点经常被大家所忽略，似乎是习以为常的东西就不去在意，其实这一点同样重要，因为单向哈希的计算很快，才能保证加密或者验证的速度。

第三个特点，防碰撞特性（Collisionresistance）

X≠y，H（x）=H（y）输入空间远远大于输出空间，比如256位的哈希值指的就是输出空间是2^256这么多，输入是无限可能的，输出是固定长度。

但是，目前没有找到没有好的方法去找出一个x能得到H（x）等于右边的值。

遍历所有输入的可能能去找到这个值，叫做brute-force暴力破解吗，也就是现在矿机所谓的“哈希碰撞”这个词的来源。

哈希防碰撞用处是保证上传和下载的数据是一样的，就是改一点点出来的结果差很多。举个例子，你输入的信息是一部《红楼梦》（当然电脑识别出来就是0和1），然后你在红楼梦的第100页的第五句话把一个逗号改成句号，然后输出的hash值就完全不同了。这就是哈希函数一个非常重要的特性。

但是collision resistance目前没有数学证明这个碰撞不会发生，MD5就是最好的例子，之前是很安全的，但是后来找到了破解方法。

第四个特点：隐藏性（Hiding）或者叫做单向性（one-way）

哈希函数的计算过程是单向不可逆的。x推出H（x），但是反推没有法子（单向性），也就是说，哈希值没有泄露输入的x的信息。也就是说x的信息被隐藏了起来，这也就就是隐藏性。

输入空间要足够大，取值是均匀的，这样就很难暴力破解。

利用第三和第四个特性可以做出很有趣的应用场景。

比如预测一个事情。现实世界中预测和结果很多时候是有微妙的关系的，比如三国时期，曹操专门去找当时的人物品鉴专家许劭，让他看看自己是什么材料，许劭评价曹操是“治世之能臣，乱世之奸雄”，这个很难说他评的准不准，或许因为这个评语，影响了曹操的心理，他就朝这个方向发展了，就成了自我验证的预言了。所以，很难判断预测是否真的准。

更简单例子是，有影响力的股评师，今天预测一下明天的股价是不是增长，那么，他如果公开表明币价，可能会影响币价。

所以如何表明他确实很准确呢？让他把股评信息写到纸上，或者存到电脑里，但是要求是第二天开盘后，不能偷偷修改内容，这样就不用担心预测影响股价了。那么现在需要做的只是一件事儿：保证他没有篡改自己已经写好的内容。

那么，可以用hash算法，预测的结果（信息）是x，对x 哈希函数一下，公布hash值，第二天收盘再把x放出来，如果你改了昨天的数据，hash就变了。所有人都可以用hash算一下这个x和昨天公布的hash值进行对比。

实际情况下，实际的输入空间不是很大，输入不够随机，担心有人对上升下跌这样的词汇语句进行组合排列，找到这个x，为了保证安全性，会加入一个nonce随机数，公式表达如下。

H（x丨丨nonce） nonce是一个随机数

意思就是预测的结果信息x后面加个随机数，一起得到hash。

第五点：谜题友好（puzzlefriendly）

就是说看x不知道H（x）是什么？这个无法从输入数据，判断到底输出是什么样子。就是说，知道输入的信息，无法一眼看出来输出的hash值是什么，谜题友好性值得就是这一点：你无法通过控制输入值x来获得想要的输出值H（x）

所以，综合隐藏性和谜题友好性两个特点，知道输入信息也不知道哈希值是什么，可以很快算出来，但是无法预先判断；知道哈希值也不能知道输入值是什么，反向计算是非常非常困难的，只能暴力破解。

所以如果你想要输出的值落在某一个范围里，比如小于某个数值，计算机只能一个一个去试去猜答案，看哪个输入算出来的输出值正好是落在你想要的范围内。

你要得到一个hash值前面K位是0。你无法知道怎么得到前面是这么多0的x。

挖矿就是找nonce，就是这个随机数。

H（block header + nonce）≤target

这就是比特币挖矿的基本原理，就是哈希碰撞去找到这个nonce，让他小于一个target（比如32个0等等）。Block header（或者block head）就是区块头包括的信息都是所有矿工都知道的信息（比如version，prehash，merkle root，nTImenbits等等信息），所以大家竞争的是谁先猜出来nonce。

备注：在二进制的世界里，因为每一位比特都是0或者1，所以比大小，就是比前面的0的数量，前面32位是0，自然小于前面31位是0（第32位是1），这个target的所谓比大小也就是限定个范围，因为sha256出来的数字都是256位的二进制数字（哈希函数输出值长短固定的特性），比谁前面的0多是很方便的划定结果值的区域的方式。这一点大家忽略的人很多，其实是一个很基础的数学知识，值得注意。

挖矿的基本思想就是来自上述的信息。在比特币中的挖矿的过程里实际上就是去找nonce也就是确定了输出范围后，去找输入的值。H（block header + nonce）≤target

当输入的值（各种信息+nonce）进行hash运算后得到的值符合target的范围，比如说前面35个0就可以了，你猜出来的值输入后得到hash值前面40个都是零，那么肯定符合要求，实际上前面35个0就满足条件了嘛。

然后你把这个信息公布出去，别的矿工看到你的nonce值，也去hash一下，很快就知道你这个nonce是合适的，可以满足target的要求。这里就用到了哈希函数的计算速度快的特性（第二个特性）。

本文总结了单数散列函数也就是哈希函数的特性，这就是很多区块链应用的基础以及比特币加密挖矿的基本原理。文章开头说过，比特币运用的密码学除了函数函数，还有一个非常重要的内容是：数字签名。这个我们很快就会讲到。

目前世界上所谓的区块链落地应用，其实有时候用的是比特币的数据结构（默克尔树等），有时候用的是UTXO模型来结算。有的时候说是溯源，有的时候说是合约。很多的应用出来，不管是什么样的概念，多数都要用到哈希函数，利用哈希函数5种特性中的一部分。

随着文章讲解的深入，关于比特币，关于行业的信息都在展开，慢慢的大家更能明白，为什么说哈希函数是比特币和区块链行业的基础了。
来源：加密二锅头