Merkle Patricia Tree (MPT) 树详解之数据结构(一)
在之前的EVM系列的文章中,其实一直有一个问题没有解决,那就是Storage持久化的数据最终是以什么样的形式,保存在哪里?数以万计的合约有数以万计的storage变量,这些变量如何快速的读写?
字典树(Trie)
Trie又称前缀树或字典树,是一种有序多叉树。下图是一颗典型的前缀树;
图中前缀树存储了一些字符串,蓝色的是关键字,存储的字符串由关键字组成。存储了”a”, “to”, “tea”, “ted”, “ten”, “i”, “in”, “inn”。
前缀树有这些特点;
- 根节点不包含字符,其他节点各包含一个字符;
- 关键路径节点的字符连接起来为该节点所存储的数据;
关键路径就是每个节点有一个标志位,用来标记这个节点是否作为构成数据的一部分,上图中的,t, e 节点就不是关键路径。
Trie的核心思想就是用空间换时间,利用公共前缀缩小要比较的范围来达到快速查找的目的。
优点
- 插入和查询的效率都很高,都是O(m),m是插入或查询字符串的长度。
- 可以对数据按照字典序排序。
缺点
- 空间消耗的比较大。
典型场景
- 但词频次统计。
- 字符串匹配。
- 字符串字典序排序。
- 前缀匹配,比如一些搜索框的自动提示。
压缩字典树
压缩字典树在字典树的基础之上做了一些优化,具体可以看下图;
图中黑色的是关键路径,存储了字符串”abc”和”d”,但是明显可以看到压缩后的前缀树占用了更小的空间。
默克尔树(Merkle tree)
默克尔树首先计算叶子节点的hash值,然后将相邻两个节点的哈希进行合并,合并完成后计算这个字符串的哈希值,直到根节点为止,如果是单个节点,可以复制单节点的哈希,然后合并哈希再重复上面的过程。
优点
可以高效安全的验证数据结构的内容。
典型场景
p2p网络分块下载文件的时候,快速校验下载到的数据是否完整,是否遭到破坏。
默克尔帕特里夏树(Merkle Patricia Tree)
MPT树结合了字典树和默克尔树的优点,在压缩字典树中根节点是空的,而MPT树可以在根节点保存整棵树的哈希校验和,而校验和的生成则是采用了和默克尔树生成一致的方式。
以太坊采用MPT树来保存,交易,交易的收据以及世界状态,为了压缩整体的树高,降低操作的复杂度
,以太坊又对MPT树进行了一些优化。将树节点分成了四种;
- 空节点(hashNode)
- 叶子节点(valueNode)
- 分支节点(fullNode)
- 扩展节点(shortNode)
通过以太坊黄皮书中很经典的一张图,来了解不同节点的具体结构和作用
可以看到有四个状态要存储在世界状态的MPT树中,需要存入的值是键值对的形式。自顶向下,我们首先看到的keccak256
生成的根哈希,参考默克尔树的Top Hash
,其次看到的是绿色的扩展节点Extension Node
,其中共同前缀shared nibble
是a7,采用了压缩前缀树的方式进行了合并,接着看到蓝色的分支节点Branch Node
,其中有表示十六进制的字符和一个value,最后的value是fullnode的数据部分,最后看到紫色的叶子节点leadfNode
用来存储具体的数据,它也对路径进行了压缩。
在智能合约执行以后,有一部分数据是需要持久化,参考「EVM深度分析之数据存储(一)」中的Storage
中的类型,而一条链上有非常多的合约,每个合约又有很多的数据需要持久化,这个时候就需要用到MPT
树。
在「EVM深度分析之数据存储」中可以看到需要持久化的数据都是以键值对的形式存在的,而键是由keccak256这个函数计算得到,用十六进制表示后刚好对应 MPT 树中分支节点的0-f的16个分支。
为了避免不同合约有相同的字段,合约又通过地址来进行管理,具体参考「以太坊账户组织形式」,本质上也是采用MPT树管理合约,合约又采用MPT树管理自身状态。
最终的数据还是以键值对的形式存储在LevelDB中的,MPT树相当于提供了一个缓存,帮助我们快速找到需要的数据,至于最终落盘的数据后面在讲~