以FileCoin为代表的去中心化存储项目,希望借助闲置存储和带宽来降低存储成本,建立分布式存储和共享的网络传输协议。然而,这种理想却遭受商业模式的考验,比如在成本上,去中心化存储成本并不比云存储低,甚至前者是后者的10倍。在用户体验方面,在FileCoin下载数据速度受节点质量影响,速度无法与中心化云存储相提并论。在生态建设上,FileCoin的经济模型缺乏有效的生态循环,矿工以外的生态贡献者难以获得激励。
如何破局去中心化存储?8月23日,在"2020全球区块链算力大会暨新基建矿业峰会"现场,铭识协议中国区负责人EricYao发表《去中心化存储赋能AI认知》主题演讲。他认为,去中心化存储的核心优势不在于成本,而在于共享。人类各领域知识汇集而成的超大规模知识图谱,正适合使用去中心化存储技术共建共享。基于此,铭识协议提出了一种EpikProtocol的协议,该协议通过将去中心化存储技术(IPFS)、去中心化自治组织(DAO)和通证经济模型结合,激励全球社区成员将人类各领域知识梳理成知识图谱,以共建共享的形式构建去中心化的超大规模知识图谱。
以下为演讲全文:
去中心化存储本质上是把一个数据中心分散成很多个。在世界范围内建立几万、几十万的节点保证数据完备性可靠性。诞生了很多技术,比如IPFS,是分布式存储的协议,还有激励模型Filecoin,是把数据按需下载转变为长期存储。通过激励方式让这些数据在节点上有更好的可靠性。
虽然IPFS和Filecoin在很大程度上解决了数据可靠性的问题,但是我们可以想象一下,商业模型是有一定问题的。因为切入的是比较廉价的云存储市场,可以把它当成一个超级网盘,但是应用场景只是当做一个网盘的话,在和去中心化存储的比较就没有很好的成本优势。因为需要借助闲置的带宽来降低成本,但是成本真的低了吗?
去中心化存储困境
选择一个存储设备的时候会考虑几个点。第一,存储设备的安全性,是否安全。第二,存储的成本是多少。第三,往回取数据的时候是否能达到比较好的用户体验,就是带宽质量。
下面我们看一些数据。首先看一下存储成本,以百度云数据为准。针对企业在0.15元每G一个月,个人用户在0.06-0.08元/G/月。
我们看一下带宽质量,分布式存储节点在世界各地,每个节点质量参差不齐,全部使用万兆级别的网卡也就能达到1GB下载速度。中心化的存储很容易能达到单节点60到80G访问数据。由于前面提到的成本问题和数据访问带宽质量问题,谁会往上存数据呢?
BAT巨头公司已经有了比较成熟的云基础设施,而且在区块链建设上做大量的工作。他们会用自己的生态系统来做存储系统。散户或者小公司可能会考虑到成本和带宽原因,把更多放到中心化数据上。最后导致一个什么问题呢,我们想象一个不太好的情景,可能IPFS上面有大量的冗余数据,数据价值不是很高,支撑更大的经济体量的话会有危险性。
上面提到了去中心化存的困境,我们为什么一定要使用去中心化存储?因为中心化存储有不可替代的优势。我们愿意花费比较高昂的存储成本和忍受比较低的带宽的原因是希望把有价值的数据存在上面,而且可以随时访问,不会被中心化节点或者个人因为个人利益原因而篡改,解决去中心化难点的关键就是提高数据价值。
去中心化存储破局
知识就是力量,换一个说法,知识就是价值。把这个知识扩展一下,第四次工业革命已经来临了,全面智能化是这个阶段目标之一。如何让机器人能理解人类掌握的知识,并且基于以掌握的知识学习新知识呢?这是非常重要的一个点。因为我们人类学习这些知识很容易,能够很好的梳理里面的人物关系。但是对于计算机来说就很困难,比如一部电影的话对机器来说只是一祯一祯的数据。要想机器人理解就要用到知识图谱,这样计算机就可以很容易理解我们的知识。
我们前面提到了去中心化存储的关键是提高链上数据的价值,也提到什么叫有价值的数据,就是知识本身的利用。为什么要把这个知识库存到去中心化系统上面,因为有一个必然性的联系。
首先,由于人类知识面涉及太广,所以需要大量的领域专家来参与共建,构建各领域的知识骨架,通过激励的模型把他们拉到这个体系结构来共同构建这个知识库。
其次,人类知识难以自动的转化为计算机能理解的数据,拥有这些能力的科技公司各立山头,独立构建知识图谱,大量劳动力被重复浪费掉。如何构建这种超大规模知识图谱呢?答案在于去中心化图谱。去中心化图谱的优势不在于图谱成本,或者带宽质量,真正优势在于数据共享、数据确权和不可篡改。不可篡改非常重要,也是第四次工业革命的基础设施要放在去中心化存储上面的原因。因为知识图谱是一个拓扑网络结构,如果因为某个人的利益关系改了一两个节点,会对上面所有人工智能的理解造成偏差,导致它们在某一个事情的立场发生变化。
铭识协议去中心化:存储赋能AI认知
具体介绍一下什么是铭识协议,全称是EpikProtocol,意思是铭刻在石头上的知识,不可以随便篡改。就是为了解决前面提出的三大问题,第一个是知识面太广,需要各大领域专家参与。第二,需要大量劳动力纠错。第三,各地互相不信任。通过去中心化存储技术、去中心化自治组织和通证经济模型将人类各领域知识梳理成知识图谱,共建共享并持续更新。他们可以很好的把各方面的关系组织起来,通过激励的原理把这些社区组织起来,去解决第一个第二个知识覆盖面广、需要大量专家,把大量劳动力纠错的功能放出来。
技术架构有三个方面,一个是知识提取,第二是知识存储,第三是知识应用。包括虚拟机技术等等,知识应用是怎么样让上面应用建设更加好,提出了一个知识应用的平台,在上面可以访问网关,方便应用很好的结合数据。
基于上面的架构,EpikProtocol提出了三大平台,知识图谱构建工具平台、去中心化协作平台以及人类知识库应用平台。
人类知识转化为数据是非常复杂的过程,涉及很多不同工具。比如知识获取知识融合知识存储等等,整合一个知识图谱构建平台。第二,去中心化协作平台,也是最重要的平台,如何让多方协作,包括梳理各领域知识的专家,提供数据存储的矿工,鼓励各方参与者共同参与到这个系统里面来,持续和丰富构建人类知识库。最后是知识库应用平台,数据价值一定体现在使用场景中,所以设立一个人类知识库应用平台,目的就是为了方便上层架构应用拓展到一定使用场景,使它很方便的检索和使用存储的人类知识库。
看一下里面具体的角色和模型,原则是各个生态参与者追求自己利益最大化的情况下可以共同推进人类知识库越来越丰富。包含六个核心参与者,分别是持币用户、数据矿工、领域专家、赏金猎人和数据网关。首先数据产生重要的角色是领域专家和赏金猎人。领域专家组织数据梳理,需要提名和投票才能成为领域专家。数据矿工提供存储。人类知识库构建过程中是劳动非常密集型的事业,光靠领域专家是不能做成的,可以把关键性任务发送到社区里面,赏金猎人通过完成这些领域专家发布的任务可以获得奖励。最后就是数据网关,对应的是上层的应用平台。通过知识库的索引服务。
EpikProtocol的经济模型分两级发行。一级发行目标是维护网络运转。这里需要强调一点,首先知识库构建是一个从小到大的过程,所以Epik不是搞算力借贷,它的矿机首先是兼容的,可以互相切换。早期的时候也不需要那么大存储能力,因为数据库是逐渐逐渐生成的,32GB就可以提供早期的存储服务。然后专家发布数据,数据矿工存储这些数据,存储数据越多,你算力越高,挖出区块的概率越高。90%给矿工,10%给专家,获得这个分红权。
二级经济模型,也是可以通过系统获得激励。二级发行目标是针对一级发行已经挖出来的代币,或者市面上流通的代币,根据使用场景不同每年都会产生7%的利息分配给的各自对应的生态参与者。有三种状态:抵押、投票和自由状态。抵押状态指的是,下面有很多人类知识库的数据,如果想使用这些数据需要付出一定代价,每年产生的收益会给数据矿工。投票状态是针对领域专家这一块。自由状态,是前面两种状态之外的,他们每年7%的利息给基金会。
EpikProtocol的测试网在上周六已经发布,预产活动预计9月6号上线,可能有超过五千个节点共同参与预产活动。第四季度会发布主网1.0,支持领域专家投票选举,还有支持网关抵押访问。明年发布主网2.0,可以让大家更好的在这个平台里面完美的运转起来。