本文最初发表在 Decentralized.co 上。在GCR 上,我们每月两次(每隔一个星期四)为您带来与去中心化相关的长篇内容! Decentralized.co 已获得200多家公司管理层的信任,让它们能够及时了解重要的趋势、数据和见解。您可点击以下按钮订阅他们相关时事资讯——更多的是为我们在 Discord 上最活跃的成员提供有关此次合作的更多支持。
你们好!
如果您想了解此处所写内容以外的相关文章,可阅读我们已于7月18日为本文编写的前言。
所有生物都会留下一些记录。动物通过追踪季节来了解何时狩猎。啮齿动物和鸟类将食物储存在特别的地方。他们需要记住所储存的位置,以便在几个月后能找到它们,用于食用以继续生存。狼在领地周围留下标记,示意其他动物不要靠近。甚至树木也会记录时间。每年,树干切面上都会形成一个环。人们可以根据这个称为年轮的环的数量来推测一棵树的年龄。
尽管树木和动物能够记录时间,但它们无法检索或讲述过往的事情。他们无权访问内存。而人类可以,这就是人类记录保存的不同之处。由于我们具有沟通能力,我们知道美索不达米亚的苏美尔人(公元前3400年)和古埃及人(公元前3200年)使用楔形文字和象形文字来记录信息。
当知识可以在无需实际涉足来源的情况下传递时,人类就进化了。在柏拉图或苏格拉底去世很久之后,我们仍然能阅读并欣赏他们的作品,因为我们有办法存储他们的学说内容。最初的 AR 平台书是文字。
来自伊朗的文字记录了谷物的情况。来源:链接
在文字将事情留给想象的地方,数据帮助保持事情的客观性。它减少了个人将事物存储在记忆中的要求。这就是为什么一些最悠久的人类文本涉及债务、收入或交易记录的部分原因。
在后工业时代,企业通过将销售记录数字化来建立竞争护城河,以加强其市场地位。其中一个例子是一家名为 Asian Paints 的印度公司。他们的涂料可能不是市场上最好的,但他们控制着印度80亿美元涂料行业50%以上的市场份额。
为什么?简单的答案是,它是一个家喻户晓的品牌,而且该公司具有规模经济。但他们如何实现这一目标的根源在于数据。他们在数据收集和处理方面投入巨资,以优化供应链。
从背景来看,亚洲涂料股票在过去30年中的复合年增长率高达25%。支持这一增长的是20世纪70年代对大型计算机的投资。该设备比当时印度最好的研究机构使用的设备更强大。它每小时收集与印度各地销售的涂料颜色和数量相关的数据。这使得亚洲涂料公司能够建立一个模型,以98%的准确率预测整个印度的涂料需求。
这种预测能力使亚洲涂料公司能够获得最大价值,因为它可以大大减少补货时间。当时,销售涂料等商品的法则是将其出售给批发商,然后批发商将其交给经销商,经销商再将其出售给商人。商人将直接与消费者互动。供应链之所以如此复杂,是因为各方都拥有资产库存并控制着涂料供需数据。
亚洲涂料的创始人乔克西先生研究了最终用户的消费模式并减少了对中间商的依赖,以此将批发商和分销商从供应链中剔除。通过消除中间商,亚洲涂料获得了97%的 MRP(商人占 3%),而竞争对手则获得了60%。
Telegraph extractable value would be frontrunning ticker tapes relayed over the Telegraph.
电报可提取价值将是通过电报转发的抢先行情磁带。
向数字化的转变并非一蹴而就。数据收集变得吸引人的部分原因在于金融世界及其逐渐变得相互关联的程度。例如,在20世纪末,股票市场数据是使用上述设备通过电报转发的。早在1835年,商人就训练鸽子携带一些纸片,其中包含有关欧洲的新闻。当运载货物的汽船驶入距陆地50英里以内时,鸽子就会带着信息飞到指定地点。过去,交易者要提前每小时支付500美元才能获得新闻。
到1867年,交易员们开始竞相优化电报传递信息的速度。一位名叫 E. A Calahan 的西联汇款员工向 NYSE 支付了20多万美元,以成为能够派员工到交易大厅向其客户转发股票数据的人。付出努力以优化该系统的人之一包括一位名叫托马斯·阿尔瓦·爱迪生(Thomas Alva Edison)的年轻科学家。一个世纪后,像彭博终端这样的工具将在任何一天急剧扩展金融数据转发的速度和数量。
数据就像原油一样,必须经过几个步骤的提炼才能使用。了解彭博社的成长方式有助于了解整个数据格局的演变以及过程。彭博社并不是第一个尝试使用技术来改进交易和报告机制的公司。纳斯达克使用 Bunker Ramo 终端来传播信息并下达买/卖订单。然而,依赖以前的电话通信网络意味着扩展这种模式总是充满挑战。
来源:NASDAQ – The Evolution of Automated OTC Trading
1981年,投资银行所罗门兄弟 (Solomon Brothers) 的合伙人迈克尔·布隆伯格 (Michael Bloomberg) 在 Phibro Corporation 收购该银行时因其股权而被解雇,并损失了1000万美元。他意识到,随着从纽约到日本的金融市场日益电子化,投资者已经准备好为提炼的金融信息付费。他创办了一家名为 Innovative Market System 的数据服务公司,该公司于1986年更名为彭博社。
在互联网兴起之前,彭博终端是通过 Chiclet 访问的。它通过一条特殊电缆连接到彭博控制器,该电缆通过专用电话线连接到本地集线器。彭博社通过数据合作伙伴、新闻机构和新闻稿以及手动数据输入和基于电话的数据收集等专有方法收集数据。
随着互联网的出现,信息的闸门打开了。如今,彭博社几乎能实时获取、处理并提供2000亿条金融信息。即每秒大约2300万个数据点。彭博社提供的一些信息是公开的。公司财务报表以及股票和债券价格等数据点可以在公共论坛上找到。
但是,如果您是石油和天然气分析师并且想要了解原油集装箱的移动情况,那么你该怎么办?如果您不订阅彭博社等数据源,您不太可能实时获取此信息。不是所有的互联网数据都是免费提供的。
当提及 Web2 中的数据时,个人通常面临两个限制:许可访问和处理大量数据的高障碍。多年来,像彭博社这样的提供商已经建立了足够强大的网络效应,可以通过其附属机构获取数据,而分析师或投资者却无力这样做。
最好是向彭博社支付20,000美元进行年度订阅,而不是尝试从可能具有不同定价等级的混合数据平台获取数据。即使您足够努力地获取数据,但如果没有大量的基础设施支出,您也无法实时处理和运行分析。在零售端,许多最终扩展的平台都是数据匹配引擎。
可以这样想:谷歌(搜索引擎)是一家数据公司,为企业提供访问用户的机会以换取广告费。当一家餐馆或一份时事通讯(比如我们的)希望定位在 Google 上搜索信息的用户时,他们会匹配类似信息的供需。在寻找特定于 Web3 的时事通讯信息的人正在寻找我们。我们正在寻找那个人。 (我抑制住了在这里插入我们的推荐计划的冲动。)
谷歌因其规模经济而建立了垄断地位。他们的用户库存和用户每日查询数量仍然无法匹敌。谷歌在广告盛行的时代推出一款没有广告的搜索引擎,然后收购了 YouTube 和 Android,最后向苹果等同行付费,最终让谷歌成为默认搜索引擎,从而奠定了这一地位。仅就苹果而言,谷歌每年就支付200亿美元,以保持 Safari 上的默认搜索引擎地位。
谷歌支付如此高的费用是因为其产品的核心是匹配引擎。匹配引擎让有需求的用户与提供产品的企业取得联系。大多数网络垄断的核心都是匹配引擎。亚马逊将产品卖家与买家配对。 Instagram 将受众与创作者匹配起来。这些匹配引擎之所以有效,是因为这些产品上的交互留下了很多痕迹,可以从中驱动环境。
本·埃文斯 (Ben Evans) 在2022年写下了一句著名的话:不存在数据这样的东西。了解我的内容、食物或旅行偏好对于第三方来说没有多大价值。只有当它通过环境进行聚合或丰富时,它才对商业或研究有价值。
从某种意义上说,我对在周五晚上吃印度饭的偏好这一环境可以用来在我购买印度饭的概率最高时向我做广告。总的来说,将我的购买概率与同一地区的同行进行比较有助于更好地定位用户。
数据需要规模(量大)或环境才能有价值。 Web3 和 Web2 产品在历史上的不同之处在于它们留下的痕迹。只有亚马逊知道一周内会售出多少 Xbox 控制器。但您可以随时查看交易者在 OpenSea 上买卖 NFT 的模式。原因是每笔交易都会留下公开痕迹。
Web3 中的数据产品使用这些痕迹来构建环境。
以太坊和比特币等区块链分别以每12秒和约10分钟的速度产生一个区块。每个区块都包含改变区块链状态的交易。像 Etherscan 这样的区块浏览器会捕获与所有交易相关的数据。例如,如果您访问 Etherscan 并看到一个区块,您可能会看到下图。
区块链上的交易有着丰富的背景。 Arkham 和 Nansen 等产品是研究人员了解交易发生时所发生情况的解释引擎。
您可以查看自以太坊启动以来的所有区块。但你能用这些信息做什么呢?几乎不能做什么。因此,您需要一种方法来捕获多个表中的数据。例如,每当区块中调用市场的 NFT 合约时,与该交易相关的数据应附加到 NFT 相关表中,或者当 Uniswap 合约被调用时,相关数据应存储在 DEX 相关表中。 (沙丘将此作为一项服务。)
您无法在不产生大量基础设施成本的情况下分析原始数据。因此,尽管数据是免费提供的,但您也会遇到同样的问题。作为投资者或 dApp 构建者,您依赖外部数据。但您的核心职能与收集和管理数据无关。将资源投入必要但非核心的活动并不是每个组织都可以享受的奢侈。
对于数据产品来说,数据周围的环境使产品变得独特。彭博社运用其对金融的理解,将数据转化为发明者和交易者可以轻松使用的形式。Likeweb 等网站或 Newzoo 等研究出版物利用其核心能力将社交或游戏相关环境应用到他们跟踪的数据中。
区块链原生数据产品通过回答与特定用户子集相关的问题的查询来提供用户环境,从而让自己与众不同。例如,TokenTerminal 计算协议的经济基础。Nansen帮助市场参与者标记和了解资产的流动。Parsec 查询链上数据,帮助交易者更好地分析 DeFi 头寸。
所有这些产品都依赖于公共利益:链上数据。不同之处在于这些产品呈现数据的方式,这使得它们吸引了不同的受众。
我们行业中的产品类别划分是基于哪些数据在链上以及哪些信息来自链外来源。 (有些人经常同时使用两者来划分。)数据提供者使用他们的环境过滤器来创建产品。正如 Web2 数据有其利基市场一样,Web3 数据公司已经或正在利用其核心能力逐渐构建护城河。
因此,创始人的背景通常决定了所发布产品的性质。当一个核心团队在加密货币之前在资本市场花费了大量时间时,他们的产品往往会模仿彭博社,而加密货币原生产品看起来就像 Nansen。不同的产品可以满足不同的需求,即使查询相同的数据也是如此。
例如,交易所通常会在固定的时间间隔后丢弃数据。他们不从事数据业务,存储过往数据需要额外的服务器和管理。一些数据提供商(例如 Kaiko 和 Amberdata)维护来自交易所的历史订单数据。这些数据允许交易者和投资者建立模型来检验他们的假设。但如果你想了解哪些 DeFi 合约正在因 ETH 或稳定币的流入而大量涌入市场,或者分析特定地址或实体的链上行为,你将需要 Nansen 或 Arkham 的产品。
市场地图并不代表每个类别的每个参与者。
通过加密货币中的消费者角色的视角是了解产品在市场上的定位的一种方法。这些角色可以分为以下四个主要类别。
在熊市期间,流经加密数据产品的大部分美元都来自金融机构。这些都是大客户,具有更长的销售周期和更复杂的数据要求。了解产品是否面向金融机构的一种方法是,客户是否必须通过销售电话来确定其成本是多少。在 Web2 世界中,您无法找到 PitchBook 或 CB Insights 的成本。在加密领域,你不知道像 Chainaanalysis 这样的产品要花多少钱。
抛开笑话不谈,这种销售流程的部分原因是面向这一消费群体的数据产品提供的实际操作、周到而且质量属上乘的服务。这些用户通常选择高度精细且频繁的数据。他们不仅在交易前的决策方面需要数据,还在交易后需要数据,以满足合规性和税务要求。
例如,他们需要产品来告诉他们投资组合的历史价值是多少,帮助他们进行税收计算等等。Amberdata、Kaiko、CoinMetrics、CryptoCompare 以及也可以说有 Nansen 等公司为这些客户提供服务。
根据我的经验,只有在拥有大型融资轮的机构或团队工作背景的创始人才能打开机构数据市场。与任何企业产品一样,这里的进入壁垒相对较高。
我们经常无意中发现Web3的可组合性功能,这意味着Web3应用程序可以相互依赖。他们可能需要彼此提供数据。因此,他们需要不断地互相读取数据。例如,像Yearn Finance这样的平台需要从Aave和Compound读取数据,像Tensor这样的NFT聚合器需要从Magic Eden和其他市场读取数据。
但这些数据跨区块存储在以太坊和 Solana 等链上。以太坊在12秒内创建一个区块,而 Solana 在400毫秒内完成。将区块链数据排序到表中并将其存储以供快速访问是一项艰巨的任务。这就是 Covalent、Graph、Chainlink 和 Powerloom 等索引器发挥作用的地方。它们确保原始区块链数据以所需的格式存储,以便开发人员可以通过简单的 API 调用来获取它。
这个消费者角色中的一个新兴部分涉及用于理解用户行为的工具。例如,ARCx 允许开发人员将链下数据(如浏览器行为)与链上数据(如钱包地址)映射起来,以捕获与 dApp 交互的用户的人口统计信息。它们处于相对较小但相关的利基市场中,因为它们帮助开发人员识别他们的用户是谁。
加密货币中的数据产品通常通过与研究人员和出版物合作来进行分发。例如,CCData 经常被彭博社引用。研究人员倾向于依靠数据产品,因为它们有助于在收集、清理或整理数据时节省时间和精力。像 Dune 这样的产品通过建立一个分析师社区来建立护城河,这些分析师互相竞争以在列表中获得更高的排名。
The Block 和 Delphi 等出版物展示了使用第三方提供商的数据构建的仪表板。在 Decentralized.co,我们完全依赖外部数据提供商,因为他们在收集数据时使用外部资源的同时帮助团队保持精简。
迎合这一消费群体的挑战在于,规模较小的研究人员可能没有所需的预算来证明花费大量资源以揭示可能仅与个人相关的利基见解是合理的。相反,公司很愿意花费精力和资源与《金融时报》等重要出版物合作,因为这有助于发行。
面向散户的产品通常具有较低的数据粒度和频率。但由于他们看到了规模经济,因此它们是高利润的利基市场。在不存在客户流失的情况下,每名支付100美元的用户相当于100万美元的ARR业务。说起来容易做起来难,但这些经济学解释了为什么我们有这么多面向零售的加密数据产品。
大部分面向零售的产品是免费的或由广告支持的。例如,像 DefiLlama 这样的免费资源不会告诉您如何通过不同的交易所(CEX 和 DEX)传送订单以避免滑点,因为它不获取订单簿快照,但它会显示有关代币解锁或收益率解锁的信息。
这一消费群体的一个变化是交付媒介开辟新的市场类别方式,例如,Cielo 通过 Telegram 以通知形式交付数据。它以易于使用的方式为不愿使用桌面界面的消费者群体传递信息,通过此方式它已扩展到40,000多名用户。如果做得好,即使是分销媒介也可以成为早期企业的微分器。甚至在数据中也是如此。
尽管分类有些模糊,但数据公司可以分为 B2B 或 B2C 方向。
Amberdata 和 Kaiko 等公司拥有迎合成熟参与者的产品。这些产品更加精细(数据可用的细节)、出现更频繁(例如逐笔交易和实时订单簿数据),并且满足诸如构建和测试模型、交易前分析、交易后分析、报告、税务和合规性等需求。数据的提供形式允许客户进行专有分析并根据他们的口味构建可视化。这些公司通常通过付费墙提供产品。
由于基础设施要求、所涉及客户的性质以及销售周期的长度,成本通常是粒度的函数。
上图在两个轴上映射了不同的产品——深度和粒度与产品价格。请注意,这些图并不准确。有几个点可能会错位。这个想法是建立一个心理模型,用于思考几种产品及其在市场中的地位。
Dune 或 CoinGecko 等专注于零售的产品几乎免费显示所有数据。要访问某些数据,或者通过 API 获取数据来运行分析,客户必须付费才能使用。例如,您可以查看多个 Dune 向导创建的所有图表,但它们限制您可以以 CSV 形式下载的行数。您可以下载更大的 CSV 文件并在支付更多费用后查看私人检索。
专注于零售的公司的每客户收入往往较低,付费客户占免费用户的比例也很少。将此与互联网公司免费增值模式的转化率进行比较。通常,转化率为2%–5%。10%的转化率属于异常值。他们计划拥有尽可能多的免费客户,以便4%的转化率带来显著的收入。这就是我们所说的漏斗顶部。
因此,数据公司需要漏斗顶部足够大,以产生足够的收入,从而维持较低的转化率。当网站有很多访问者时,公司还可以考虑通过广告创收。 CoinGecko 利用广告收入作为杠杆,继续免费提供大部分数据。
多年来,各个公司已经填补了两端(B2B 和 B2C)的空缺,但在中间留下了一些空白。对于那些想了解中心化交易所的订单簿如何变化,或者看跌期权比率、IV 和偏差如何变化的人来说,没有多少产品可以帮助实现可视化。还有空间实现比世界上的 CoinGeckos 更精细但没有纯 B2B 参与者的产品那么精细的产品。
在护城河上
在原材料免费的企业中寻找护城河并不容易。区块链数据是免费提供的。您可以收集的数据没有任何专有性。因此,数据业务的护城河不仅仅取决于你拥有别人没有的数据。相反,它们基于团队以富有洞察力、可使用的格式、按时且无错误地提供数据的能力。
许多公司声称拥有相同的数据,但数据质量和呈现方式有所不同。例如,许多公司声称拥有链下订单簿数据。然而,诸如买/卖订单数量、时间序列长度以及可用交易所和货币对数量等因素因提供商而异。Amberdata 和 Kaiko 拥有加密货币市场最全面的订单簿数据。
但是,为什么只有少数提供商能够提供此类数据呢?Web3 数据中护城河出现的解释就在这里。
人才——冒着陈述显而易见事实的风险,当原材料免费时,你如何塑造它决定了产品的价值。将原始数据转化为有用的信息需要加密货币和传统金融市场中许多领域的领域专业知识。像 Velo Data 这样拥有传统市场经验的团队比其他尝试构建类似 B2C 产品的团队更有优势。能找到的了解区块链数据结构并具有金融市场相关经验的优秀开发人员非常罕见。
基础设施——收集和交付大量数据需要基础设施,但这并不容易。这种运作需要资金和人才。为什么基础设施是护城河?想想内存池数据。区块包含已确认交易的数据。未确认的交易怎么办?
不同的网络节点(例如连接到同一池的节点)看到不同的未确认交易。仅运行一个节点不会提供竞争事务的全局视图。在多个区块链上维护多个节点会增加基础设施成本。就像人工智能(以及过去的内容网络)一样,在扩展的同时保持较低硬件成本的能力将久而久之将决定该行业的赢家和输家。
网络效应——可以假设许多加密数据产品中都存在网络效应。以 Chainlink 为例。它是最早允许应用程序从其他应用程序或链读取数据的预言机之一。它成功地获得了社区的支持,并拥有最强大的社区之一。另一个例子是Nansen。它的成名之处在于地址标签,这使其能够将资产移动归因于真实实体而不是六位数地址。
随后推出了NFT天堂、币神模式等功能,让用户更有效地追踪NFT和代币。Arkham 推出了与 Nansen 标签类似的产品,但对仪表板和研究的投资使 Nansen 能够面向企业客户并提供为他们量身定制的产品。值得一提的是,如果没有前两点(人才和基础设施),网络效应就不可能实现。
这奏效的一个地方是使用索引器。产品支持的链数量越多,开发人员使用该产品而不是依赖多个来源的可能性就越高。像 Covalent 这样的团队在这方面具有优势,因为他们长期以来一直在优化支持的链的广度。但请记住,深度与广度同样重要。
现在判断一项产品在加密领域是否拥有有意义的护城河还为时过早。我们见证了宏伟计划中的先发优势。随着 Web3 社交等类别以及人工智能和加密货币之间的重叠不断扩大,行业中的数据产品可能会成长为下一个 Alphabet。但这将是一个长达数十年的故事。我们仍处于早期阶段。
我们在本文中提到的许多用例都以某种形式着眼于金融投机。甚至使用 API 查询数据的开发人员也在构建金融产品。这可能看起来很奇怪,但区块链(作为一种新网络)遵循了Telegraph软件和互联网的相同趋势。
新媒介的到来和新网络的出现加速了金融用例的发展。直到2000年代初,人们才意识到互联网可以根据用户的位置来定位目标。对于区块链,我们仍在研究如何根据公开的数据路径构建商业模型。
我们在这些平台的日常使用中看到了一个主要变化——Dune Analytics 在其产品中嵌入了人工智能。Dune 提供了一个基于 SQL 的界面,供用户查询以太坊和 Solana 等区块链上的数据。此类产品的市场通常仅限于了解如何编写 SQL 查询的用户。他们最近开始使用人工智能来帮助分析师生成查询,而无需成为 SQL 专家。它并不像人们希望的那样实用。但这仍然是迈向未来的一步。可能用不了多久,我们就会要求人工智能(如 ChatGPT)查询区块链上的数据并提供其分析。
在 Web3 背景下思考“数据”的一种方法是通过 Google 地图的视角。GPS 至少从20世纪80年代开始就已经存在。谷歌在绘制世界方面投入了所需的精力。在为第三方应用程序(使用 API)提供地图叠加层的过程中,该公司启用了新一代应用程序的构建。从送货到打车的一切都在蓬勃发展,因为专门从事数据的单一参与者承担了开发人员的负担。
Web3 中的数据产品也将扮演类似的角色。我们还不知道可以在这个公开资源上构建的应用程序的确切性质,但很明显,数据领域将有机会匹敌Alphabet公司的规模。
本文最初发表在 Decentralized.co 上。在GCR 上,我们每月两次(每隔一个星期四)为您带来与去中心化相关的长篇内容! Decentralized.co 已获得200多家公司管理层的信任,让它们能够及时了解重要的趋势、数据和见解。您可点击以下按钮订阅他们相关时事资讯——更多的是为我们在 Discord 上最活跃的成员提供有关此次合作的更多支持。
你们好!
如果您想了解此处所写内容以外的相关文章,可阅读我们已于7月18日为本文编写的前言。
所有生物都会留下一些记录。动物通过追踪季节来了解何时狩猎。啮齿动物和鸟类将食物储存在特别的地方。他们需要记住所储存的位置,以便在几个月后能找到它们,用于食用以继续生存。狼在领地周围留下标记,示意其他动物不要靠近。甚至树木也会记录时间。每年,树干切面上都会形成一个环。人们可以根据这个称为年轮的环的数量来推测一棵树的年龄。
尽管树木和动物能够记录时间,但它们无法检索或讲述过往的事情。他们无权访问内存。而人类可以,这就是人类记录保存的不同之处。由于我们具有沟通能力,我们知道美索不达米亚的苏美尔人(公元前3400年)和古埃及人(公元前3200年)使用楔形文字和象形文字来记录信息。
当知识可以在无需实际涉足来源的情况下传递时,人类就进化了。在柏拉图或苏格拉底去世很久之后,我们仍然能阅读并欣赏他们的作品,因为我们有办法存储他们的学说内容。最初的 AR 平台书是文字。
来自伊朗的文字记录了谷物的情况。来源:链接
在文字将事情留给想象的地方,数据帮助保持事情的客观性。它减少了个人将事物存储在记忆中的要求。这就是为什么一些最悠久的人类文本涉及债务、收入或交易记录的部分原因。
在后工业时代,企业通过将销售记录数字化来建立竞争护城河,以加强其市场地位。其中一个例子是一家名为 Asian Paints 的印度公司。他们的涂料可能不是市场上最好的,但他们控制着印度80亿美元涂料行业50%以上的市场份额。
为什么?简单的答案是,它是一个家喻户晓的品牌,而且该公司具有规模经济。但他们如何实现这一目标的根源在于数据。他们在数据收集和处理方面投入巨资,以优化供应链。
从背景来看,亚洲涂料股票在过去30年中的复合年增长率高达25%。支持这一增长的是20世纪70年代对大型计算机的投资。该设备比当时印度最好的研究机构使用的设备更强大。它每小时收集与印度各地销售的涂料颜色和数量相关的数据。这使得亚洲涂料公司能够建立一个模型,以98%的准确率预测整个印度的涂料需求。
这种预测能力使亚洲涂料公司能够获得最大价值,因为它可以大大减少补货时间。当时,销售涂料等商品的法则是将其出售给批发商,然后批发商将其交给经销商,经销商再将其出售给商人。商人将直接与消费者互动。供应链之所以如此复杂,是因为各方都拥有资产库存并控制着涂料供需数据。
亚洲涂料的创始人乔克西先生研究了最终用户的消费模式并减少了对中间商的依赖,以此将批发商和分销商从供应链中剔除。通过消除中间商,亚洲涂料获得了97%的 MRP(商人占 3%),而竞争对手则获得了60%。
Telegraph extractable value would be frontrunning ticker tapes relayed over the Telegraph.
电报可提取价值将是通过电报转发的抢先行情磁带。
向数字化的转变并非一蹴而就。数据收集变得吸引人的部分原因在于金融世界及其逐渐变得相互关联的程度。例如,在20世纪末,股票市场数据是使用上述设备通过电报转发的。早在1835年,商人就训练鸽子携带一些纸片,其中包含有关欧洲的新闻。当运载货物的汽船驶入距陆地50英里以内时,鸽子就会带着信息飞到指定地点。过去,交易者要提前每小时支付500美元才能获得新闻。
到1867年,交易员们开始竞相优化电报传递信息的速度。一位名叫 E. A Calahan 的西联汇款员工向 NYSE 支付了20多万美元,以成为能够派员工到交易大厅向其客户转发股票数据的人。付出努力以优化该系统的人之一包括一位名叫托马斯·阿尔瓦·爱迪生(Thomas Alva Edison)的年轻科学家。一个世纪后,像彭博终端这样的工具将在任何一天急剧扩展金融数据转发的速度和数量。
数据就像原油一样,必须经过几个步骤的提炼才能使用。了解彭博社的成长方式有助于了解整个数据格局的演变以及过程。彭博社并不是第一个尝试使用技术来改进交易和报告机制的公司。纳斯达克使用 Bunker Ramo 终端来传播信息并下达买/卖订单。然而,依赖以前的电话通信网络意味着扩展这种模式总是充满挑战。
来源:NASDAQ – The Evolution of Automated OTC Trading
1981年,投资银行所罗门兄弟 (Solomon Brothers) 的合伙人迈克尔·布隆伯格 (Michael Bloomberg) 在 Phibro Corporation 收购该银行时因其股权而被解雇,并损失了1000万美元。他意识到,随着从纽约到日本的金融市场日益电子化,投资者已经准备好为提炼的金融信息付费。他创办了一家名为 Innovative Market System 的数据服务公司,该公司于1986年更名为彭博社。
在互联网兴起之前,彭博终端是通过 Chiclet 访问的。它通过一条特殊电缆连接到彭博控制器,该电缆通过专用电话线连接到本地集线器。彭博社通过数据合作伙伴、新闻机构和新闻稿以及手动数据输入和基于电话的数据收集等专有方法收集数据。
随着互联网的出现,信息的闸门打开了。如今,彭博社几乎能实时获取、处理并提供2000亿条金融信息。即每秒大约2300万个数据点。彭博社提供的一些信息是公开的。公司财务报表以及股票和债券价格等数据点可以在公共论坛上找到。
但是,如果您是石油和天然气分析师并且想要了解原油集装箱的移动情况,那么你该怎么办?如果您不订阅彭博社等数据源,您不太可能实时获取此信息。不是所有的互联网数据都是免费提供的。
当提及 Web2 中的数据时,个人通常面临两个限制:许可访问和处理大量数据的高障碍。多年来,像彭博社这样的提供商已经建立了足够强大的网络效应,可以通过其附属机构获取数据,而分析师或投资者却无力这样做。
最好是向彭博社支付20,000美元进行年度订阅,而不是尝试从可能具有不同定价等级的混合数据平台获取数据。即使您足够努力地获取数据,但如果没有大量的基础设施支出,您也无法实时处理和运行分析。在零售端,许多最终扩展的平台都是数据匹配引擎。
可以这样想:谷歌(搜索引擎)是一家数据公司,为企业提供访问用户的机会以换取广告费。当一家餐馆或一份时事通讯(比如我们的)希望定位在 Google 上搜索信息的用户时,他们会匹配类似信息的供需。在寻找特定于 Web3 的时事通讯信息的人正在寻找我们。我们正在寻找那个人。 (我抑制住了在这里插入我们的推荐计划的冲动。)
谷歌因其规模经济而建立了垄断地位。他们的用户库存和用户每日查询数量仍然无法匹敌。谷歌在广告盛行的时代推出一款没有广告的搜索引擎,然后收购了 YouTube 和 Android,最后向苹果等同行付费,最终让谷歌成为默认搜索引擎,从而奠定了这一地位。仅就苹果而言,谷歌每年就支付200亿美元,以保持 Safari 上的默认搜索引擎地位。
谷歌支付如此高的费用是因为其产品的核心是匹配引擎。匹配引擎让有需求的用户与提供产品的企业取得联系。大多数网络垄断的核心都是匹配引擎。亚马逊将产品卖家与买家配对。 Instagram 将受众与创作者匹配起来。这些匹配引擎之所以有效,是因为这些产品上的交互留下了很多痕迹,可以从中驱动环境。
本·埃文斯 (Ben Evans) 在2022年写下了一句著名的话:不存在数据这样的东西。了解我的内容、食物或旅行偏好对于第三方来说没有多大价值。只有当它通过环境进行聚合或丰富时,它才对商业或研究有价值。
从某种意义上说,我对在周五晚上吃印度饭的偏好这一环境可以用来在我购买印度饭的概率最高时向我做广告。总的来说,将我的购买概率与同一地区的同行进行比较有助于更好地定位用户。
数据需要规模(量大)或环境才能有价值。 Web3 和 Web2 产品在历史上的不同之处在于它们留下的痕迹。只有亚马逊知道一周内会售出多少 Xbox 控制器。但您可以随时查看交易者在 OpenSea 上买卖 NFT 的模式。原因是每笔交易都会留下公开痕迹。
Web3 中的数据产品使用这些痕迹来构建环境。
以太坊和比特币等区块链分别以每12秒和约10分钟的速度产生一个区块。每个区块都包含改变区块链状态的交易。像 Etherscan 这样的区块浏览器会捕获与所有交易相关的数据。例如,如果您访问 Etherscan 并看到一个区块,您可能会看到下图。
区块链上的交易有着丰富的背景。 Arkham 和 Nansen 等产品是研究人员了解交易发生时所发生情况的解释引擎。
您可以查看自以太坊启动以来的所有区块。但你能用这些信息做什么呢?几乎不能做什么。因此,您需要一种方法来捕获多个表中的数据。例如,每当区块中调用市场的 NFT 合约时,与该交易相关的数据应附加到 NFT 相关表中,或者当 Uniswap 合约被调用时,相关数据应存储在 DEX 相关表中。 (沙丘将此作为一项服务。)
您无法在不产生大量基础设施成本的情况下分析原始数据。因此,尽管数据是免费提供的,但您也会遇到同样的问题。作为投资者或 dApp 构建者,您依赖外部数据。但您的核心职能与收集和管理数据无关。将资源投入必要但非核心的活动并不是每个组织都可以享受的奢侈。
对于数据产品来说,数据周围的环境使产品变得独特。彭博社运用其对金融的理解,将数据转化为发明者和交易者可以轻松使用的形式。Likeweb 等网站或 Newzoo 等研究出版物利用其核心能力将社交或游戏相关环境应用到他们跟踪的数据中。
区块链原生数据产品通过回答与特定用户子集相关的问题的查询来提供用户环境,从而让自己与众不同。例如,TokenTerminal 计算协议的经济基础。Nansen帮助市场参与者标记和了解资产的流动。Parsec 查询链上数据,帮助交易者更好地分析 DeFi 头寸。
所有这些产品都依赖于公共利益:链上数据。不同之处在于这些产品呈现数据的方式,这使得它们吸引了不同的受众。
我们行业中的产品类别划分是基于哪些数据在链上以及哪些信息来自链外来源。 (有些人经常同时使用两者来划分。)数据提供者使用他们的环境过滤器来创建产品。正如 Web2 数据有其利基市场一样,Web3 数据公司已经或正在利用其核心能力逐渐构建护城河。
因此,创始人的背景通常决定了所发布产品的性质。当一个核心团队在加密货币之前在资本市场花费了大量时间时,他们的产品往往会模仿彭博社,而加密货币原生产品看起来就像 Nansen。不同的产品可以满足不同的需求,即使查询相同的数据也是如此。
例如,交易所通常会在固定的时间间隔后丢弃数据。他们不从事数据业务,存储过往数据需要额外的服务器和管理。一些数据提供商(例如 Kaiko 和 Amberdata)维护来自交易所的历史订单数据。这些数据允许交易者和投资者建立模型来检验他们的假设。但如果你想了解哪些 DeFi 合约正在因 ETH 或稳定币的流入而大量涌入市场,或者分析特定地址或实体的链上行为,你将需要 Nansen 或 Arkham 的产品。
市场地图并不代表每个类别的每个参与者。
通过加密货币中的消费者角色的视角是了解产品在市场上的定位的一种方法。这些角色可以分为以下四个主要类别。
在熊市期间,流经加密数据产品的大部分美元都来自金融机构。这些都是大客户,具有更长的销售周期和更复杂的数据要求。了解产品是否面向金融机构的一种方法是,客户是否必须通过销售电话来确定其成本是多少。在 Web2 世界中,您无法找到 PitchBook 或 CB Insights 的成本。在加密领域,你不知道像 Chainaanalysis 这样的产品要花多少钱。
抛开笑话不谈,这种销售流程的部分原因是面向这一消费群体的数据产品提供的实际操作、周到而且质量属上乘的服务。这些用户通常选择高度精细且频繁的数据。他们不仅在交易前的决策方面需要数据,还在交易后需要数据,以满足合规性和税务要求。
例如,他们需要产品来告诉他们投资组合的历史价值是多少,帮助他们进行税收计算等等。Amberdata、Kaiko、CoinMetrics、CryptoCompare 以及也可以说有 Nansen 等公司为这些客户提供服务。
根据我的经验,只有在拥有大型融资轮的机构或团队工作背景的创始人才能打开机构数据市场。与任何企业产品一样,这里的进入壁垒相对较高。
我们经常无意中发现Web3的可组合性功能,这意味着Web3应用程序可以相互依赖。他们可能需要彼此提供数据。因此,他们需要不断地互相读取数据。例如,像Yearn Finance这样的平台需要从Aave和Compound读取数据,像Tensor这样的NFT聚合器需要从Magic Eden和其他市场读取数据。
但这些数据跨区块存储在以太坊和 Solana 等链上。以太坊在12秒内创建一个区块,而 Solana 在400毫秒内完成。将区块链数据排序到表中并将其存储以供快速访问是一项艰巨的任务。这就是 Covalent、Graph、Chainlink 和 Powerloom 等索引器发挥作用的地方。它们确保原始区块链数据以所需的格式存储,以便开发人员可以通过简单的 API 调用来获取它。
这个消费者角色中的一个新兴部分涉及用于理解用户行为的工具。例如,ARCx 允许开发人员将链下数据(如浏览器行为)与链上数据(如钱包地址)映射起来,以捕获与 dApp 交互的用户的人口统计信息。它们处于相对较小但相关的利基市场中,因为它们帮助开发人员识别他们的用户是谁。
加密货币中的数据产品通常通过与研究人员和出版物合作来进行分发。例如,CCData 经常被彭博社引用。研究人员倾向于依靠数据产品,因为它们有助于在收集、清理或整理数据时节省时间和精力。像 Dune 这样的产品通过建立一个分析师社区来建立护城河,这些分析师互相竞争以在列表中获得更高的排名。
The Block 和 Delphi 等出版物展示了使用第三方提供商的数据构建的仪表板。在 Decentralized.co,我们完全依赖外部数据提供商,因为他们在收集数据时使用外部资源的同时帮助团队保持精简。
迎合这一消费群体的挑战在于,规模较小的研究人员可能没有所需的预算来证明花费大量资源以揭示可能仅与个人相关的利基见解是合理的。相反,公司很愿意花费精力和资源与《金融时报》等重要出版物合作,因为这有助于发行。
面向散户的产品通常具有较低的数据粒度和频率。但由于他们看到了规模经济,因此它们是高利润的利基市场。在不存在客户流失的情况下,每名支付100美元的用户相当于100万美元的ARR业务。说起来容易做起来难,但这些经济学解释了为什么我们有这么多面向零售的加密数据产品。
大部分面向零售的产品是免费的或由广告支持的。例如,像 DefiLlama 这样的免费资源不会告诉您如何通过不同的交易所(CEX 和 DEX)传送订单以避免滑点,因为它不获取订单簿快照,但它会显示有关代币解锁或收益率解锁的信息。
这一消费群体的一个变化是交付媒介开辟新的市场类别方式,例如,Cielo 通过 Telegram 以通知形式交付数据。它以易于使用的方式为不愿使用桌面界面的消费者群体传递信息,通过此方式它已扩展到40,000多名用户。如果做得好,即使是分销媒介也可以成为早期企业的微分器。甚至在数据中也是如此。
尽管分类有些模糊,但数据公司可以分为 B2B 或 B2C 方向。
Amberdata 和 Kaiko 等公司拥有迎合成熟参与者的产品。这些产品更加精细(数据可用的细节)、出现更频繁(例如逐笔交易和实时订单簿数据),并且满足诸如构建和测试模型、交易前分析、交易后分析、报告、税务和合规性等需求。数据的提供形式允许客户进行专有分析并根据他们的口味构建可视化。这些公司通常通过付费墙提供产品。
由于基础设施要求、所涉及客户的性质以及销售周期的长度,成本通常是粒度的函数。
上图在两个轴上映射了不同的产品——深度和粒度与产品价格。请注意,这些图并不准确。有几个点可能会错位。这个想法是建立一个心理模型,用于思考几种产品及其在市场中的地位。
Dune 或 CoinGecko 等专注于零售的产品几乎免费显示所有数据。要访问某些数据,或者通过 API 获取数据来运行分析,客户必须付费才能使用。例如,您可以查看多个 Dune 向导创建的所有图表,但它们限制您可以以 CSV 形式下载的行数。您可以下载更大的 CSV 文件并在支付更多费用后查看私人检索。
专注于零售的公司的每客户收入往往较低,付费客户占免费用户的比例也很少。将此与互联网公司免费增值模式的转化率进行比较。通常,转化率为2%–5%。10%的转化率属于异常值。他们计划拥有尽可能多的免费客户,以便4%的转化率带来显著的收入。这就是我们所说的漏斗顶部。
因此,数据公司需要漏斗顶部足够大,以产生足够的收入,从而维持较低的转化率。当网站有很多访问者时,公司还可以考虑通过广告创收。 CoinGecko 利用广告收入作为杠杆,继续免费提供大部分数据。
多年来,各个公司已经填补了两端(B2B 和 B2C)的空缺,但在中间留下了一些空白。对于那些想了解中心化交易所的订单簿如何变化,或者看跌期权比率、IV 和偏差如何变化的人来说,没有多少产品可以帮助实现可视化。还有空间实现比世界上的 CoinGeckos 更精细但没有纯 B2B 参与者的产品那么精细的产品。
在护城河上
在原材料免费的企业中寻找护城河并不容易。区块链数据是免费提供的。您可以收集的数据没有任何专有性。因此,数据业务的护城河不仅仅取决于你拥有别人没有的数据。相反,它们基于团队以富有洞察力、可使用的格式、按时且无错误地提供数据的能力。
许多公司声称拥有相同的数据,但数据质量和呈现方式有所不同。例如,许多公司声称拥有链下订单簿数据。然而,诸如买/卖订单数量、时间序列长度以及可用交易所和货币对数量等因素因提供商而异。Amberdata 和 Kaiko 拥有加密货币市场最全面的订单簿数据。
但是,为什么只有少数提供商能够提供此类数据呢?Web3 数据中护城河出现的解释就在这里。
人才——冒着陈述显而易见事实的风险,当原材料免费时,你如何塑造它决定了产品的价值。将原始数据转化为有用的信息需要加密货币和传统金融市场中许多领域的领域专业知识。像 Velo Data 这样拥有传统市场经验的团队比其他尝试构建类似 B2C 产品的团队更有优势。能找到的了解区块链数据结构并具有金融市场相关经验的优秀开发人员非常罕见。
基础设施——收集和交付大量数据需要基础设施,但这并不容易。这种运作需要资金和人才。为什么基础设施是护城河?想想内存池数据。区块包含已确认交易的数据。未确认的交易怎么办?
不同的网络节点(例如连接到同一池的节点)看到不同的未确认交易。仅运行一个节点不会提供竞争事务的全局视图。在多个区块链上维护多个节点会增加基础设施成本。就像人工智能(以及过去的内容网络)一样,在扩展的同时保持较低硬件成本的能力将久而久之将决定该行业的赢家和输家。
网络效应——可以假设许多加密数据产品中都存在网络效应。以 Chainlink 为例。它是最早允许应用程序从其他应用程序或链读取数据的预言机之一。它成功地获得了社区的支持,并拥有最强大的社区之一。另一个例子是Nansen。它的成名之处在于地址标签,这使其能够将资产移动归因于真实实体而不是六位数地址。
随后推出了NFT天堂、币神模式等功能,让用户更有效地追踪NFT和代币。Arkham 推出了与 Nansen 标签类似的产品,但对仪表板和研究的投资使 Nansen 能够面向企业客户并提供为他们量身定制的产品。值得一提的是,如果没有前两点(人才和基础设施),网络效应就不可能实现。
这奏效的一个地方是使用索引器。产品支持的链数量越多,开发人员使用该产品而不是依赖多个来源的可能性就越高。像 Covalent 这样的团队在这方面具有优势,因为他们长期以来一直在优化支持的链的广度。但请记住,深度与广度同样重要。
现在判断一项产品在加密领域是否拥有有意义的护城河还为时过早。我们见证了宏伟计划中的先发优势。随着 Web3 社交等类别以及人工智能和加密货币之间的重叠不断扩大,行业中的数据产品可能会成长为下一个 Alphabet。但这将是一个长达数十年的故事。我们仍处于早期阶段。
我们在本文中提到的许多用例都以某种形式着眼于金融投机。甚至使用 API 查询数据的开发人员也在构建金融产品。这可能看起来很奇怪,但区块链(作为一种新网络)遵循了Telegraph软件和互联网的相同趋势。
新媒介的到来和新网络的出现加速了金融用例的发展。直到2000年代初,人们才意识到互联网可以根据用户的位置来定位目标。对于区块链,我们仍在研究如何根据公开的数据路径构建商业模型。
我们在这些平台的日常使用中看到了一个主要变化——Dune Analytics 在其产品中嵌入了人工智能。Dune 提供了一个基于 SQL 的界面,供用户查询以太坊和 Solana 等区块链上的数据。此类产品的市场通常仅限于了解如何编写 SQL 查询的用户。他们最近开始使用人工智能来帮助分析师生成查询,而无需成为 SQL 专家。它并不像人们希望的那样实用。但这仍然是迈向未来的一步。可能用不了多久,我们就会要求人工智能(如 ChatGPT)查询区块链上的数据并提供其分析。
在 Web3 背景下思考“数据”的一种方法是通过 Google 地图的视角。GPS 至少从20世纪80年代开始就已经存在。谷歌在绘制世界方面投入了所需的精力。在为第三方应用程序(使用 API)提供地图叠加层的过程中,该公司启用了新一代应用程序的构建。从送货到打车的一切都在蓬勃发展,因为专门从事数据的单一参与者承担了开发人员的负担。
Web3 中的数据产品也将扮演类似的角色。我们还不知道可以在这个公开资源上构建的应用程序的确切性质,但很明显,数据领域将有机会匹敌Alphabet公司的规模。