在过去的一年中,由于应用层叙事与基础设施增长步伐脱节,加密领域逐渐变成了对注意力资源的竞争。从傻龙到山羊,从Pump.fun到Clanker,注意力的变幻无常导致了这一竞争中不断自我重塑的循环。最初,以最传统的吸引眼球的货币化形式开始,迅速演变为一个统一注意力需求者和提供者的平台模式,最终让硅基生命体成为新的内容提供者。在这堆奇异的meme币中,一个新的实体应运而生,它使零售投资者和风险投资者达成了共识:AI代理。
注意力本质上是一个零和博弈,尽管投机确实可以推动快速增长。在我们之前关于UNI的文章中,我们回顾了区块链上一个黄金时代的起点,那时DeFi的爆炸性增长是由Compound Finance推出的LP挖矿引发的。在那个时代,参与数百个甚至上千个挖矿池,获得上千甚至上万倍年化收益率(APY)是最原始的链上投机形式。尽管结果是许多矿池的混乱崩溃,但“淘金热”矿工的涌入为区块链空间带来了前所未有的流动性。DeFi最终摆脱了纯粹的投机,成熟为一个稳固的垂直领域,满足了用户在支付、交易、套利和质押等领域的金融需求。目前,AI代理正处于类似的“野蛮生长”阶段。我们现在正在探索的是,加密如何更好地与AI融合,并最终将应用层提升到新的高度。
在我们之前的文章中,我们简要介绍了通过Truth Terminal出现的AImeme,并探讨了AI代理的未来潜力。本文将重点讨论AI代理本身。
让我们从AI代理的定义开始。在AI领域,“代理”这一术语虽然较为古老,但依然模糊,主要强调自主性。换句话说,任何能够感知环境并做出反应性决策的AI都被认为是一个代理。如今,AI代理的定义更接近于智能实体,是一种旨在模仿人类决策过程的系统。在学术界,这种系统被视为实现AGI(人工通用智能)的最有前景的方法。
在早期版本的GPT中,我们可以明显感觉到大型模型类似于人类,但在回答复杂问题时,它们往往提供模糊或不精确的答案。这背后的根本原因是,这些模型基于概率而非因果关系,并且缺乏像人类一样的工具使用、记忆和规划等能力。AI代理的目标就是弥补这些不足。因此,总结成一个公式就是:AI代理 = LLM(大型语言模型)+ 规划 + 记忆 + 工具。
基于提示的模型更像是一个静态版的人,只在我们输入数据时才会“复生”。相比之下,AI代理的目标是成为一个更具动态性、类似人类的实体。目前,领域内的大多数AI代理是基于Meta开源的Llama 70b或405b版本(具有不同参数)进行微调的模型,配备了记忆功能和使用API进行工具集成的能力。在其他领域,它们可能仍然需要人类输入或协助,比如与其他AI代理进行互动或协作。这也是为什么今天大多数AI代理主要以社交网络上的KOL(意见领袖)形式存在。要让AI代理更像人类,它需要结合规划和行动能力,其中规划过程中的思维链尤其至关重要。
思维链(Chain of Thought, CoT)的概念首次出现在谷歌2022年的论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》中。该论文指出,通过生成一系列中间推理步骤,可以增强模型的推理能力,帮助其更好地理解和解决复杂问题。
CoT提示的典型结构包括三个部分:任务描述(带有明确指令)、任务的逻辑依据(包括支撑解决方案的理论基础或原则),以及解决方案的具体示例。这种结构化的方法帮助模型理解任务要求,并通过逻辑推理逐步接近答案,从而提高问题解决的效率和准确性。CoT特别适用于需要深入分析和多步骤推理的任务,如数学问题求解或项目报告写作。对于较简单的任务,CoT可能不会显现出明显的优势,但对于更复杂的任务,它通过逐步的问题解决策略显著提高模型的性能,降低错误率,从而提高任务完成的质量。
在AI代理的构建中,CoT扮演着至关重要的角色。AI代理需要理解接收到的信息,并基于这些信息做出合理的决策。CoT提供了一种有序的思维过程,帮助代理有效地处理和分析输入数据,将分析转化为可执行的指导原则。这种方法不仅增强了代理决策的可靠性和效率,还提高了决策过程的透明度,使代理的行为变得更加可预测和可追溯。通过将任务拆解为更小的步骤,CoT帮助代理详细考虑每一个决策点,减少了由信息过载引起的错误,使决策过程更加透明。这种透明性使得用户能够更好地理解代理决策的依据。在与环境的互动中,CoT使代理能够不断学习新信息,并调整其行为策略。
作为一种有效的策略,CoT不仅增强了大型语言模型的推理能力,还在构建更智能、更可靠的AI代理中发挥着重要作用。通过利用CoT,研究人员和开发者可以创建更适应复杂环境、高度自主的智能系统。在实际应用中,CoT展示了其独特的优势,尤其是在处理复杂任务时。通过将任务拆解为一系列更小的步骤,它不仅提高了任务解决的准确性,还增强了模型的可解释性和可控性。这种逐步解决问题的方法可以大大减少在面对复杂任务时由过多或过于复杂的信息引起的错误。同时,这种方法还提高了整个解决方案的可追溯性和可验证性。
CoT的核心功能在于整合规划、行动和观察,弥合推理与行动之间的鸿沟。这种思维模型使AI代理能够在预测潜在异常时制定有效的对策,并在与外部环境的互动中积累新信息,验证预设的预测,并提供新的推理依据。CoT就像一个强大的引擎,提供精确性和稳定性,帮助AI代理在复杂环境中保持高效能。
加密技术应该如何与AI技术栈进行整合?在去年的文章中,我提到去中心化计算能力和数据是帮助小型企业和个人开发者节省成本的关键步骤。今年,在Coinbase编制的Crypto x AI领域的详细划分中,我们可以看到更具体的分层:
(1) 计算层(专注于为AI开发者提供GPU资源);
(2) 数据层(专注于去中心化的访问、编排和验证AI数据管道);
(3) 中间件层(支持AI模型或代理的开发、部署和托管的平台或网络);
(4) 应用层(面向用户的产品,利用链上AI机制,无论是B2B还是B2C)。
这四个层级都具有宏伟的愿景,旨在挑战硅谷巨头在下一代互联网中的主导地位。正如我去年所说,我们真的需要接受硅谷巨头完全控制计算能力和数据吗?在他们的垄断下,封闭源的大型模型成为黑箱,而科学,作为当今人类最受崇敬的信仰体系,将依赖这些大型模型给出的答案。但是,如何验证这些真理呢?根据硅谷巨头们的愿景,智能代理所拥有的权力可能超出我们的想象——例如,他们有权从你的钱包中进行支付或控制你终端的访问权限。我们如何确保没有恶意行为的发生?
去中心化是唯一的答案,但有时我们需要合理考虑这些宏伟愿景到底有多少买家。过去,我们可以忽略商业循环的需求,并用代币填补理想主义带来的空缺。然而,当前的情况更加具有挑战性。Crypto x AI必须基于实际情况进行设计。例如,在性能损失和不稳定的情况下,如何平衡计算层两端的供给,并与集中式云服务提供商竞争?数据层项目将实际拥有多少真实用户?我们如何验证所提供数据的真实性和有效性?哪些类型的客户真正需要这些数据?其他层级也适用相同的逻辑。在这个时代,我们不再需要这么多看似正确的伪需求。
正如我在第一部分中提到的,meme已迅速进化为一种兼容Web3的SocialFi形式。Friend.tech是这一轮社交应用的“开枪者”,但遗憾的是,由于其匆忙的代币设计,最终失败了。另一方面,Pump.fun展示了纯粹平台模式的可行性,没有任何代币或规则。注意力需求者和提供者在这个平台上汇聚,在这里你可以发布meme、进行直播、铸造代币、评论、交易,一切都是免费的。Pump.fun仅收取服务费。这个模式本质上与当前社交媒体平台(如YouTube和Instagram)的注意力经济相同,只是它采用了不同的收入模式,并且更多地围绕Web3进行玩法创新。
另一方面,Base的Clanker是最终的成功案例,得益于平台自身设计的集成生态系统。Base拥有自己的社交DApp作为辅助工具,形成了一个完整的内循环。meme代理(Meme Agent)是meme币(Meme Coin)的2.0形式。人们总是在追逐新鲜事物,而现在,Pump.fun正处于注意力的中心。从趋势的角度来看,硅基生命体的异想天开最终取代碳基生命体的粗糙meme,已经只是时间问题。
我已经提到过Base无数次,每次提到的角度不同,但有一点始终清晰:Base从来不是第一个行动者,但它总是赢家。
从实际角度来看,AI代理在可预见的未来不太可能实现去中心化。在传统的AI领域,构建AI代理并非是通过去中心化或开源过程可以简单解决的问题。AI代理需要连接各种API来访问Web2内容,而且它们的运营成本很高。思维链(CoT)和多代理协作的设计通常仍然需要人类的调解。我们将经历一个漫长的过渡期,直到找到合适的整合形式——也许类似于UNI,但目前我仍然认为AI代理将对我们的行业产生重大影响,就像CEX在我们行业中的存在一样——虽然不完美,但极为重要。
上个月,斯坦福大学与微软发布了一篇《AI代理评审》文章,描述了AI代理在医疗、智能机器和虚拟世界等行业的应用。在这篇论文的附录中,已经有许多实验案例,展示了GPT-4V作为AI代理参与顶级AAA游戏的开发。
我们不应急于将AI代理与去中心化相结合。我希望的是,AI代理完成的第一个拼图是它们的自下而上的能力和速度。如今有太多的叙事废墟和空洞的元宇宙需要填充,而当时机成熟时,我们可以考虑如何将AI代理打造成下一个UNI。
YBB是一家Web3基金,致力于发现能够定义Web3的项目,目标是为所有互联网居民创造一个更好的在线生态。YBB由一群自2013年起积极参与区块链行业的信仰者创立,始终愿意帮助早期项目从0到1的演变。我们重视创新、自驱的激情和以用户为导向的产品,同时认识到加密货币和区块链应用的潜力。
在过去的一年中,由于应用层叙事与基础设施增长步伐脱节,加密领域逐渐变成了对注意力资源的竞争。从傻龙到山羊,从Pump.fun到Clanker,注意力的变幻无常导致了这一竞争中不断自我重塑的循环。最初,以最传统的吸引眼球的货币化形式开始,迅速演变为一个统一注意力需求者和提供者的平台模式,最终让硅基生命体成为新的内容提供者。在这堆奇异的meme币中,一个新的实体应运而生,它使零售投资者和风险投资者达成了共识:AI代理。
注意力本质上是一个零和博弈,尽管投机确实可以推动快速增长。在我们之前关于UNI的文章中,我们回顾了区块链上一个黄金时代的起点,那时DeFi的爆炸性增长是由Compound Finance推出的LP挖矿引发的。在那个时代,参与数百个甚至上千个挖矿池,获得上千甚至上万倍年化收益率(APY)是最原始的链上投机形式。尽管结果是许多矿池的混乱崩溃,但“淘金热”矿工的涌入为区块链空间带来了前所未有的流动性。DeFi最终摆脱了纯粹的投机,成熟为一个稳固的垂直领域,满足了用户在支付、交易、套利和质押等领域的金融需求。目前,AI代理正处于类似的“野蛮生长”阶段。我们现在正在探索的是,加密如何更好地与AI融合,并最终将应用层提升到新的高度。
在我们之前的文章中,我们简要介绍了通过Truth Terminal出现的AImeme,并探讨了AI代理的未来潜力。本文将重点讨论AI代理本身。
让我们从AI代理的定义开始。在AI领域,“代理”这一术语虽然较为古老,但依然模糊,主要强调自主性。换句话说,任何能够感知环境并做出反应性决策的AI都被认为是一个代理。如今,AI代理的定义更接近于智能实体,是一种旨在模仿人类决策过程的系统。在学术界,这种系统被视为实现AGI(人工通用智能)的最有前景的方法。
在早期版本的GPT中,我们可以明显感觉到大型模型类似于人类,但在回答复杂问题时,它们往往提供模糊或不精确的答案。这背后的根本原因是,这些模型基于概率而非因果关系,并且缺乏像人类一样的工具使用、记忆和规划等能力。AI代理的目标就是弥补这些不足。因此,总结成一个公式就是:AI代理 = LLM(大型语言模型)+ 规划 + 记忆 + 工具。
基于提示的模型更像是一个静态版的人,只在我们输入数据时才会“复生”。相比之下,AI代理的目标是成为一个更具动态性、类似人类的实体。目前,领域内的大多数AI代理是基于Meta开源的Llama 70b或405b版本(具有不同参数)进行微调的模型,配备了记忆功能和使用API进行工具集成的能力。在其他领域,它们可能仍然需要人类输入或协助,比如与其他AI代理进行互动或协作。这也是为什么今天大多数AI代理主要以社交网络上的KOL(意见领袖)形式存在。要让AI代理更像人类,它需要结合规划和行动能力,其中规划过程中的思维链尤其至关重要。
思维链(Chain of Thought, CoT)的概念首次出现在谷歌2022年的论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》中。该论文指出,通过生成一系列中间推理步骤,可以增强模型的推理能力,帮助其更好地理解和解决复杂问题。
CoT提示的典型结构包括三个部分:任务描述(带有明确指令)、任务的逻辑依据(包括支撑解决方案的理论基础或原则),以及解决方案的具体示例。这种结构化的方法帮助模型理解任务要求,并通过逻辑推理逐步接近答案,从而提高问题解决的效率和准确性。CoT特别适用于需要深入分析和多步骤推理的任务,如数学问题求解或项目报告写作。对于较简单的任务,CoT可能不会显现出明显的优势,但对于更复杂的任务,它通过逐步的问题解决策略显著提高模型的性能,降低错误率,从而提高任务完成的质量。
在AI代理的构建中,CoT扮演着至关重要的角色。AI代理需要理解接收到的信息,并基于这些信息做出合理的决策。CoT提供了一种有序的思维过程,帮助代理有效地处理和分析输入数据,将分析转化为可执行的指导原则。这种方法不仅增强了代理决策的可靠性和效率,还提高了决策过程的透明度,使代理的行为变得更加可预测和可追溯。通过将任务拆解为更小的步骤,CoT帮助代理详细考虑每一个决策点,减少了由信息过载引起的错误,使决策过程更加透明。这种透明性使得用户能够更好地理解代理决策的依据。在与环境的互动中,CoT使代理能够不断学习新信息,并调整其行为策略。
作为一种有效的策略,CoT不仅增强了大型语言模型的推理能力,还在构建更智能、更可靠的AI代理中发挥着重要作用。通过利用CoT,研究人员和开发者可以创建更适应复杂环境、高度自主的智能系统。在实际应用中,CoT展示了其独特的优势,尤其是在处理复杂任务时。通过将任务拆解为一系列更小的步骤,它不仅提高了任务解决的准确性,还增强了模型的可解释性和可控性。这种逐步解决问题的方法可以大大减少在面对复杂任务时由过多或过于复杂的信息引起的错误。同时,这种方法还提高了整个解决方案的可追溯性和可验证性。
CoT的核心功能在于整合规划、行动和观察,弥合推理与行动之间的鸿沟。这种思维模型使AI代理能够在预测潜在异常时制定有效的对策,并在与外部环境的互动中积累新信息,验证预设的预测,并提供新的推理依据。CoT就像一个强大的引擎,提供精确性和稳定性,帮助AI代理在复杂环境中保持高效能。
加密技术应该如何与AI技术栈进行整合?在去年的文章中,我提到去中心化计算能力和数据是帮助小型企业和个人开发者节省成本的关键步骤。今年,在Coinbase编制的Crypto x AI领域的详细划分中,我们可以看到更具体的分层:
(1) 计算层(专注于为AI开发者提供GPU资源);
(2) 数据层(专注于去中心化的访问、编排和验证AI数据管道);
(3) 中间件层(支持AI模型或代理的开发、部署和托管的平台或网络);
(4) 应用层(面向用户的产品,利用链上AI机制,无论是B2B还是B2C)。
这四个层级都具有宏伟的愿景,旨在挑战硅谷巨头在下一代互联网中的主导地位。正如我去年所说,我们真的需要接受硅谷巨头完全控制计算能力和数据吗?在他们的垄断下,封闭源的大型模型成为黑箱,而科学,作为当今人类最受崇敬的信仰体系,将依赖这些大型模型给出的答案。但是,如何验证这些真理呢?根据硅谷巨头们的愿景,智能代理所拥有的权力可能超出我们的想象——例如,他们有权从你的钱包中进行支付或控制你终端的访问权限。我们如何确保没有恶意行为的发生?
去中心化是唯一的答案,但有时我们需要合理考虑这些宏伟愿景到底有多少买家。过去,我们可以忽略商业循环的需求,并用代币填补理想主义带来的空缺。然而,当前的情况更加具有挑战性。Crypto x AI必须基于实际情况进行设计。例如,在性能损失和不稳定的情况下,如何平衡计算层两端的供给,并与集中式云服务提供商竞争?数据层项目将实际拥有多少真实用户?我们如何验证所提供数据的真实性和有效性?哪些类型的客户真正需要这些数据?其他层级也适用相同的逻辑。在这个时代,我们不再需要这么多看似正确的伪需求。
正如我在第一部分中提到的,meme已迅速进化为一种兼容Web3的SocialFi形式。Friend.tech是这一轮社交应用的“开枪者”,但遗憾的是,由于其匆忙的代币设计,最终失败了。另一方面,Pump.fun展示了纯粹平台模式的可行性,没有任何代币或规则。注意力需求者和提供者在这个平台上汇聚,在这里你可以发布meme、进行直播、铸造代币、评论、交易,一切都是免费的。Pump.fun仅收取服务费。这个模式本质上与当前社交媒体平台(如YouTube和Instagram)的注意力经济相同,只是它采用了不同的收入模式,并且更多地围绕Web3进行玩法创新。
另一方面,Base的Clanker是最终的成功案例,得益于平台自身设计的集成生态系统。Base拥有自己的社交DApp作为辅助工具,形成了一个完整的内循环。meme代理(Meme Agent)是meme币(Meme Coin)的2.0形式。人们总是在追逐新鲜事物,而现在,Pump.fun正处于注意力的中心。从趋势的角度来看,硅基生命体的异想天开最终取代碳基生命体的粗糙meme,已经只是时间问题。
我已经提到过Base无数次,每次提到的角度不同,但有一点始终清晰:Base从来不是第一个行动者,但它总是赢家。
从实际角度来看,AI代理在可预见的未来不太可能实现去中心化。在传统的AI领域,构建AI代理并非是通过去中心化或开源过程可以简单解决的问题。AI代理需要连接各种API来访问Web2内容,而且它们的运营成本很高。思维链(CoT)和多代理协作的设计通常仍然需要人类的调解。我们将经历一个漫长的过渡期,直到找到合适的整合形式——也许类似于UNI,但目前我仍然认为AI代理将对我们的行业产生重大影响,就像CEX在我们行业中的存在一样——虽然不完美,但极为重要。
上个月,斯坦福大学与微软发布了一篇《AI代理评审》文章,描述了AI代理在医疗、智能机器和虚拟世界等行业的应用。在这篇论文的附录中,已经有许多实验案例,展示了GPT-4V作为AI代理参与顶级AAA游戏的开发。
我们不应急于将AI代理与去中心化相结合。我希望的是,AI代理完成的第一个拼图是它们的自下而上的能力和速度。如今有太多的叙事废墟和空洞的元宇宙需要填充,而当时机成熟时,我们可以考虑如何将AI代理打造成下一个UNI。
YBB是一家Web3基金,致力于发现能够定义Web3的项目,目标是为所有互联网居民创造一个更好的在线生态。YBB由一群自2013年起积极参与区块链行业的信仰者创立,始终愿意帮助早期项目从0到1的演变。我们重视创新、自驱的激情和以用户为导向的产品,同时认识到加密货币和区块链应用的潜力。