NEAR 联创 Illia：为何 AI 需要 Web3？

近日，NEAR联创Illia出席了“2024香港Web3嘉年华”活动，并发表AI和Web3相关话题的重要演讲。本文特对其演讲进行了整理，略有删减。

大家好，我是NEAR的联合创始人Illia，今天我们将讨论为什么AI需要Web3。NEAR实际上起源于AI，在开始创业之旅之前，我在Google Research工作，专注于自然语言理解，也是谷歌深度学习框架TensorFlow的主要贡献者之一。在一群同事的共同努力下，我们创造了首个“Transformers”模型，它带来了我们现在看到的重大创新，推动了AI的发展，这也是GPT中的“T”的由来。

后来我离开谷歌创办了NEAR。作为一家AI初创公司，我们会教机器编程，我们的方法之一是做大量的数据标记，让学生为我们创建数据，我们面临着支付他们工资的问题，因为他们来自全球各地，他们中的一些人甚至没有银行账户。我们开始研究区块链作为应对方法，并意识到没有什么能满足我们的需求，即可扩容、低费用、易使用和易上手。也是在此时我们创建了NEAR协议。

对不熟悉的人说，语言模型并非新事物，它们从20世纪50年代就存在了。通用的统计模型允许对语言建模，并在各种应用中使用它。对我来说，真正有趣的创新发生在2013年，当时引入了词嵌入，这个创意可以让我们从“纽约”这样的符号，新增到多维度的向量中并转换为数学形式。这与深度学习模型配合得很好，它们只是大量的矩阵乘法和激活函数。

2013年后我加入谷歌。在2014年初，研究中使用的主要模型是RNN。它与人类一次阅读一个单词的方法相似，这有一个巨大的限制，如果你想阅读多个文档来回答一个问题，你将有一个相当大的延迟，这在Google上的生产中使用是不可行的。

Transformer诞生于我们在解决RNN挑战的过程中。我们尝试利用计算中的并行性，它更多存在于硬件中，特别是在GPU中，几乎可以消耗整个文档，并尝试同时理解它，而不需要一次执行1个步骤，没有这种瓶颈。这允许我们为OpenAI团队引入一个模型后，真正扩展它，在非常大的语料库上预训练它，这催生了我们今天看到的ChatGPT、Gemini和其他模型等重大创新。

现在我们看到AI出现了重大创新，而且这种创新还在加速。这些模型能够进行基本的推理，他们有常识。我们看到人们继续挑战这些模型的极限。我认为，重要的是，在机器学习和数据科学领域有人在解释结果。现在有趣的是大语言模型能够直接与人交流，并且能够与其他应用和工具进行交互。所以现在我们有了技术手段可以绕过中间人来解释结果。

对于那些不熟悉的人来说，当我们谈论这些模型被GPU训练或被使用时，它们其实并不是游戏机GPU或加密挖矿GPU。这是一台专业的超级计算机，一台机器上通常有八个GPU，它们具有巨大的竞争能力。这些机器被堆放在架子上，这些机架大多部署在数据中心。你训练相当大的模型如Groq，花费3个月的时间，动用10,000个H100。租借设备将花费你6,400万美元。更重要的是，除了计算本身之外还有连接性。

这里的一个重要部分是A100，特别是H100，通过每秒900千兆字节的连接速度连接。所以作为参考，你的CPU到RAM，以每秒9千兆字节的速度连接。在数据中心机架中的两个节点/两个GPU之间移动数据实际上比将数据从GPU移动到CPU更快，特别是现在我们还在努力改进Blackwell，其连接速度有望翻倍，达到每秒1,800千兆字节，这种硬件连接速度是疯狂的，它允许我们不把这些设备看作独立设备。因为从程序员的角度来看，它们感觉像是一个单一的操作。当你大规模构建系统时，有很多需要注意。这个想法是这些是高度连接的设备，本地网络上的正常连接是每秒100兆字节，所以大约比这低一万倍。

现在由于对训练的这种要求，我们现在看到封闭的AI模型正在兴起。即使模型权重是开源的，我们实际上仍然不知道模型中加入了什么。这很重要，因为这些模型实际上是关于从数据中学习偏向的。有人开玩笑说，模型其实只是权重和偏向，这就是模型的表现方式。现在除了工程师之外，还有许多团队通过修改数据集来决定进入模型的内容，因为某些原因决定某些内容不应该出现在数据中。然后在模型产生之后，对其进行后期处理并改变系统提示，来决定这个模型将会推理什么。尤其危险的是，我们并不知道这个模型是如何产生的。

我们也看到了AI正在迎来大规模的抗议和诉讼。因为从数据的使用到这些模型如何产生结果，到这些公司对分发平台的权力，都容易引起争议。模型本身成为了分发平台，我们由此面临着巨大的风险。显然监管机构正试图管制我们，想办法限制不良行为者的访问，这使开放模型和去中心化方法更难存在。开源没有足够的经济动力，因此导致公司可能开始开源，然后在试图赚钱的过程中限制开源其模型，以获得更多的资本来购买算力，训练更大的模型。

生成式AI正在成为大规模操纵人们的工具，大公司的经济状况总会导致激励机制扭曲。在你实现了你的目标市场份额后，你将继续展示收入增长。你需要增加每个用户贡献的平均收入，所以你需要从用户身上获取更多的价值，这就是开源AI的所有情况。使用Web3作为一种工具来激励人们，可以为人们创造机会，同时也为人们创造足够的计算和数据资源，使人们建立有竞争力的模型。

我们需要让大量AI工具在Web3世界发挥作用，才能将其整合在一起，我将从数据、基础设施和应用层面，介绍其中的几个部分。其中一个重要的部分是因为这些语言模型现在能够直接与社会互动，它们能够在整个广泛的范围内，操纵和明显地制造虚假信息。我想指出的是，AI在这里不是问题，因为这类事情以前就存在。重要的是我们需要利用密码学和链上声誉来解决这个问题。问题不在于AI生成这个或人类生成这个，关键是谁发布了它，它的源头是什么，社区的意见是什么，这才是真正重要的。

另一方面，我们现在有代理。我们习惯把一切都称为代理。但现实是，它们有相当大的多样性，可以有工具或自治代理，这可以是中心化的或去中心化的，例如ChatGPT是一个中心化的工具，而Llama模型是开源的。因此它们可以以中心化或去中心化的方式被使用，也可以让去中心化模型只在用户设备上运行，而不需要区块链或类似的东西。因为如果你在你的设备上运行模型，你就可以保证它完全符合你的期望，有一种完全自治的去中心化AI治理，需要进行验证，比如当它分配资金和做出重要决定时。

还有不同类型的专业化。比如prompt，你可以进行zero shot，教Llama以特定的方式回应，你可以对特定数据进行微调，以向模型添加更多知识。或者你可以进行检索增强，以在用户请求时添加某种背景信息。输出也不必只是文本，它也可以是一个丰富的UI组件，它可以是一个直接的行动，在区块链上做一些事情。

接下来是自主。它可以是一个工具，用来做你想做的事情；它也可以编写自己的计划并在其上执行；它可以是一个连续的工作，你只需指定一个目标；它可以是一个强化学习优化，你只需指定一个指标和一套标准和边界；你让模型不断探索并找到增长的方法。

最后是基础架构。你可以使用中心化基础架构如OpenAI和Groq。你可以有一个分布式的本地模型，你可以有一个带有概率的去中心化推理。有一个非常有趣的使用案例，我们从可编程货币转向智能资产，这是资产行为由自然语言定义的地方，并且可能与真实世界，或与其他用户交互。比如这可以使用能阅读新闻的自然语言oracle，它可以根据正在发生的事情自动优化策略。这里最大的注意事项是，当前的语言模型对敌对行为并不健壮，因此很容易在各种事情上说服他们。

我们正处于十字路口，道路一侧是一个封闭的AI世界，它将导致更多的操纵。监管决策通常会导致这种情况，因为监管机构会要求越来越多的监督，越来越多的KYC和越来越多的要求。只有大公司才能满足这一要求。而创业公司，尤其是尝试开源的创业公司，将没有资源来进行实际竞争，最后只能倒闭以及被大公司收购。我们开始看到这种情况的发生。

道路的另一侧是开放的模型，我们有承诺和能力，以非盈利和开源的心态来执行它，我们使用加密经济激励创造机会和资源，这是具有竞争力的开源AI模型所必需的。NEAR正在努力在整个生态中做到这一点。AI is NEAR。在接下来的几周里，我们会有更多的更新，欢迎大家关注我的推特和NEAR社交网站，了解更多更新，谢谢！

推荐站点