大家好,我是NEAR的联合创始人Illia,今天我们将讨论为什么AI需要Web3。NEAR实际上起源于AI,在开始创业之旅之前,我在Google Research工作,专注于自然语言理解,也是谷歌深度学习框架TensorFlow的主要贡献者之一。在一群同事的共同努力下,我们创造了首个“Transformers”模型,它带来了我们现在看到的重大创新,推动了AI的发展,这也是GPT中的“T”的由来。
后来我离开谷歌创办了NEAR。作为一家AI初创公司,我们会教机器编程,我们的方法之一是做大量的数据标记,让学生为我们创建数据,我们面临着支付他们工资的问题,因为他们来自全球各地,他们中的一些人甚至没有银行账户。我们开始研究区块链作为应对方法,并意识到没有什么能满足我们的需求 ,即可扩容、低费用、易使用和易上手。也是在此时我们创建了NEAR协议。
对不熟悉的人说 ,语言模型并非新事物,它们从20世纪50年代就存在了。通用的统计模型允许对语言建模,并在各种应用中使用它。对我来说 ,真正有趣的创新发生在2013年,当时引入了词嵌入,这个创意可以让我们从“纽约”这样的符号,新增到多维度的向量中并转换为数学形式。这与深度学习模型配合得很好,它们只是大量的矩阵乘法和激活函数。
2013年后我加入谷歌。在2014年初,研究中使用的主要模型是RNN。它与人类一次阅读一个单词的方法相似,这有一个巨大的限制,如果你想阅读多个文档来回答一个问题,你将有一个相当大的延迟,这在Google上的生产中使用是不可行的。
Transformer诞生于我们在解决RNN挑战的过程中。我们尝试利用计算中的并行性,它更多存在于硬件中,特别是在GPU中,几乎可以消耗整个文档 ,并尝试同时理解它 ,而不需要一次执行1个步骤,没有这种瓶颈。这允许我们为OpenAI团队引入一个模型后,真正扩展它,在非常大的语料库上预训练它,这催生了我们今天看到的ChatGPT、Gemini和其他模型等重大创新。
现在我们看到AI出现了重大创新,而且这种创新还在加速。这些模型能够进行基本的推理,他们有常识。我们看到人们继续挑战这些模型的极限。我认为,重要的是,在机器学习和数据科学领域有人在解释结果。现在有趣的是大语言模型能够直接与人交流,并且能够与其他应用和工具进行交互。所以现在我们有了技术手段可以绕过中间人来解释结果。
对于那些不熟悉的人来说,当我们谈论这些模型被GPU训练或被使用时 ,它们其实并不是游戏机GPU或加密挖矿GPU。这是一台专业的超级计算机,一台机器上通常有八个GPU,它们具有巨大的竞争能力。这些机器被堆放在架子上,这些机架大多部署在数据中心。你训练相当大的模型如Groq,花费3个月的时间,动用10,000个H100。租借设备将花费你6,400万美元。更重要的是,除了计算本身之外还有连接性。
这里的一个重要部分是A100,特别是H100,通过每秒900千兆字节的连接速度连接。所以作为参考,你的CPU到RAM,以每秒9千兆字节的速度连接。在数据中心机架中的两个节点/两个GPU之间移动数据实际上比将数据从GPU移动到CPU更快,特别是现在我们还在努力改进Blackwell,其连接速度有望翻倍,达到每秒1,800千兆字节,这种硬件连接速度是疯狂的,它允许我们不把这些设备看作独立设备。因为从程序员的角度来看,它们感觉像是一个单一的操作。当你大规模构建系统时,有很多需要注意。这个想法是这些是高度连接的设备,本地网络上的正常连接是每秒100兆字节,所以大约比这低一万倍。
现在由于对训练的这种要求,我们现在看到封闭的AI模型正在兴起。即使模型权重是开源的,我们实际上仍然不知道模型中加入了什么。这很重要,因为这些模型实际上是关于从数据中学习偏向的。有人开玩笑说,模型其实只是权重和偏向,这就是模型的表现方式。现在除了工程师之外,还有许多团队通过修改数据集来决定进入模型的内容,因为某些原因决定某些内容不应该出现在数据中。然后在模型产生之后,对其进行后期处理并改变系统提示,来决定这个模型将会推理什么。尤其危险的是,我们并不知道这个模型是如何产生的。
我们也看到了AI正在迎来大规模的抗议和诉讼。因为从数据的使用到这些模型如何产生结果,到这些公司对分发平台的权力,都容易引起争议。模型本身成为了分发平台,我们由此面临着巨大的风险。显然监管机构正试图管制我们,想办法限制不良行为者的访问,这使开放模型和去中心化方法更难存在。开源没有足够的经济动力,因此导致公司可能开始开源,然后在试图赚钱的过程中限制开源其模型 ,以获得更多的资本来购买算力,训练更大的模型。
生成式AI正在成为大规模操纵人们的工具,大公司的经济状况总会导致激励机制扭曲。在你实现了你的目标市场份额后,你将继续展示收入增长。你需要增加每个用户贡献的平均收入,所以你需要从用户身上获取更多的价值,这就是开源AI的所有情况。使用Web3作为一种工具来激励人们,可以为人们创造机会,同时也为人们创造足够的计算和数据资源,使人们建立有竞争力的模型。
我们需要让大量AI工具在Web3世界发挥作用,才能将其整合在一起,我将从数据、基础设施和应用层面,介绍其中的几个部分。其中一个重要的部分是因为这些语言模型现在能够直接与社会互动,它们能够在整个广泛的范围内,操纵和明显地制造虚假信息。我想指出的是,AI在这里不是问题,因为这类事情以前就存在。重要的是我们需要利用密码学和链上声誉来解决这个问题。问题不在于AI生成这个或人类生成这个,关键是谁发布了它,它的源头是什么,社区的意见是什么,这才是真正重要的。
另一方面,我们现在有代理。我们习惯把一切都称为代理。但现实是,它们有相当大的多样性,可以有工具或自治代理,这可以是中心化的或去中心化的,例如ChatGPT是一个中心化的工具,而Llama模型是开源的。因此它们可以以中心化或去中心化的方式被使用,也可以让去中心化模型只在用户设备上运行,而不需要区块链或类似的东西。因为如果你在你的设备上运行模型,你就可以保证它完全符合你的期望,有一种完全自治的去中心化AI治理,需要进行验证,比如当它分配资金和做出重要决定时。
还有不同类型的专业化。比如prompt,你可以进行zero shot,教Llama以特定的方式回应 ,你可以对特定数据进行微调,以向模型添加更多知识。或者你可以进行检索增强,以在用户请求时添加某种背景信息。输出也不必只是文本,它也可以是一个丰富的UI组件,它可以是一个直接的行动,在区块链上做一些事情。
接下来是自主。它可以是一个工具 ,用来做你想做的事情;它也可以编写自己的计划并在其上执行;它可以是一个连续的工作,你只需指定一个目标;它可以是一个强化学习优化,你只需指定一个指标和一套标准和边界;你让模型不断探索并找到增长的方法。
最后是基础架构。你可以使用中心化基础架构如OpenAI和Groq。你可以有一个分布式的本地模型,你可以有一个带有概率的去中心化推理。有一个非常有趣的使用案例,我们从可编程货币转向智能资产,这是资产行为由自然语言定义的地方,并且可能与真实世界,或与其他用户交互。比如这可以使用能阅读新闻的自然语言oracle,它可以根据正在发生的事情自动优化策略。这里最大的注意事项是,当前的语言模型对敌对行为并不健壮,因此很容易在各种事情上说服他们。
我们正处于十字路口,道路一侧是一个封闭的AI世界,它将导致更多的操纵。监管决策通常会导致这种情况,因为监管机构会要求越来越多的监督,越来越多的KYC和越来越多的要求。只有大公司才能满足这一要求。而创业公司 ,尤其是尝试开源的创业公司,将没有资源来进行实际竞争,最后只能倒闭以及被大公司收购。我们开始看到这种情况的发生。
道路的另一侧是开放的模型,我们有承诺和能力,以非盈利和开源的心态来执行它,我们使用加密经济激励创造机会和资源,这是具有竞争力的开源AI模型所必需的。NEAR正在努力在整个生态中做到这一点。AI is NEAR。在接下来的几周里,我们会有更多的更新,欢迎大家关注我的推特和NEAR社交网站,了解更多更新,谢谢!