
AI的编码是今年AI行业的主线,最近变得更加清晰。除了上周泛滥的新编程克劳德·奥普斯4(Claude Opus 4)之外,DeepSeek R1的新版本还集中在法规的特征上。不久前,Openai以30亿美元的价格收购了IA Windsurf编程,并发布了编程代理的法典。在最后几天一直在与JD.com作战的Kimi Ming Chaoping和Meituan的前产品经理正式介绍了与AI编程有关的产品。具有30多年经验的C ++ Reddit开发人员发表了Claude Opus 4解决了困扰它已有四年的错误,这是他使用的第一个AI。为什么克劳德(Claude)在编程中如此出色?现在,当我们谈论人类时,每个人几乎都认为这是一家“执行编程模型的公司”。但是您自己,这一代模型的真正进步点是什么? FU会发生什么ture?几天前,Claude Opus 4的中央研究员Sholto Douglas的播客对话涉及很多信息,值得聆听这些问题。基本讨论点(节省流程并查看版本):Claude Opus 4,值得关注的是什么创新观点?首先,技能的更新非常好。一方面,不仅了解复杂的需求,而且还具有独立查找数据,执行测试,独立搜索纯化错误并“从头到尾运行”的能力。同时,任务的持续时间也大大延长,这支持了几个步骤的推论和操纵。这意味着它不仅聪明,而且非常耐用。从架构的角度来看,Claude Opus 4添加了长期工具和内存模块的调用,以允许使用更多上下文连续性来处理任务。从代码助手到具有“解决方案设计” Firactionali的智能代理商泰。当然,它不在屋顶上。团队完成了任务,我们认识到,对于如何扩展模型的感知和操纵的背景,智力上的复杂性没有明确的限制。您将来怎么样? Sholto Douglas在播客中提到了一些明确的指示。强化学习(RL)继续在连续任务中促进模型性能。代码代理可以连续工作数小时,人类需要偶尔干预。该模型可以成为基于知识的位置的“虚拟远程员工”。随着自动化实验室和机器人平台构建的继续,Modelos可以参与实际的物理任务,例如生物实验和制造。但是,有先前的要求。必须保持智能代理的可靠性。尽管我们仍然没有100%的成功,但我们的成功率在有限的时间内不断提高。在2025年底,智能编程代理有望实现“稳定的功能数小时”,而人类只需要使用。查看外观。编写代码怎么样?编程只是模型功能的“主要指标”。医学和法律等专业仍在等待数据和工具的改进。一旦准备就绪,也将取得快速进步。当前的瓶颈不是AI本身,而是真正的验证机制和基础设施。在2027年至2030年之间,该模型几乎可以自动化任何白领任务,但“强大的能力和难以实施”罪与实验室和世界世界反馈机制一致。我怎么知道该模型是否确实有所改善?该团队说,良好的评估系统(EVALS)尤为重要。不仅衡量技术指标,而且还强调了评估人员的经验和偏好。这就是模型评估阈值变得更高的原因。同时,用户应始终使用,互动和反馈形成真正的“进化”。实验室与应用,谁占主导地位?道格拉斯(Douglas)认为,实验室将通过开放的API带来机会,但中心利益仍然是:计算电源转换功能。 “ Hirability”和用户信任模型。更个性化的强度。该实验室就像是一家“智能电机”制造商,重点是功能限制。应用公司非常出色,没有着陆和用户体验。将来,两者之间将会越来越多的交集,合并和竞争。因此,模型公司是否由于其基本成本和收益而离开其他公司?这是道格拉斯的观点:不,相反,它只会带来能量。他认为,每个坑最终都会破裂,真正重要的是客户关系,任务安排和集成经验。最后一个关键字:随着模型功能的改善,“对齐”的问题变得越来越重要。人类正在调查可解释性,说:“让我们了解模型在想什么。”强化学习可以提高能力,但也可以破坏现有的一致性机制。将来,大学,政府和更多的研究人员将需要合作促进“一致科学”。视频链接Orriginal:https://www.youtube.com/watch?v=w1agv4k3a8y访谈的转录和APPSO的汇编很容易调整。主持人:肖尔托·道格拉斯(Sholto Douglas)是克劳德4人类模型的主要成员之一,这次我们度过了愉快的时光。我们谈论许多问题,包括开发人员看到人类新模型的发展趋势的方式。我们将解释如何在接下来的六,12个月甚至两年内开发这些模型,以及建立可靠的AI代理所需的关键因素,以及这些模型可以创造诸如PR之类的进步在医学和法律等专业领域进行宣传。此外,道格拉斯还分享了他对他对预言“ Alignment Research”和“ AI 2027”的反应的看法。这是一次很棒的对话,我认为每个人都会喜欢它。 Claude Opus 4的重要进步和未来的主持人:当在网上放置此播客时,Claude 4必须发布,每个人都应该开始尝试。我很感兴趣,您是最早与这些模型取得联系的人之一,还有什么更兴奋?道格拉斯:毫无疑问,这是软件工程的又一次跳跃。 Opus模型在这方面做得很好。我经常会遇到提出非常复杂的任务的时刻。这包括一个大型代码库,使您几乎可以完全自主完成任务。查找信息,了解要求并自己执行测试。整个过程非常独立和高效。每当我看到这种表演时,这都会让我感到惊讶。主机:每次新属出现了模型的影响,必须重新调整认知模型,以确定哪些方法有效,什么是不可能的。您是否在编程中改变了对这些模型的使用和理解?道格拉斯:我认为最大的坎比奥是及时的改进。我认为,可以从两个维度来理解模型模型的改进。一个是任务的智力复杂性,另一个是可以显着推断和处理的上下文数量,或者连续行动的数量。这些模型在第二维度中尤为明显,这使您可以执行多个步骤操作,确定从环境中恢复的信息并根据此信息执行操作。此外,您可以调用诸如云代码之类的工具。云代码具有更强大的执行功能,而不是简单地复制和粘贴。现在我们可以看到它连续工作了几个小时,效率等于con人类的工作。主持人:那么,您认为Claude 4用户应该尝试吗?道格拉斯:我认为最好的方法是直接与他的工作互动。例如,如果您今天打算WriteGo,请帮助您并要求观察它如何确定信息并决定您的下一步。我向您保证,表演会让您感到惊讶。主机:这一代模型更强,许多人将使用它们来构建其产品。您认为开发人员是哪种新可能性?道格拉斯:我一直喜欢“产品索引”一词。开发人员需要不断提高自己的产品建模的能力。光标,蜿蜒曲折的例子是典型的。当模型不够强大时,光标已经开始建立未来的编码经验,直到克劳德3.5才真正实施,他的儿子出现了。风浪冲浪走更进一步,是市场的一部分。它的成功是获得这个指数增长窗口。现在您可以看到Claude代码,T他的新GitHub集成,OpenAI编解码器,Google编码代理等。所有人都专注于概念dand“编码剂”,目的是实现更大的自主权和异步操作。将来,这可能不是您每分钟一次的操作。相反,他们管理AI模型车队,多个模型假设任务和协作。我认为值得探索这个地址。主机:您是否看到过类似于“并行协作多模型”的方案?你怎么看?道格拉斯:我认识许多人类的朋友。他们同时在不同环境中执行多个Claude代码,这看起来很棒。但是说实话,没人知道如何做到这一点。这实际上正在研究“管理带宽”对人类的多少。我认为这是未来经济发展的关键问题之一。模型度量的生产力好处应该如何?首先,您必须手动验证模型的输出。换句话说,模式的影响L受人类管理能力的限制。除非您有一天可以相信该模型来管理它,否则这种抽象水平极为重要。主机:然后,如果您每15分钟验证一次型号,则可以管理的型号每小时或每5小时都有差异吗?道格拉斯:是的,黄·雷森(Huang Renxun)说了类似的话。他说,他被数十万超级聪明的Agi包围,并且具有很大的影响力。他还说,这是NVIDIA管理链的“控制器”。我认为将来它实际上可以朝这个方向发展。主持人:未来最重要的行业可以是“组织设计”本身。道格拉斯:是的,建立信心。秘密武器:长时间,RL智能代理更新主持人:我一年前曾在麦肯锡工作。咨询行业还可以根据这些模型开发新产品线吗?我也同意你说的话。应用公司必须比模型更快。例如,光标产品为di一开始就实施,但一旦模型的功能就可以爆炸。那么,您认为它具有特殊的感觉“向前迈出一步”?道格拉斯:这是关于在几个月内不断连接模型的最新特征,并不断重建产品。同时,您必须与用户保持密切联系,以确保产品已经使用,但也可以吸收最先进的模型的特征。主机:我认为这是秘密:如果您仍在等待模型在采取行动之前改进,则其他人可能会删除用户。他通过记忆,执行说明和工具取得了许多进步。您可以轻松地总结您当前的所有方面吗?什么是马杜罗,哪一个继续探索?道格拉斯(Douglas):在过去一年中,理解进步的一种极好的方式是,重新精神学习(RL)正在研究语言模型。任务智能的复杂性T模型可以解决的本质上是屋顶,例如解决复杂的数学问题和编程的能力。但是,这些任务中的大多数是在有限的上下文中执行的。使用内存和工具的挑战是扩展模型真正感知和运行的上下文。范围。例如,诸如MCP(模型上下文协议)之类的机制允许模型与外界交互,但是内存允许他们处理更长的任务部分,从而获得更个性化的体验。这一进步本质上创造了“智能代理”的一系列批判性特征。顺便说一句,口袋妖怪评估是一种非常有趣的体验方式。主持人:他小时候是游戏的粉丝。这是一个很好的评论。我希望我们可以启动此模型。道格拉斯:当然,这篇评论特别有趣。该模型不是专门训练可以玩神奇宝贝的,但仍然设法成功完成任务并展示了强大的属液化技巧。这种类型的任务并不完全未知,但与我以前的工作有所不同。主持人:我仍然记得游戏中有许多楼梯和迷宫。该模型可以帮助您通过级别。道格拉斯:是的,我特别喜欢的另一个例子是我最近制作的“可解释性代理”。最初,编程代理可以自动学习,使用神经元可视化工具,进行内部对话并尝试了解模型的内部结构。您可以通过称为“审计游戏”的安全评估在模型上找到错误点,并生成假设并单独验证问题。这种类型在工具 +内存中的概括能力确实非常好。智能特工生命门:可靠性主机:智能代理似乎正在加强。我以前曾说过,VA代理的关键是“可靠性”。您认为我们现在是什么阶段?道格拉斯:我们已经迈出了很棒的步骤就“一段时间内的成功率”而言。尽管尚未达到100%的稳定性,但模型的第一次尝试与多次尝试之间仍然存在差距。但是,从趋势的角度来看,我们一直在朝着“专家层面的可靠性”迈进。主持人:那么,您认为我们会改变这种乐观的观点吗?道格拉斯(Douglas):如果模型在任务期间的任务期间找到瓶颈,那么值得谨慎。例如,编程是正确试验进度的关键指标。随着它开始减少,可能存在结构性问题。当然,可能很难训练的数据,例如“使用人类软件”。但是总的来说,我仍然很乐观,因为我们现在看到了这类任务的令人惊讶的进步。主持人:然后,当您为我或在线信息填写几种表格时,您认为您可以拥有一个可以让您寻找新闻的“通用助手”?道格拉斯:“个人管理代理”是HOT主题。谁不想向AI提出小问题?但是,这个问题实际上取决于情况。重要的是,如果模型实践类似的情况。您找不到有人从事金融工作,对吗?但是,如果它是一个“虚拟计数器”,那就更重要了。因此,如果任务是可靠的,则主要取决于培训的上下文。如果进展进展顺利,您会发现这些代理商在今年年底会在浏览器中操纵任务。明年,它基本上将成为标准。主持人:非常令人兴奋。您的模型在编程方面是否非常出色?培训是特别优先的吗?现在,当您提到人类时,您会想到“编程模型”。道格拉斯:是的。它使编程非常重要,因为它是加速AI自我侵入性的重要途径。他们还投入大量精力来衡量其编程技能的进度。我们可以说我们有意专注于n这部分。主机:这些代理已经加速了AI调查吗?道格拉斯:我认为这是正确的。它们大大提高了工程效率。甚至我认识的一些主要工程师,在熟悉的地区,效率提高了1.5倍。但是,在未知领域(例如新语言和未知内容)中,效率提高了五次。因此,当“越过边界”时,援助更为明显。重要的是当前的瓶颈是计算供稿吗?否则,与AI代理一起参加调查将等同于扩大整个研究团队,并且提高效率是数量级。主持人:我认为这些代理商主要尝试无聊的任务,并节省时间思考更重要的问题。那么,什么时候有价值的研究思想开始积极提出建议?道格拉斯(Douglas):现在我仍然执行工程任务,但我已经有创意了。我说它在三个月内爆炸,但是在两年内,我们可以看到他们产生了越来越有趣的科学思想。当然,这也取决于是否有很好的反馈机制。像人类一样,模型必须通过实践,测试和错误获得有关复杂任务的知识,最终可以实现高质量的生产。主机:因为验证这些字段相对容易,对吗?会发生吗? AI在编程方面非常出色,但是在医学和法律等领域验证是否容易?道格拉斯:这种风险当然存在。但是,好消息是自动学习研究本身的验证阈值也很低,例如“如果损失价值下降”。尽管模型可以在ML研究中找到好主意,但它将主导非常强大的RL任务。这比许多软件工程任务更适合AI。在医学等领域很难尝试,但是它已经改善。 Openai最近创建了一个医疗问候和答案文件,该文件量化了长期响应通过更详细的分数机制。这种方法非常有前途,我认为将逐渐解决未来验证困难的问题。主持人:那么,“最终”是指您真的可以拥有良好的医疗或法律助理?它们会成为更大模型的一部分吗?道格拉斯:当然。主持人:您认为它们将成为更大的通用模型的一部分吗?还是有专门为医疗或法律目的而设计的特殊模型?道格拉斯:是的。我是“最伟大的至高无上”。个性化很重要,但我希望该模型能够了解公司,工作习惯和个人喜好,但是这些自定义应在公司或个人层面上完成。根据行业,这是一个分裂的模型。尽管我们与Databricks的合作反映了该公司的自定义方向,但我们坚信,就SA能力目标而言,我们必须相信一个独特而强大的一般模型。将来,而不是构建不同的小模式ls,您必须根据任务的复杂性动态分配计算机功率(例如拖船)。这就是我很大的东西,因此我们对模型路线很乐观。 “ AI 2027”:白领工作是否可以完全更换?主持人:我对模型的持续进展充满信心。许多人是否想知道在社会改善之后,模型的能力将如何影响社会?例如,一个普遍的问题是,这些模型在未来几年对全球GDP的影响有多大。道格拉斯:就像上海数十年的变化一样,最初的影响可能像中国的崛起一样,但是这次更快。但是,有必要区分不同领域的影响方法。到2027年或2028年,我们可以看到有几乎所有白领任务自动化的模型,并且在2030年左右将更加稳定。这是因为白领任务非常适合现有的AI架构(数据,评论),并且可以完成Essenti,并且可以完成。在计算机上的盟友。但是,机器人技术和生物学研究是完全不同的。例如,如果您想创建一个超级程序员模型,则它只有很多代码和计算能力。但是,如果您想创建一个超级生物学家模型,则需要一个自动化实验室来提出假设,尝试并执行大型实验。它不会与这种类型的硬件或基础结构保持最新状态。这就是为什么“违规”让我担心。白领的工作很快变化,但是现实世界中的医疗保健和制造业,可以真正改善人类生活的质量,并且由于不足的trus虫而逐渐发展。尽管AI本身非常强大,在现实世界中运作,但有必要事先建立“物理支持设施”,例如云实验室和机器人平台。主机:到那时,来自AI的数百万研究人员可能提出了一个实验。他们可能不需要机器人系统或生物学该规模的CAL数据。道格拉斯:当然,AI正在迅速发展,但是要真正将这些特征转化为GDP增长,我们还必须提高“现实世界反馈机制”才能真正释放技术的价值。主持人:然后,将来,所有白领职业都将被视为医生,您认为您可以建立价值机制吗?实际上,最让我感到惊讶的是,您可以在没有很多数据的情况下训练如此强大的模型。道格拉斯:我完全同意。该模型表明,Pueto学习了各种任务,但尚未看到明显的智力限制。模型样本的效率可能不如人类效应有效,但这并不重要。可以同时执行数以万计的模型副本,这使您可以尝试不同的并行路由并累积“虚拟体验”。即使更有效,您也可以按比例进行补偿,最终达到人类水平或更强大。主持人:我认为这个当前方法足以解决未来的发展。有人认为我们仍然需要它,您如何看待新算法的进步?道格拉斯:今天,大多数AI专家都认为,“预训练 + RL”范式足以导致共同的人工智能(AGI)。到目前为止,尚无迹象可以减速这条路线。这种组合是有效的。当然,可能会有比另一个更进行的速度,甚至还有一个新的“高峰”攀登。例如,伊利亚(Sutskever)可能是这两个常规范式的共同发明人,不会问他一个问题。所有证据表明当前的技术途径足够强。当然,由于资金有限,ILYA也可能选择一条新路线。或者认为这是一条更好的道路,但是从我个人的角度来看,我认为我们当前的技术路线可以使我们实现目标。主持人:下一个瓶颈会是能量吗?您什么时候真正解决这个问题?道格拉斯:到2028年,我认为美国将拥有20%的能源。如果您想提高一些数量级,则必须破坏能量结构的戏剧性转换。政府应在这一领域承担更多责任。例如,这将是未来的关键瓶颈,因为中国在Ene的生产能力中的增长远远超过了美国能源生产能力的增长。规模模型的进展:可靠的资格系统的主机:随着模型的进展浪潮,您认为您应该受到最大的关注吗?例如,从克劳德(Claude 4)到开发下一代模型?道格拉斯:许多公司内部都有非常严格的估值系统。我也喜欢“上传”这些资格。诸如“边境数学”之类的复杂测试极为困难,并且是模型智能的局限性。更重要的是,我们可以开发能够真正捕获“工作流动时间”的评估,以便我们可以涵盖人们在一天之内的工作。该评估有助于更好地评估该模型是否接近或超出人类能力。我认为政府应该在这一领域发挥作用。主持人:作为一家基本模型公司,我们需要克服的主要挑战之一,以及算法和基础设施,正在建立一个良好的评估系统。您认为您的“评估能力”有多重要?道格拉斯:评估能力绝对是优先事项。没有良好的评估系统,我们不知道我们是否进步。很难“提高”公众评估,需要一个可靠且稳定的内部评估系统。主持人:我发现一些在模型中创建应用程序的开发人员对于考虑评估也非常有用。特别是,如果您想进入各种垂直行业,例如物流,法律和会计,那么外部开发人员的评论就可以在内部了解真实情况。道格拉斯:是的,也需要非常强烈的经验CE和风味,还需要对行业有更深入的了解。过去,只有共同的人需要选择答案,但是现在我们需要领域专家来评估。例如,如果要求您确定生物学领域模型的输出,则可能不知道哪一个更好。成为用户的朋友:自定义和模型主机的品味:您刚刚提到了“风味”。我也觉得这很有趣。例如,许多模型开始参与内存系统,以及用户和模型相互交互的方式。许多AI产品确实成功,因为它们发现了特定的“共振”并了解特定的文化气质。我在这里。还有许多其他小特征具有感觉的感觉,例如一开始提到的Kinmen Bridge的例子。将来这种“自定义用户氛围”将如何?道格拉斯:我认为将来确实会有“奇怪”的情况。你R模型成为他最聪明,最吸引人的朋友之一。的确,有些人已经将克劳德(Claude)视为朋友,我知道很多人每天都花时间与克劳德(Claude)聊天。但是我认为我们目前只在寻找1%的“自定义”。未来的模型将使您对您和您的偏好有更深入的了解。主机:那么,如何使用这种“了解用户”的能力做得很好?训练这种偏好是审美和关键的人吗?如何解决这个问题?道格拉斯:大多数都取决于“有品味的人”来确定产品的方向。由于克劳德(Claude)的对话经历很好,这主要是因为阿曼达(Team)(团队成员)具有非常强烈的审美风味,可为“美丽的产品”。这种“独特的味道”非常重要。传统的反馈机制(例如“喜欢/tick”)可以轻松地驱动模型的不自然结果,因此需要收集评论的新方法。一个moDEL本质上是一个功能强大的“模拟器”,如果您可以为模型提供足够的用户上下文,则可以自动学习用户的偏好,色调和样式。因此,解决方案是将类人与类用户与模型之间的连续相互作用相结合。应用程序前面的实验室:开放和竞争性的主持人:那么,您在接下来的6-12个月中的预测是什么?道格拉斯:接下来,我们将专注于继续扩展我们的增强学习系统(RL),看看需要哪些高度。模型的功能正在迅速改善。代码表示将成为重要的指标,尤其是在年底。到那时,该模型应该能够连续工作几个小时并完成任务。主持人:这意味着人类将有更少的时间来验证,对吗?道格拉斯:是的,如果您当前正在使用Claude代码,则可能需要每隔几分钟进行验证,但是最后,我们看到该模型可以独立完成几个小时的任务而不会出错。将来,它应该能够实现“完整的住宿”并管理多个平行任务,例如“星际争霸”和模型操作。速度将更有效。主持人:我提到了编解码器,Google Joule和一些创业公司也这样做。道格拉斯:是的,我真的很想启动GitHub代理。您可以称呼Github的任何部分,并说“ @claude”。然后,您可以自动处理任务并做一些工作。主机:哪些工具或模型选择要使用的开发人员,最终会影响哪些因素?道格拉斯:除了模型,开发人员和Empresas之间的信任和关系的能力外,也非常重要。随着模型的功能扩大差距,开发人员不仅可以考虑技术指标,还可以考虑他们为您的公司建立未来的使命意识。主持人:我觉得新车型每月都会出现,尤其是在当前快速速度上下文。如今,该模型超过了评论的上部,明天在其他修订中,另一个模型在其他修订中处于领先地位,所有这些模型都被各种比较所淹没。道格拉斯:是的,这就是为什么“ GPT说唱歌手”出乎意料地受欢迎的原因。最初,每个人都认为创建包装的好处之一是它们始终处于建模功能的最前沿。主持人:所有不想成为“包装工”的人最终都会感到所有的钱都会燃烧。道格拉斯:我完全同意。然后,“冲浪”是建模功能的最前沿,这非常出色。通过填充,还有另一侧。只有通过主导基础模型来预测某些事情,清楚地研究了趋势线并真正创造了深厚的产品。例如,许多“深入研究”应用程序都要求在内部对许多强化学习(RL)培训进行培训。这种类型的产品很难从外部模仿,必须内置实验室。主持人:你能解释一下吗?如今,像Openai和人类这样的公司越来越开放,外部开发人员现在可以参与。但是许多人认为:什么是“实验室”?什么对所有人开放,哪一个可以竞争?道格拉斯:这是一个非常重要的问题。 API RT(罚款API)的开放实际上改变了一些景观,但现在值得通过专注于特定垂直领域的公司产生更多的价值。但是Alsame时间,实验室仍然存在“密集的优势”。例如,OpenAI为客户提供了特定的折扣,使他们能够继续培训模型的生产。换句话说,它们不仅是模型供应商,而且是次要数据用户。这种密集的优势非常强大。 “实验室的独特优势”是什么?计算机电源转换:我认为有一个强大的维度可以转换计算机电源(FLOPS),资金和Inteligence资源。这就是为什么像人类,开放和脱机的公司在模型绩效方面非常出色的原因。模型的“就业能力”:当模型逐渐成为“虚拟员工”时,您是否相信它?你喜欢它?您愿意给您任务吗?个性化能力:如果模型可以理解上下文,则公司的工作流程和个人喜好也是差异化的关键竞争。总之,实验室级别公司的最佳方法是创建高级模型并将计算能力转化为智能。同时,“处于应用程序级别”的公司可以通过方法,定制和产品体验在其领域赢得席位。但是,两者之间存在越来越多的交集和协作。主持人:许多人使用自己的模型来建立通用代理,对吗?这些公司不是制造模型本身,而是通过编排和智能连锁电话来做事。你认为这种方法是我由于模型公司的成本收益而失败了?道格拉斯:我不认为这是不好的。相反,这种方法带来了出色的竞争力,如果最合适的产品,我们都可以找到哪种产品形式。实际上,模型公司具有多个优点,例如带有基础模型的Dir Contactecto,可以进行更深入的调整,并知道哪些功能应得到优先和改进。毕竟,所有“坟墓”最终都将消失:当您可以随时“创办公司”时,一切都会重建。那么未来的主要价值是什么?是与客户的关系吗?关于编排和整合的特征?还是有效将资本转化为情报的能力?这仍然是一个复杂的问题。见解研究人员:潜在和一致性挑战主持人:过去一年中的观点是否改变了?道格拉斯:去年,AI加速了,去年我问我先前的火车是否是否ED计算机功率需要实现理想的模型功能,但是有明确的响应。否。不。Renforce学习(RL)是有效的,将保证到2027年的“远程数字工作”的强大模型。先前,关于AI的“希望”和“ Warriestion”已将“可能性”更改为“几乎安全”。主持人:您认为我们是否需要将来攀登数据?或者,当Claude 17问世时,模型算法是否只需要少量新数据?道格拉斯:模型的“对世界的理解”足以指导机器人学习和提供反馈,因此,很可能会大大攀登他所取得的令人惊讶的进步的可解释性数据。开始了解“叠加”和“神经元”的特征,而克里斯·奥拉(Chris Ora)以及他的团队的工作是一个很大的飞跃。这使您可以识别最新一代模型的“电路级别”的结构和行为特征。有一篇很棒的文章研究““大规模语言模型”,清楚地表明了如何推断概念。尽管并没有完全从模型的行为机制中解释出来,但已经取得了令人惊讶的进步。但是,值得注意的是,模型可以在整个培训过程中吸收和表达人类的价值观。但是,一旦它进入了一个不再能够保证的模型。上述“客观取向”下的任务。这个学徒过程本质上是一个“客观取向优化”,以及如何监督和控制该模型的行为是每个人当前正在调查的重要问题。主持人:大约一个月前,讨论了“ AI 2027”的许多问题。当您看到这一点时,您对此进行了反应。当您诚实地对The Insiple Insible the Insiple the Indie the Inder Insible thig the Ide the I The I The I Thing I Thing I Thing I Thing I Thing I Thing I Tough I Thing I Thing I Thing I Thing I Thing I Thing I Thing I Thing I Thing I Thing I Tough i Tough I Tough I Tough I Thing,我想到了,我想到了。E内容是:“是的,也许这就是它真正发展的方式。”当然,有一些分支机构,但是令人惊讶的是,即使具有20%的概率,也有20%的可能性。主持人:您认为20%的概率是因为您对一致性研究更加乐观,还是您认为进度会慢?道格拉斯(Douglas):总的来说,我对一致性研究更加乐观。也许我的日程安排大约落后于他们一年,但是在这种巨大的趋势下,我可以考虑一年什么?主持人:这取决于我今年如何使用它。道格拉斯:是的,如果您可以充分利用它并进行正确的研究,那么您确实可以做出很大的不同。主持人:因此,如果您整天都是政策制造商,您认为我们应该做些什么来确保未来的进展如何?道格拉斯:这是一个很好的问题。最重要的是,我们必须真正感受到我们正在看到和争论的趋势。否则,我们将破坏民族能力,我们将LL注意该模型可以改善这些特征(例如一系列测试)的程度,并且该模型可以在多大程度上可以改善这些特征。您必须查看这些任务是否可以实现,并在这些任务中取得了长足的进步。道格拉斯:是的,例如,您想在整个工作中划分国家的经济并问自己。如果模型可以执行这些任务,这是否意味着它具有真正的“智力”?必须建立修订并估算测试,划定趋势线并喊叫:“啊,2027年或2028年会发生什么?”下一步是投资更容易理解,指导,诚实和可靠的大规模研究。您遗憾的一件事是,该地区的大多数推力都来自边境破坏。但是实际上,我认为这应该是...主持人:其他人可以加入吗?例如,可以使用克劳德(Claude)进行相关研究吗?道格拉斯:不。这意味着您可以以其他方式取得巨大进展。那里是一个名为MAS计划的项目,其中许多人来研究对齐方式,特别是具有可解释性的重要结果,所有这些都在RIP边界之外制成。我认为更多的大学应该参与这个问题。在许多方面,这更接近纯科学。这是语言模型中“生物学”和“物理”的研究。主持人:没有禁运者,我认为该领域的研究不是很受欢迎。道格拉斯:我真的不明白。我听说最近的会议(例如ICML)不包括机械性解释性研讨会,但我不完全理解这一点。我认为,这是对“内部模型机制”的最纯粹的科学搜索。如果您想发现DNA的螺旋结构或发现相对论(例如爱因斯坦)的一般理论,那么自动学习技术/人工智能中的相应途径是研究机械性解释性。主持人:让我们谈谈积极的事情。以前我们说过在未来几年中,白领工作将是自动化的,但是您如何看待我们被低估?道格拉斯:是的,模型肯定会自动化白领任务,但令我惊讶的是,在这些技术的整合过程中,世界的进步非常缓慢。假设模型函数尚未改善生存的命令,它们已经可以释放出巨大的经济价值,那么它们并没有真正对这些模型进行重组。即使模型保持不变,您也可以完全改变世界。道格拉斯(Douglas):这需要朝着可以改善世界的方向进行投资,例如促进物质资源的适当有效管理,扩大物理和娱乐行业的限制,并允许模型实现这些目标。我最大的希望是使人们更具创造力,并允许他们即兴创作更多的内容,例如电视连续剧,视频游戏等。人们将获得巨大的赋权,FU中有无限的可能性ture。这些模型取代了一些作品,但所有作品都具有更强的杠杆功能,而社会工作模型则创造了巨大的变化。主持人:它被高估在AI的圈子中,您认为哪个被低估了?道格拉斯:好吧,让我们谈谈首先被低估的内容。我认为“世界模型”很棒,但是今天没有关于它的讨论。 AR/VR技术的进步允许模型直接产生虚拟世界,从而带来令人震惊的体验。主机:需要一定程度的身体理解,例如因果关系。你还没有走,对吗?道格拉斯:我认为我们在某种程度上证明了该模型具有物理理解的能力。这可以在EBAL中看到,该EBAL涉及物理问题或某些视频模型。例如,我看了一个令人难以置信的视频,有人要求一个视频生成器模型将乐高鲨放入水中。模拟灯在乐高积木表面的反射,然后将阴影放在t中他正确的地方。这是该模型从未见过的场景,并且是一个完整的概括。这些是整体物理建模功能,对吗?主持人:他说,尽管该模型目前停滞不前,但仍有许多应用程序开发。哪些领域最受低估且未开发?道格拉斯:软件工程领域已经非常成熟,并且模型在编程方面非常出色。几乎所有其他领域,包括法律,会计,仍然有一个很好的发展空间。特别是对于智能代理的应用,它仍然具有真实的异步,有一个执行系统。其他领域是空白的,值得探索。主机:我经常说编程是这些模型的理想应用方向。道格拉斯:是的,这是主要指标。但是我们必须等待其他领域追赶。主持人:我记得您在城堡中出版了您的照片,这是怎么回事?道格拉斯:这是一个战争CTICE,我们邀请情报和军事机构的学员模拟和推测,假设AGI到达,AI Wasit将返回更强并讨论其地缘政治影响。主持人:经过那段经历,您是否害怕或放心?道格拉斯:老实说,我有点害怕。主持人:您认为您现在的扣除额是如此严重吗?道格拉斯:还不够。许多人低估了未来几年的技术发展速度,但还没有准备好。即使只有20%的东西,也必须做好准备。仍然有很大的空间来提高每个技术链接的效率,未来的目标几乎是安全的。主持人:像现在几乎所有人类一样,现在有90%的信心数字?道格拉斯(Douglas):几乎所有团队成员都相信,到2027年,我们可以实现“远程外壳和远程AGI工人”。即使是信心很少的人,也认为有10-20%的可能性。因此,政府必须将其作为优先事项和认真y考虑他们的同性恋MPACT。但是,这种紧迫感目前还不够。