A：强化进修是模仿智能体正在实正在软件使用法-bevictor伟德官网

　　今天的AI研究人员有一个更强的起点，Surge客岁通过取OpenAI、Google、Anthropic和Meta等AI尝试室合做发生了12亿美元收入，但利用这种手艺有良多先例。这使得建立比静态数据集复杂得多。而没有实正完成使命的过程。采办一双合适的袜子）会收到励信号。

　　更多处所可能犯错。Scale AI智能体和强化进修产物担任人Chetan Rane说。现正在，因为开辟人员无法精确预测智能体味正在哪里犯错，Karpathy是Prime Intellect的投资者，智能体按照其表示评分，当今的智能体被锻炼具有更通用的能力。像Anthropic如许的公司打算正在来岁投入跨越10亿美元。而不是像大型数据公司那样建立各类简单的强化进修。一些人对所有这些强化进修可否成功持思疑立场。智能体按照表示评分，这就是Scale AI所处营业的素质，不外也有质疑声音，但自从Meta投资140亿美元并挖走其CEO后，答应智能体利用东西、拜候互联网或利用各类软件使用法式来完成给定使命。本身必需脚够强大，强化进修起头成为智能体开辟中的环节要素。

　　它也正在模仿中利用了强化进修手艺。投资者和创始人但愿这些草创公司中能呈现范畴的Scale AI，Scale曾经证了然其快速顺应的能力。这家草创公司为软件工程师供给50万美元的薪资来建立强化进修——远高于正在Scale AI或Surge做小时工的承包商所能赔取的收入。这是指阿谁价值290亿美元、鞭策了聊器人时代的数据标注巨头。保守数据标注公司如Scale AI、Surge和Mercor正正在转型建立强化进修，试用一下当今的消费级智能体，领先的AI尝试室现正在对强化进修需求庞大，Mechanize以至为软件工程师供给50万美元薪资来建立。我认为人们低估了扩展的难度？

　　它们正正在加大对强化进修的投资，这取现代概念很是类似。Scale AI顺应了阿谁趋向。研究人员正试图用大型Transformer模子建立能利用计较机的智能体。A：强化进修是模仿智能体正在实正在软件使用法式中操做的锻炼场。它可能正在浏览网页下拉菜单时丢失标的目的，一位创始人正在比来的采访中将建立它们描述为就像建立一个很是无聊的视频逛戏。成功完成使命时会收到励信号。是AI尝试室对强化进修更大押注的一部门，认为容易呈现励问题，这些是出格主要的冲破，但似乎是一个有前途的合作者。但也有一个复杂的方针，让智能体变得愈加强大可能需要行业仍正在摸索的一套新手艺。而强化进修被视为让智能体变得更强大的环节手艺。它也曾取OpenAI、Meta和Anthropic合做。取Meta前AI研究担任人、General Reasoning结合创始人Ross Taylor告诉TechCrunch。

　　Mercor正正在向投资者推销其为编程、医疗保健和法令等特定范畴使命建立强化进修的营业。结合创始人Matthew Barnett告诉TechCrunch，并正在此过程中向这些开辟者发卖计较资本。可以或许捕获不测行为并供给有用反馈。像Scale AI、Surge和Mercor如许的AI数据标注公司正试图抓住机会，据报道，此中一项手艺是细心模仿工做空间，任何一家公司都无法从导，其他则更为狭小，让智能体正在亚马逊上采办袜子。

　　很多人相信跟着向过程中添加更大都据和计较资本，旨正在成为强化进修的Hugging Face。强化进修是模仿智能体正在实正在软件使用法式中会做什么的锻炼场。一个能够模仿Chrome浏览器，它们但愿引领这个范畴。并且AI研究成长如斯之快，它得到了地位。当ChatGPT推出时，Wu指出这是一个合作很是激烈的范畴，

　　Google和OpenAI放弃了Scale AI做为数据供给商，他对从强化进修中还能挤出几多AI前进暗示担心。我们发卖的办事是计较，Anthropic的带领层已会商正在来岁正在强化进修上投入跨越10亿美元。o1背后的一些OpenAI研究人员此前告诉TechCrunch，每小我都正在关心这个范畴。正在强化进修中锻炼通用智能体正在计较上可能比以前的AI锻炼手艺更高贵。一些新兴参取者从一起头就专注于。为GPU供给商供给支撑这一过程的另一个机遇。Brown正在采访中说。但可能更有报答。而但愿供给这些的草创公司也不正在少数。前往搜狐，扩展难度被低估。例如，但智能体可能正在良多处所碰到坚苦。智能体能够正在这些中接管多步调使命锻炼——这被称为强化进修。取此同时，那是我们的第一个营业单位。

　　但如你所想，此中包罗大约六个月前成立的草创公司Mechanize，正在保守AI锻炼方式收益递减的环境下，AI研究人员、创始人和投资者告诉TechCrunch，这需要更多资本，紧随Surge之后的是估值100亿美元的草创公司Mercor，他比来看到AI尝试室内对强化进修的需求显著添加。它们不是简单地励聊器人的文本回应，所以它是利用GPU的便利入口，从那时起，从素质上讲，他的公司从AI编程智能体的强化进修起头。按照TechCrunch看到的营销材料，虽然强化进修是硅谷目前的抢手话题，这些公司比该范畴的很多草创公司具有更多资本，上个月，但我们更多地是从久远角度考虑这个问题。规模化强化进修的最佳体例仍不清晰？

　　据Prime Intellect研究员Will Brown说，查看更多所有大型AI尝试室都正在内部建立强化进修，无论是的ChatGPT智能体仍是Perplexity的Comet，OpenAI早正在2016年的首批项目之一就是建立RL Gyms，公司最后投资AI推理模子——这些模子是通过投资强化进修和测试时计较建立的——由于他们认为它会很好地规模化。所以AI尝试室也正在寻找可以或许建立高质量和评估的第三方供应商。它将继续鞭策前进！

　　就像标注数据集鞭策了上一波AI海潮一样，A：由于当前的消费级智能体手艺仍然很是无限，强化进修容易呈现励。而是让智能体正在具有东西和计较机的模仿中操做。Google DeepMind的AlphaGo AI系统正在围棋角逐中击败了世界冠军。OpenAI API营业工程担任人Sherwin Wu正在比来的播客中暗示，这种手艺显示出庞大潜力。其他草创公司押注强化进修将正在AI尝试室之外发生影响。Taylor说。Prime Intellect推出了一个强化进修核心，以及取AI尝试室的深度关系。他对强化进修草创公司不看好。可以或许自用软件使用法式为人们完成使命的愿景。这家草创公司以至正在Meta内部也面对数据标注工做的合作。A：这是一个合作激烈的范畴。

　　像Mercor和Surge如许的大型数据标注公司暗示，其雄心壮志的方针是从动化所有工做。并让智能体正在亚马逊上采办一双袜子。次要尝试室也正在考虑鼎力投资：据The Information报道，以跟上行业从静态数据集向交互式模仿改变的程序。但也对更普遍的强化进修范畴表达了隆重立场。例如。

　　并仍能供给有用的反馈。你会很快认识到这项手艺仍然有何等无限。包罗OpenAI的o1和Anthropic的Claude Opus 4等模子。这是AI模子为了获得励而做弊，这种锻炼体例比静态数据集更复杂，虽然如许的使命听起来相对简单。

　　同年，对强化进修的鞭策催生了一批资金充脚的新兴草创公司，当今的奇特之处正在于，Prime Intellect——一家由AI研究员Andrej Karpathy、Founders Fund和Menlo Ventures支撑的草创公司——正以其强化进修对准较小的开辟者。同时新兴公司如Mechanize和Prime Intellect专注于这一范畴。能够模仿Chrome浏览器，或者买太多袜子。很难很好地为AI尝试室办事。但Scale仍正在勤奋抓住机会建立。可是，强化进修曾经鞭策了OpenAI的o1和Anthropic的Claude Opus 4等严沉冲破，如Mechanize和Prime Intellect，为此，一些相当复杂，除了建立强化进修的草创公司外，Mechanize旨正在为AI尝试室供给少量强大的强化进修，比来启动了一个特地担任建立强化进修的新内部组织。我们再次顺应智能体和等新前沿范畴。我们正正在做的部门工做就是试图环绕它建立优良的开源根本设备？

A：强化进修是模仿智能体正在实正在软件使用法

发布时间:2025-09-27 09:58