
资料来源:是什么使Openai长期以来一直是“红色”,发行“偷猎仇恨”并写一篇文章?是什么吸引诺贝尔奖获得者和图灵奖的获奖者仅签署本文?答案只有三个词:链链。 7月15日,当地时间,关于识别模型链的思维位置的文件允许来自OpenAI,Meta,Google Deepmind和Anthropic,原始竞争者的研究人员签名。在文档中,他们呼吁行业内部人士对监视AI的推理模型的思维链进行更深入的研究。该文件的作者包括许多AI名人,例如Turing Award Yoshua Bengio,Google DeepMind的联合创始人Shane Legg和OpenAI首席研究官Mark Chen的获奖者。与此同时,OpenAI联合创始人Safe超智能首席执行官Safe Unectelligence首席执行官塞缪尔·R·鲍曼(Samuel R.O-Founder Think Machines Lab是推荐该文档的专家。照片|四个专家建议(来源:https://tomekkorbak.com/cot-- onitorability-istorbile-is-a-fragile-pportunity/cot_monitoring.pdf)第一作者来自英国AI安全研究所和英国研究所阿波罗研究所。其他组合来自人类,OpenAI,Google Deepmind,Meta,Amazon,加利福尼亚大学,伯克利大学,AI安全中心,Redwood Research,AI期货项目,Scale AI和Magic等团队。照片|文档签名(来源:https://tomekkorbak.com/cot-binitoria-is-a-fragile-pportunity/cot_monitoring.pdf),那么,此文档对许多人的签名有多重要?该文件说,自然语言“思考”的MGA AI系统为人工智能安全提供了独特的机会:它使人们可以监视自己的链条思考,以发现是否存在任何无效目的。像所有其他AI管理方法一样,监视链并不完美,这可能会离开不正确的行为被忽略了。但是,对链监测的思维表现出了巨大的潜力,因此该文件建议对监视思维链的进一步研究以及根据现有安全方法监测思维链的投资进行了进一步的研究。由于监视思维链是脆弱的,因此该文件表明人们应该考虑决策对开发思维链监测的影响。仍然是Thinkchain -Track:实现AI安全性的独特机会,AI代理的不透明度是“温床”,对于许多潜在的风险,如果人们可以解释这些系统,将更容易处理。由于大型模型天生具有用于信息处理和互动的自然语言,因此人们可能比其他AI方法更容易理解。思维链的发现进一步加强了人们的期望。思维链将鼓励模型显示其思维过程,ICH不仅提高了模型功能,而且还增加了自然语言中相关计算的比例。但是,通过指导与任何其他模型输出相同的筛选压力所产生的思想链,它们具有有用且无害,从而限制了它们的可靠性。相反,在行动或开发最终产出之前,明确对理解模型进行了训练,从而使思维链中的思维扩展。在这些系统中,思维链可以用作模型计算中的潜在变量。在刺激阶段,这些致命状态将以与活性状态相同的方式处理,而不是直接管理,但不会直接通过其对自举模型的贡献来优化以获得高度奖励的最终答案。因此,作为激活状态,思维链可能包含一些信息,模型的输出将阻止显示此信息在明确的奖励机制下方,例如避免显示有关不法行为的目标。它为AI安全提供了独特的机会 - 监视思维链。思维监视链是一个自动化系统,可以阅读思想链和其他相关信息模型识别的链条,并可能标志着可疑的响应或潜在有害的响应。这些答案可以被更安全的操作拦截或取代。通过研究思维链,人们可以更深入地了解AI代理人的思维方式和目标。但是,对链监测的思考不是灵丹妙药。在特定层中激活模型的状态如何代表整个预言背后的过程,精神链的推理是不完整的表示,并且可能偏离语言的自然表达。但是,对于思维链而言,无需完全证明实际的推理过程,因此它可以是在仔细参考此阅读的同时,安全性也可以揭示AI推理过程。可以监控思维链的原因是基于以下两个主要原因:首先,有时他们应该“表现出思维”。在某些任务中,这些模型需要能够导出自己的流程,因为如果没有思维链,它们就无法完成这些任务。如果该模型始终是自然语言的原因,并且表明最严重的行为需要长期推理的行为,则此功能可能使人们能够以不当行为可靠。其次,有时倾向于“展示思维”。尽管模型在完成任务时并不严格考虑链条,但它们仍然可以揭示推理过程。尽管这种趋势并不总是稳定且可靠的,但是基于这种趋势的监视仍然有可能看到使用其他方法难以捉摸的不当行为。执行困难的任务时,“表现出来”是必要的。虽然AI模型可以承担各种风险,通常必须具有“更先进的功能”来带来更严重的风险。即使没有任何安全措施,当前的AI模型也不太可能对网络进行复杂的攻击,也不可能没有注意到自己的体重参数。当AI模型可能造成高于伤害的情况时,这意味着它们可能具有复杂的计划和推理能力。实现上述功能的一个基本要求是具有工作记忆:此功能取决于系统来存储中间识别结果,以支持进一步的概念和处理存储的信息。在几乎所有AI切割模型使用的变压器架构中,任何应该足够的正在进行的认知步骤链都应该在某个时候贯穿思维链。从理论上讲,这意味着使用PA椅子的使用将显着增强变压器模型capabilities。 。但是,它不能保证人们可以理解这些信息。想象一下,AI模型可以使这些令牌完全不同,使人们无法阅读,这将阻止大多数人类监视的尝试。但是,在实践中,模型在预训练期间学习了强大的“自然语言”,因此他们可能以类似于使用自然语言的人的方式使用思维链。因此,本文档认为当前的AI模型具有外部推理的特征:也就是说,对于足够困难的任务,变压器模型应将思维链用作工作记忆的形式之一。默认情况下,人们可以理解这是一个想法。但是,推理的明确属性不能保证监视。这仅表明思维链中有一些理由,但是可能没有其他相关的理由认为没有。因此,即使对于某些艰巨的任务,也有可能思维链仅包含看似无害的推理,而那些恶意的人则被隐藏。此外,此外部推理功能可能不会应用于将来的模型。基于此,该文件指出,继续检查切割模型的监视很重要。此外,该文件指出,最严重的伤害是如果需要复杂的推理,这仍然是一个悬而未决的问题。尽管该文件认为,面对最坏的风险,模型是Malamthat需要复杂的推理,尤其是那些“该模型需要事先计划并试图避免发现的风险”,例如自我渗透或破坏。但是,并非所有危险行为都需要通过推理执行,尤其是如果模型定期开始,高风险任务的数量增加。通常可以在实践中监控思考链。实际上,对链监测的思考对人的安全研究产生了积极影响y尊重。首先是查看模型行为的不符合。当对模型进行建模时,例如在培训过程中利用奖励弱点,数据操纵以获得特定的结果或受到注射攻击的影响,它们通常在推理轨迹中清楚地表明,包括但不限于“让它介入”,“让我进行干预”或“让我移动”或“我动了钱,因为网站移动了我的网站,因为网站教我要这么做。”为了思考链监测,它可能会更有效地获得不正确的情况,而不是监视模型行为。第二个是发现有关偏差的早期信号。当模型假装有合理的目标来追求不同意人的目标时,通常会在他们的思维链中看到这。因此,尽管该模型并没有采取任何与人类意图不一致的行动,但对思维链的监视可以使人们对模型目标和动机有一个早期的看法。再次,这是发现M中的缺陷ODEL分析。对大型AHN的审查有时会受到记忆或错误失败的影响,例如对代理商,工具和检查基础设施的错误的影响。此外,这些模型意识到它们是评估的,这可能会影响它们的行为方式。目前,检查理解的轨迹将有助于人们确定评论的结果是否在实际部署模型时是否真的反映了模型的行为。目前尚不清楚的是:监视这些示例中发现的思维链的比例是多少,这些示例源自该模型在特定任务中“展示思维”的需求?它的趋势来自什么比例?该文件认为,未来的模型可能会出现在隐藏其推理过程的动机中,这可能会压倒任何天然的缝纫物。例如,模型可能会意识到其理解过程已受到监控,或者辅助培训目的可能导致模型跳过进口蚂蚁的理解步骤。即使模型“展示思维”的模型开始削弱,但在很难思考的推理链中,对链条监控的思考仍然可以成为发现不当行为的有效工具。 。本文档认为,监视识别模型的思维链可能取决于当前切割模型实践的方式。跟踪思维链可以在许多方面削弱。为了进一步扩展加固的教育规模,它将偏离清晰明亮的思维链。在先前的PAR“基于预训练后的人类反馈中重新引入的学习”中,几乎所有优化压力都来自人类产生或由人类检查的数据。缺乏“严重依赖基于结果理解模型”的范式是,如果用于理解培训的计算资源已得到高度改进,解释可能不再有效。从人类数据到其他数据的过渡对于更改监视思维链可能很重要。例如,以前的研究表明,基于结果的巨大奖励的语言模型可能会偏离明确的英语表达。就直接管理思想链而言,当模型通过基于结果的研究训练模型时,无论他们面积如何,他们都只会获得正确的输出的奖励。这意味着除了帮助提出正确的答案之外,他们的推理过程不会受到任何压力的影响。但是,为了处理该过程,它还涉及直接塑造推理过程,例如心理链的收缩,采用有效的合理措施,按照某种风格或预防整合冒犯性内容等。对于精神链而言,这种优化可能会准确地反映模型的决策过程。就是说,处理该过程还可以使模型以更安全的方式进行推理,从而使他们可以监视难以评估的任务。关于这一点,该文件指出需要进一步研究未来,以了解“安全应用程序中的功能及其对监视思维链的影响”之间的权衡。至于优化思维链的间接压力,即使不是直接从思维链中计算出奖励,模型训练仍然可以对思维链构成压力。例如,如果要优化最终输出以满足首选模型的标准,则生成的模型链的重量部分分布在生成的输出的重量中,则可能会对构成最终输出的思维链思维构成一定的压力。实际上,它在变压器体系结构中很常见。而且,如果向“为模型的大量产出的人类用户展示了思维链”,它也会影响k然后,Agushuman用户在奖励模型中进行了改进,以创建不依赖思维链的基于结果的培训过程。同样,如果您使用链监测来识别和修补训练环境中操纵奖励的弱点,可以在许多培训的思维链中施加“进化压力”。该文档指出,大型模型只能在使用心理链时执行复杂的多步推理,这可能是由变压器体系结构限制引起的。最近,根据识别模型对正在进行的潜在空间的识别,在域内探索了模型体系结构的改进。目前,理解模型可能不需要用语言来表达其任何想法,因此思维链带来的安全益处将丢失。 。该文件指出,人们当前对监控思维链的理解仍在童年。在人们可以确信可以将思维链用作安全建议之前,还有很多问题要回答。例如,如何检查思维链的跟踪?过去,研究表明,使用对诚实的评估作为监测量度。但是,这些评估没有区分释放其推理的模型的趋势和需求,这些评估通常被视为简单的答案设置。此外,在特定区域内,尚不清楚哪种监视水平足以确保模型安全。萨明(Samin)事实,该文件认为应探讨新的评估方法:它包括与直接测量监视的相同方法以及针对构成监视的特定属性的方法。在本文档中,那些设置了四个程序示例的人:第一种方法是评估阅读思维链的一种方法,例如使用另一个模型评估代理商思维链的清晰度和连贯性。第二种方法是评估潜在的推理能力。这种类型的评估可以评估模型对各种高填充需求和代理活动的表现的看法,而不会外部化产出。第三种方法是衡量思维链关系的原因。例如,您可以避免打呼式链之一,然后观察它是否会影响最终输出。如果变化的输出率很低,则可能表明思维链更倾向于“小说”表达或“性能”表达式。还可以为思维监视器的链链进行跨验证,以检查是否可以通过思维监视器链被认为是重要的令牌,可以将其标识为解释白盒子的方法的关键。第四种方法是端到端的可监视性分析。使用此过程可以直接测量例如,通过评估思维链监视器的有效性来监视思维的有效性,以在代理环境中获得代理商的不当行为。因此,如何判断监视思维链是否足以用作安全建议? AOF文件指出,只有了解监视器的准确性不足以确定是否有效地避免了代理商的不当行为。例如,即使警报率很高的监视器,如果可以从低成本模型中居住,也可以使用它来标记行为的削弱。此外,大多数风险可能是在诸如攻击人员或错误代理等螺旋体之类的情况下试图避免监视的情况。因此,在检查监测的有效性时,应考虑敌人。例如,红色团队可以参与并尝试对安全措施进行压力测试。这里的红色团队是指特别负责评估和改进的团队或测试程序模型的安全性,也就是说,通过限制恶意攻击,剥削系统弱点或挑战模型边界,发现模型的风险和弱点。此外,训练时间的哪种压力优化时间减少了对思维链的监测?该文件指出,培训过程的性质可能会对监视产生重大影响。但是,今天人们不知道的是:允许哪种类型存在而没有大幅下降的监测?直接和间接优化压力的范围是什么?接下来,该模型真的因其推理过程而模糊吗?当使用链链监控作为安全性建议时,一个明显的担忧是:如果该模型知道其思维链受到监控,那么保持UPIS比链条链更难?该文件指出,人们可以强调测试模型,以查看他们是否可以在无需训练思维链监视器的情况下隐藏恶意推理。同时,哪种类型架构的监视会减少对思维链的监视?引起连续的潜在空间的模型,即使没有任何压力,也自然会限制人们对思想过程的理解。那么,人们应该学习什么:在多大程度上不标准化监视?在什么条件下仍然可以保持一些跟踪?例如,在使用混合混合方法使用潜在计算的同时,可以在识别过程中保持略微的可见性。此外,如何构建更大的链链链监视器?该文件指出,行业内部人士应专注于使用零样本信号,以使弱语言模型充当监视器。它还指出,将来,人们可以通过使用测试时间计算来探索改善监视器的性能。例如,监视器可能基于理解模型,或者允许他们通过询问代理商来询问它们。该文件还指出探索的另一个方向涉及对手对监视器的培训,以与试图隐藏错误行为的代理商作战。 。如果解释了高度智能的AI代理,那么它们带来的许多风险就更容易解决。尽管人们在NG应用机制的解释性方面做出了重大发展,但仍需要额外的努力将其更改为可靠且实用的工具以修复大型代理。鉴于监视思维链带来的独特机会,该文件认为行业的内部人员应该:首先,制定对思维链的有效监控,即开发和统一的标准评估方法和指标,以阐明思维链是否充分监测。其次,当存在此类测试时,应该发布系统描述卡的结果。当使用可靠的思维链考试方法时,开发人员应在其模型中运行这些评论rly并报告审查结果,所使用的方法以及paging the模型系统卡的限制将描述并重复此操作,除非在这种审查被证明是缺乏特定使用情况下的安全金额之前。同样,跟踪分数应用于培训和部署决策中,也就是说,开发人员应考虑在培训或删除特定模型时考虑其他安全功能和考试的考虑范围。这些决定需要基于一般风险评估,该评估应包括监视思维链,跟踪系统的性能特征以及误认为模型的趋势的估计。另一个潜在的干预措施是,开发人员希望看到思维链,使人类用户发现并报告问题。但是,它也可以具有抗生产力影响:它会带来太大的压力,以至于迫使人们直接监视思维链以使其“ L“安全”并试图避免常见的法律和道德风险,这可能会破坏监视链。在这方面,设置本文件的人说,他们目前不会对此提出任何明确的建议。监视思维链是一种补充解决方案,而不是替代解决方案,而不是一种替代解决方案。在不关注链条的过程中,人们对某些链条进行了一些限制,这些链接的行为是在某些情况下进行的。如果在激活期间可能会出现恶意的,那么即使模型没有明显的恶性推理,预言的结果可能会偏向ROUS活动可能不需要很多推理,并且由于模型在激活过程中可能执行更复杂的推理,因此越来越少的活动可以满足理解的外部特征。随着更高级的模型具有更好的情境意识,监控链条可能会停止工作。因此,未来的模型可以避免通过抑制其“表现思维”的趋势来发现,当需要理解时推理的原因非常模糊。而且,如果应保持当前链条思维的现有模式,则可能以更有效的安全干预为代价。尽管这种观点尚未与该行业达成协议,但本文档认为某些形式的过程管理具有有效的干预措施,可以反对模型理解,从而显着改善了模型的一致性。因此,如果开发人员采用的策略仅专注于Monitor的绝对维护g现有思维链的形式,这种安全干预措施的潜在价值可能会错过。由于这些原因,本文档建议将思维链的方法用作现有安全研究方向的补充,而不是替代方案。应当指出的是,所有管理方法和监管方法都有局限性,这将使一些不当行为“后续鱼”。因此,可能需要多个监视层来为未来的代理创建安全措施,并且这些监视层最好以无关的故障模式。通常,思维链监测为AI安全措施提供了重要的补充,使人们瞥见了AI代理的决定。但是,该文件指出,当前思维链的可见性可能会持续下去。因此,行业内部人士应使用思维链,并研究如何维护其监控。参考:https://techcrunch.com/2025/07/15/research-leaders-urge-tech-ustry-to-onitor-ais-doought/https://tomekkorbak.com/cot-monitorebility-is-fragile-pportun y/cot_monitoring.pdfhitsps: //Venturebeat.com/ai/openai-mogogle-deepmind-and-thropic-sound-sam-w-bay----fosing-the-能力to-nderstand-i/operation/TypeType:He Chenlong