OpenAI推出新一代安全 AI 模型 o3 和 o3-mini

2025-01-09

OpenAI发布新一代AI模型o3和o3-mini，强调安全性和可解释性

OpenAI近日发布了一项全新的研究成果，宣布推出其最新一代的AI模型o3和o3-mini，这两个模型在安全性、可解释性和性能方面都取得了突破性的进展。

这项未经同行审阅的研究表明，OpenAI采用了一种名为“谨慎对齐”的新方法来训练o3系列模型。这种方法有效增强了模型在安全基准测试上的表现，减少了有害输出，并确保了模型更好地遵循内容和风格指南。研究发现，o3系列模型相比于前一代模型GPT-4等现有最先进的模型表现更为出色。

“谨慎对齐”使o3系列模型能够更好地抵抗攻击和提供安全完成结果，同时最大程度地避免在良性提示上的拒绝回复。此外，这种方法还促进了模型在不同数据类型下的泛化能力，展示了其在多语言和编码攻击场景中的稳健性。

OpenAI强调，这一研究成果与其目标一致：开发安全且可解释的AI系统，随着AI技术能力不断提升，确保其安全使用至关重要。这项研究也将为o3和o3-mini模型提供指导，确保它们拥有强大而负责任的能力。

申请测试o3和o3-mini的机会

目前，OpenAI已在官网开放申请测试o3和o3-mini的资格。截止日期为2025年1月10日。申请者需要填写线上表格，提供研究方向、以往经验、代码仓库链接等信息，并选择希望测试的模型以及应用场景。

最终选中的研究人员将获得测试o3和o3-mini的权限，参与安全评估工作。OpenAI鼓励研究人员开发完善的评估方法，进行高风险能力的控制展示，以及在无法通过现有工具实现的情景下进行模型测试。

这个项目的启动标志着人工智能领域迈向了新的里程碑。 o3和o3-mini 的强大性能和安全性将为人工智能的发展带来新的可能性，同时也再次强调了 OpenAI 对安全性和责任感的重视。