OpenAI，大动作！

0次浏览发布时间：2025-04-17 07:13:00

每经编辑：毕陆名

今天（17日）凌晨1点，OpenAI进行了技术直播发布了最新模型——GPT-4.1。

图片来源：视频截图

除了GPT-4.1之外，还有GPT 4.1-Mini和GPT 4.1-Nano两款模型，在多模态处理、代码能力、指令遵循、成本方面实现大幅度提升。特别是支持100万token上下文，这对于金融分析、小说写作、教育等领域帮助巨大。

图片来源：OpenAI官网截图

由于GPT-4.1的发布，OpenAI宣布将会淘汰刚发布不久的GPT-4.5，其能力可见一斑。

目前，如果想体验GPT-4.1而无法通过API身份验证的小伙伴，微软已经在Azure OpenAI上线了该模型，可以使用了。

GPT-4.1有什么亮点？

GPT-4.1最大亮点之一就是支持100万tokens上下文，这也是OpenAI首次发布长窗口模型。

与前代模型相比，GPT-4.1、GPT-4.1 Mini和GPT-4.1 Nano能够处理多达100万tokens的上下文，是GPT-4o的8倍。

OpenAI在Long Context Evals上对长文本进行了测试，测试结果显示，GPT-4.1系列的三个模型均能够在语料库的任何深度找到目标文本，无论是开头、中间还是结尾，甚至在长达100万tokens的上下文中，模型依然能够准确地定位目标文本。

OpenAI还在Multi-Round Coreference进行了测试，通过创建合成对话来测试模型在长上下文中的理解和推理能力。在这些对话中，用户和助手交替进行对话，用户可能会要求模型生成一首关于某个主题的诗，接着要求生成另一首关于不同主题的诗，然后可能要求生成一个关于第三个主题的短故事。模型需要在这些复杂的对话中找到特定的内容，例如“第二篇关于某个主题的短故事”。

测试结果显示，GPT-4.1在处理长达128K tokens的数据时显著优于GPT-4o，并且在长达100万tokens的上下文中依然能够保持较高的性能。

在编码能力测试中，SWEBench评估将模型置于Python代码库环境，让其探索代码库、编写代码和测试用例。结果显示，GPT-4.1的准确率达到55%，而GPT-4o仅为33%。

在多语言编码能力测试方面，Ader polyglot基准测试涵盖多种编程语言和不同格式要求。GPT-4.1在差异性能上较GPT-4o提升一倍，在处理多语言编程任务、代码优化和版本管理时更高效。

在指令遵循能力测试中，OpenAI构建内部评估体系，模拟API开发者使用场景，测试模型对复杂指令的遵循能力。每个样本包含分属不同类别的复杂指令，并分难度等级。在困难子集评估中，GPT-4.1远超GPT-4o。

在多模态处理测试的视频MME基准测试中，GPT 4.1对30-60分钟无字幕视频进行理解并回答多项选择题，取得72%的成绩，达到当前最佳水平，在视频内容理解上实现重大突破。

价格方面，GPT-4.1系列在性能提升的同时，价格更具竞争力。GPT-4.1相比GPT-4o价格降低26%，而GPT-4.1 Nano作为最小、最快且最便宜的模型，每百万token的成本仅为12美分。

自2022年底推出火爆的ChatGPT聊天机器人以来，OpenAI一直在迅速升级其模型，使其远远超越文本，进入图像、语音和视频领域。该公司正努力在生成式人工智能领域保持领先地位，在这一领域，它面临着来自谷歌、Anthropic和马斯克的xAI等竞争对手的激烈竞争。

OpenAI写道：“我们的推理模型第一次可以独立使用所有ChatGPT工具——网页浏览、Python、图像理解和图像生成。”“这有助于他们更有效地解决复杂的、多步骤的问题，并迈出独立行动的真正步骤。”

该公司在上个月的一轮融资中估值为3000亿美元。该公司表示，o3和o4-mini是其首批能够“用图像思考”的人工智能模型。根据OpenAI的说法，这意味着“它们不仅可以看到图像，还可以将视觉信息直接整合到推理链中。”

每日经济新闻综合OpenAI

每日经济新闻

本文分类：实时讯息
本文标签：模型测试能力图像该公司代码指令上下文
浏览次数：0 次浏览
发布日期：2025-04-17 07:13:00
本文链接：https://m.yebk.net/news/MYvrXlV1NB.html

导航栏

OpenAI，大动作！