每经编辑:毕陆名
今天(17日)凌晨1点,OpenAI进行了技术直播发布了最新模型——GPT-4.1。
图片来源:视频截图
除了GPT-4.1之外,还有GPT 4.1-Mini和GPT 4.1-Nano两款模型,在多模态处理、代码能力、指令遵循、成本方面实现大幅度提升。特别是支持100万token上下文,这对于金融分析、小说写作、教育等领域帮助巨大。
图片来源:OpenAI官网截图
由于GPT-4.1的发布,OpenAI宣布将会淘汰刚发布不久的GPT-4.5,其能力可见一斑。
目前,如果想体验GPT-4.1而无法通过API身份验证的小伙伴,微软已经在Azure OpenAI上线了该模型,可以使用了。
GPT-4.1有什么亮点?
GPT-4.1最大亮点之一就是支持100万tokens上下文,这也是OpenAI首次发布长窗口模型。
与前代模型相比,GPT-4.1、GPT-4.1 Mini和GPT-4.1 Nano能够处理多达100万tokens的上下文,是GPT-4o的8倍。
OpenAI在Long Context Evals上对长文本进行了测试,测试结果显示,GPT-4.1系列的三个模型均能够在语料库的任何深度找到目标文本,无论是开头、中间还是结尾,甚至在长达100万tokens的上下文中,模型依然能够准确地定位目标文本。
OpenAI还在Multi-Round Coreference进行了测试,通过创建合成对话来测试模型在长上下文中的理解和推理能力。在这些对话中,用户和助手交替进行对话,用户可能会要求模型生成一首关于某个主题的诗,接着要求生成另一首关于不同主题的诗,然后可能要求生成一个关于第三个主题的短故事。模型需要在这些复杂的对话中找到特定的内容,例如“第二篇关于某个主题的短故事”。
测试结果显示,GPT-4.1在处理长达128K tokens的数据时显著优于GPT-4o,并且在长达100万tokens的上下文中依然能够保持较高的性能。
在编码能力测试中,SWEBench评估将模型置于Python代码库环境,让其探索代码库、编写代码和测试用例。结果显示,GPT-4.1的准确率达到55%,而GPT-4o仅为33%。
在多语言编码能力测试方面,Ader polyglot基准测试涵盖多种编程语言和不同格式要求。GPT-4.1在差异性能上较GPT-4o提升一倍,在处理多语言编程任务、代码优化和版本管理时更高效。
在指令遵循能力测试中,OpenAI构建内部评估体系,模拟API开发者使用场景,测试模型对复杂指令的遵循能力。每个样本包含分属不同类别的复杂指令,并分难度等级。在困难子集评估中,GPT-4.1远超GPT-4o。
在多模态处理测试的视频MME基准测试中,GPT 4.1对30-60分钟无字幕视频进行理解并回答多项选择题,取得72%的成绩,达到当前最佳水平,在视频内容理解上实现重大突破。
价格方面,GPT-4.1系列在性能提升的同时,价格更具竞争力。GPT-4.1相比GPT-4o价格降低26%,而GPT-4.1 Nano作为最小、最快且最便宜的模型,每百万token的成本仅为12美分。
自2022年底推出火爆的ChatGPT聊天机器人以来,OpenAI一直在迅速升级其模型,使其远远超越文本,进入图像、语音和视频领域。该公司正努力在生成式人工智能领域保持领先地位,在这一领域,它面临着来自谷歌、Anthropic和马斯克的xAI等竞争对手的激烈竞争。
OpenAI写道:“我们的推理模型第一次可以独立使用所有ChatGPT工具——网页浏览、Python、图像理解和图像生成。”“这有助于他们更有效地解决复杂的、多步骤的问题,并迈出独立行动的真正步骤。”
该公司在上个月的一轮融资中估值为3000亿美元。该公司表示,o3和o4-mini是其首批能够“用图像思考”的人工智能模型。根据OpenAI的说法,这意味着“它们不仅可以看到图像,还可以将视觉信息直接整合到推理链中。”
每日经济新闻综合OpenAI
每日经济新闻
2025中国(长春)航天太空科普展,7月11日将在长春农博园盛大开幕! 今天,咱们就盘一盘这里,都有啥好玩的、好逛的。 从农博园10号门进场,检票后,进入4号馆,开启一场与星辰大海的浪漫邂逅。 4号馆:国之重器 蓝天利刃 刚进展区,序言部分就像一本翻开的历史书,讲述着中国航天从嫦娥奔月的绮梦
文 | 光子星球隔壁阿里Qwen3刷新模型记录,字节豆包全家桶打折甩卖。资本和市场就像两个无形的手,让大模型六小虎们(月之暗面、智谱AI、MiniMax、阶跃星辰、百川智能、零一万物)不敢再沉寂下去。智谱宣布获得浦东创投集团和张江集团联合10亿元人民币的战略投资,并开源新一代视觉语言大模型GLM-4
7月7日,冠捷显示科技(咸阳)有限公司生产车间的生产线上,工人有条不紊地工作。 记者 李欣泽摄如今,从画质清晰、价格亲民的国产电视,到满足各种需求、应用于不同领域的电子屏幕,市场上一应俱全,这背后是怎样的科技支撑?7月7日,记者参与“活力中国调研行·万千气象看陕西”主题采访活动,来到位于咸阳高新区的
本报讯 7月3日,阳曲县在阳兴公园组织开展防范强降雨地质灾害应急演练。该县地质灾害防治工作领导小组成员单位负责人、九乡(镇)政府及社区负责人参加演练,山西省煤炭地质水文勘查研究院有限公司地质灾害巡查队协同演练。 此次演练的模拟“阳曲县黄寨镇黄寨村新阳楼坡体崩塌”地质灾害隐患点因持续强降雨影响,
来源:【河北经济日报】本报讯(通讯员魏立涛)近日,从河北保津高速公路有限公司收费部门了解到,上半年,该公司各收费站采用“高速+企业”模式积极走访驻地周边生产、物流、景区等企业,签署合作协议,与企业深度融合引流增收。上半年来自周边企业的车流量增长80%以上,既降低了企业成本,又为津雄高速公路增加了效益
顶端新闻记者 杨雪情/文 宋亚猛 时硕 李思翰 宋若旻/图在媒体融合的路上,南太湖号如何来做运营?7月3日,“端”上干货——2025主流媒体客户端顶端交流会现场,浙江省湖州市新闻传媒中心科技研发部副主任汪书杰从用户运营、产品运营和数据运营方面进行了分享。以用户运营实现拉新促活。汪书杰表示,以用户思维
今年以来,旬阳市市场监督管理局紧扣干部作风能力建设,以年轻干部为重点,精心打造内修外练“三堂课”,精准提振年轻干部“精气神”。以“理论课”铸魂,打好履职“基本功”搭建讲学互促平台。以“市场监管大讲堂”为载体,鼓励年轻干部和中层骨干围绕主责主业讲理论、谈业务、亮举措,通过“以讲促学,以学促干”实现能力
【大河财立方消息】天眼查App显示,近日,罗马仕关联公司深圳罗马仕科技有限公司发生工商变更,雷社杏卸任法定代表人、董事、经理,由雷杏容接任。该公司成立于2012年3月,注册资本600万人民币,经营范围包括国内贸易、汽车零配件批发、电子产品配件及原材料的销售等,由雷桂斌、雷灿伙共同持股。责编:李文玉