每经编辑:毕陆名
今天(17日)凌晨1点,OpenAI进行了技术直播发布了最新模型——GPT-4.1。
图片来源:视频截图
除了GPT-4.1之外,还有GPT 4.1-Mini和GPT 4.1-Nano两款模型,在多模态处理、代码能力、指令遵循、成本方面实现大幅度提升。特别是支持100万token上下文,这对于金融分析、小说写作、教育等领域帮助巨大。
图片来源:OpenAI官网截图
由于GPT-4.1的发布,OpenAI宣布将会淘汰刚发布不久的GPT-4.5,其能力可见一斑。
目前,如果想体验GPT-4.1而无法通过API身份验证的小伙伴,微软已经在Azure OpenAI上线了该模型,可以使用了。
GPT-4.1有什么亮点?
GPT-4.1最大亮点之一就是支持100万tokens上下文,这也是OpenAI首次发布长窗口模型。
与前代模型相比,GPT-4.1、GPT-4.1 Mini和GPT-4.1 Nano能够处理多达100万tokens的上下文,是GPT-4o的8倍。
OpenAI在Long Context Evals上对长文本进行了测试,测试结果显示,GPT-4.1系列的三个模型均能够在语料库的任何深度找到目标文本,无论是开头、中间还是结尾,甚至在长达100万tokens的上下文中,模型依然能够准确地定位目标文本。
OpenAI还在Multi-Round Coreference进行了测试,通过创建合成对话来测试模型在长上下文中的理解和推理能力。在这些对话中,用户和助手交替进行对话,用户可能会要求模型生成一首关于某个主题的诗,接着要求生成另一首关于不同主题的诗,然后可能要求生成一个关于第三个主题的短故事。模型需要在这些复杂的对话中找到特定的内容,例如“第二篇关于某个主题的短故事”。
测试结果显示,GPT-4.1在处理长达128K tokens的数据时显著优于GPT-4o,并且在长达100万tokens的上下文中依然能够保持较高的性能。
在编码能力测试中,SWEBench评估将模型置于Python代码库环境,让其探索代码库、编写代码和测试用例。结果显示,GPT-4.1的准确率达到55%,而GPT-4o仅为33%。
在多语言编码能力测试方面,Ader polyglot基准测试涵盖多种编程语言和不同格式要求。GPT-4.1在差异性能上较GPT-4o提升一倍,在处理多语言编程任务、代码优化和版本管理时更高效。
在指令遵循能力测试中,OpenAI构建内部评估体系,模拟API开发者使用场景,测试模型对复杂指令的遵循能力。每个样本包含分属不同类别的复杂指令,并分难度等级。在困难子集评估中,GPT-4.1远超GPT-4o。
在多模态处理测试的视频MME基准测试中,GPT 4.1对30-60分钟无字幕视频进行理解并回答多项选择题,取得72%的成绩,达到当前最佳水平,在视频内容理解上实现重大突破。
价格方面,GPT-4.1系列在性能提升的同时,价格更具竞争力。GPT-4.1相比GPT-4o价格降低26%,而GPT-4.1 Nano作为最小、最快且最便宜的模型,每百万token的成本仅为12美分。
自2022年底推出火爆的ChatGPT聊天机器人以来,OpenAI一直在迅速升级其模型,使其远远超越文本,进入图像、语音和视频领域。该公司正努力在生成式人工智能领域保持领先地位,在这一领域,它面临着来自谷歌、Anthropic和马斯克的xAI等竞争对手的激烈竞争。
OpenAI写道:“我们的推理模型第一次可以独立使用所有ChatGPT工具——网页浏览、Python、图像理解和图像生成。”“这有助于他们更有效地解决复杂的、多步骤的问题,并迈出独立行动的真正步骤。”
该公司在上个月的一轮融资中估值为3000亿美元。该公司表示,o3和o4-mini是其首批能够“用图像思考”的人工智能模型。根据OpenAI的说法,这意味着“它们不仅可以看到图像,还可以将视觉信息直接整合到推理链中。”
每日经济新闻综合OpenAI
每日经济新闻
AI驱动的云与自动驾驶,被百度视为新的增长引擎,而这一战略,在今年一季度财报中得到了验证。5月21日晚,百度发布2025年第一季度财报,显示一季度总营收达325亿元,百度核心营收255亿元,同比增长7%,均超市场预期。一季度,百度核心净利润同比增48%至76.3亿元,智能云持续强劲增长,同比增速达4
闭上双眼单腿站立你能站多久?如果你尝试过单腿站立就会发现保持平衡并非易事与血压、血脂、血糖等一样,平衡力其实是衡量健康的一项重要指标,甚至能反映长寿与否、大脑认知功能水平以及心脑血管系统的潜在问题。平衡力涉及本体感觉、大脑对外界的判断,以及力量使用和自身调节,与衰老直接相关。此检测不仅可用于评估衰老
DeepSeek的横空出世,为AI行业注入了新的变量。它凭借开源可用、低成本调用的特性,大幅降低了大模型技术的使用门槛,加速了AI能力向各行各业的渗透。在这场算力“民主化”运动中,成千上万的微型智算节点正不断涌现,推动教育、医疗、交通、公安、科研等领域纷纷建设属于自己的中小规模智算中心。AI不再只是
隆基绿能在反思中寻找突破口。2024年其业绩下滑,并遭遇史上最严重亏损。今年一季度,业绩续亏但较2024年同期收窄。“外因是行业供需失衡,开工率不足,光伏产品价格持续下跌。行业技术快速迭代,PERC产能淘汰带来资产减值。内因是我们经营管理中诸多失策的积累。”隆基绿能董事长钟宝申在《致股东的信》中坦言
封面新闻记者 马梦飞5月7日,知名鞋类公司斯凯奇即将“卖身”退市的消息引发热议。据悉,该交易预计将于今年第三季度完成,交易完成后该公司普通股将不再于纽交所上市。斯凯奇公告当地时间5日,美国第三大鞋类公司斯凯奇公告,同意被3G资本收购。3G资本将以每股63美元、总额90多亿美元的价格收购斯凯奇,较公司
小米、雷军冲上热搜。根据天眼查App显示,近日,小米之家商业有限公司发生工商变更,雷军由执行董事改任董事,同时经营范围新增智能家庭消费设备销售、美发饰品销售。资料显示,该公司成立于2017年6月,法定代表人为孙波,注册资本1亿人民币,经营范围包括通讯设备销售、通信设备销售、计算机软硬件及辅助设备批发
“五一”国际劳动节之际,我国首条“电力天路”青藏联网拉萨换流站扩建工程换流变及换流阀安装调试完成,为确保工程今年9月投运打下基础。据介绍,换流变及换流阀是直流输电工程的核心主设备,相当于人体的“大脑”和“心脏”,本次扩建新增换流变压器7台,换流阀每极新增1组12脉动阀组。拉萨换流站是我国首个整站扩建
5月2日,国农金融投资(08120)盘中上涨17.86%,截至09:30,报0.495元/股,成交127.63万元。国农金融投资有限公司的主营业务包括放债业务、金融服务业务、证券投资业务、食品及饮品业务、酒精饮料分销及杂项业务以及提供孩童教育服务。该公司股份在香港联合交易所有限公司创业板上市。截至2