每经编辑:毕陆名
今天(17日)凌晨1点,OpenAI进行了技术直播发布了最新模型——GPT-4.1。
图片来源:视频截图
除了GPT-4.1之外,还有GPT 4.1-Mini和GPT 4.1-Nano两款模型,在多模态处理、代码能力、指令遵循、成本方面实现大幅度提升。特别是支持100万token上下文,这对于金融分析、小说写作、教育等领域帮助巨大。
图片来源:OpenAI官网截图
由于GPT-4.1的发布,OpenAI宣布将会淘汰刚发布不久的GPT-4.5,其能力可见一斑。
目前,如果想体验GPT-4.1而无法通过API身份验证的小伙伴,微软已经在Azure OpenAI上线了该模型,可以使用了。
GPT-4.1有什么亮点?
GPT-4.1最大亮点之一就是支持100万tokens上下文,这也是OpenAI首次发布长窗口模型。
与前代模型相比,GPT-4.1、GPT-4.1 Mini和GPT-4.1 Nano能够处理多达100万tokens的上下文,是GPT-4o的8倍。
OpenAI在Long Context Evals上对长文本进行了测试,测试结果显示,GPT-4.1系列的三个模型均能够在语料库的任何深度找到目标文本,无论是开头、中间还是结尾,甚至在长达100万tokens的上下文中,模型依然能够准确地定位目标文本。
OpenAI还在Multi-Round Coreference进行了测试,通过创建合成对话来测试模型在长上下文中的理解和推理能力。在这些对话中,用户和助手交替进行对话,用户可能会要求模型生成一首关于某个主题的诗,接着要求生成另一首关于不同主题的诗,然后可能要求生成一个关于第三个主题的短故事。模型需要在这些复杂的对话中找到特定的内容,例如“第二篇关于某个主题的短故事”。
测试结果显示,GPT-4.1在处理长达128K tokens的数据时显著优于GPT-4o,并且在长达100万tokens的上下文中依然能够保持较高的性能。
在编码能力测试中,SWEBench评估将模型置于Python代码库环境,让其探索代码库、编写代码和测试用例。结果显示,GPT-4.1的准确率达到55%,而GPT-4o仅为33%。
在多语言编码能力测试方面,Ader polyglot基准测试涵盖多种编程语言和不同格式要求。GPT-4.1在差异性能上较GPT-4o提升一倍,在处理多语言编程任务、代码优化和版本管理时更高效。
在指令遵循能力测试中,OpenAI构建内部评估体系,模拟API开发者使用场景,测试模型对复杂指令的遵循能力。每个样本包含分属不同类别的复杂指令,并分难度等级。在困难子集评估中,GPT-4.1远超GPT-4o。
在多模态处理测试的视频MME基准测试中,GPT 4.1对30-60分钟无字幕视频进行理解并回答多项选择题,取得72%的成绩,达到当前最佳水平,在视频内容理解上实现重大突破。
价格方面,GPT-4.1系列在性能提升的同时,价格更具竞争力。GPT-4.1相比GPT-4o价格降低26%,而GPT-4.1 Nano作为最小、最快且最便宜的模型,每百万token的成本仅为12美分。
自2022年底推出火爆的ChatGPT聊天机器人以来,OpenAI一直在迅速升级其模型,使其远远超越文本,进入图像、语音和视频领域。该公司正努力在生成式人工智能领域保持领先地位,在这一领域,它面临着来自谷歌、Anthropic和马斯克的xAI等竞争对手的激烈竞争。
OpenAI写道:“我们的推理模型第一次可以独立使用所有ChatGPT工具——网页浏览、Python、图像理解和图像生成。”“这有助于他们更有效地解决复杂的、多步骤的问题,并迈出独立行动的真正步骤。”
该公司在上个月的一轮融资中估值为3000亿美元。该公司表示,o3和o4-mini是其首批能够“用图像思考”的人工智能模型。根据OpenAI的说法,这意味着“它们不仅可以看到图像,还可以将视觉信息直接整合到推理链中。”
每日经济新闻综合OpenAI
每日经济新闻
川观新闻记者 祖明远 绵阳观察 郭超英 摄影【企业故事】8月30日星期六,四川东材科技集团股份有限公司(以下简称“东材科技”)的办公室里,该公司副总经理周友正在研究完善一项新的激励政策,其核心点在于提升技术研发团队分享先进产品效益。“鼓励创新,激励要跟上。我们通过技术创新奖、利润提成等多种方式,让研
随着AI人工智能技术和应用的蓬勃发展,各类AI工具已经成为我们日常工作和生活的助手,不知不觉间,我们的生活开始与人工智能密切联系。当AI信息“不靠谱” 网民如何断真假?不过近年来,不少网民发现,部分人工智能的回答开始有些不靠谱。先看两个案例:今年上半年,宁波发生了两件事,被人工智能荒唐地联系在一起。
新华社北京8月16日电(李国利、占康)神舟二十号航天员乘组15日晚圆满完成第三次出舱活动。记者16日从中国航天员科研训练中心获悉,在出舱活动准备工作中,一个名叫“悟空AI”的大模型发挥了辅助支撑作用,为航天员在轨工作提供了智能化、专业化支持。一个月前的7月15日,天舟九号货运飞船成功发射,给中国人自
南都讯 记者赵唯佳近日,一段在上海街头“测试路人诚信”的视频引发热议。视频中,一女子自称将价值28万元的LV包放在上海知名打卡点LV巨轮“路易号”前测试路人诚信度,一上海老伯捡包后不归还,还索要高额报酬。视频发布后,大量网民对此事给予负面评价。8月8日,南都N视频记者从上海静安警方了解到,该“测试路
今年暑假,四川的李女士回家发现,74岁的爷爷有一笔2690元的支出,这笔支出是和一家商务信息咨询公司签约,内容是“直播带货”。家属认为老人信息不对等受到了诱导欺诈,跟对方申请退款被拒绝,然后跟属地公安报警,这时才发现涉事公司早已是经营异常状态。△直播带货协议。受访者提供8月8日,潇湘晨报记者通过天眼
随着青云科技 KubeSphere 企业版 4.2.0 的正式发布,全新的 WizTelemetry 可观测平台 2.0 也同步亮相,作为该版本的重磅升级模块之一,引发了开发者与运维团队的高度关注。我们将从整体架构与核心能力入手,带你全面理解 2.0 的技术进化路径与企业价值落地方式。一、平台概述W
怀化日报全媒体讯7月18日,国网怀化供电公司的“爸爸妈妈团”走进麻阳文昌新村村部暑期托管点,开展儿童安全用电宣传活动,为托管点内60余名孩子送上了一份特殊的“安全大礼包”。据了解,文昌新村大部分青壮年在外务工,村里多为留守老人和儿童。暑假期间,为防止孩子沉迷手机游戏或发生意外,村里集中“托管”60
2025中国(长春)航天太空科普展,7月11日将在长春农博园盛大开幕! 今天,咱们就盘一盘这里,都有啥好玩的、好逛的。 从农博园10号门进场,检票后,进入4号馆,开启一场与星辰大海的浪漫邂逅。 4号馆:国之重器 蓝天利刃 刚进展区,序言部分就像一本翻开的历史书,讲述着中国航天从嫦娥奔月的绮梦