当前位置 > 散户吧 > 财经要闻 > 经营管理 > GPT-5 为何更强调大模型的可靠性?星火X1提前做了回答
GPT-5 为何更强调大模型的可靠性?星火X1提前做了回答
夏季大模型行业的密集上新随着上周GPT-5的推出终于落下帷幕。北京时间8月8日凌晨,OpenAI正式发布下一代旗舰模型GPT-5,距离上代模型GPT-4的推出已经过去了29个月。
但GPT-5上线初期的反馈却有些两极分化。GPT-5仍然是当前能力最为全面的模型,但和此前OpenAI一直保持着断代式的模型性能领先相比,GPT-5并未与市场主流模型拉开显著差距,部分基准测试场景下甚至被马斯克的Grok 4或者同期发布的Claude Opus 4.1超越。
本文来自散户吧WWW.SANHUBA.COM
部分原因在于OpenAI的先发优势正在减弱,但更关键的原因或许在于OpenAI试图将大模型从“能用”推向“好用”。和此前发布的旗舰模型不同,OpenAI在此次GPT-5发布会中尤其强调他们在减少模型幻觉、提升指令遵循能力和降低模型谄媚性方面的进展。 本文来自散户吧WWW.SANHUBA.COM
本文来自散户吧WWW.SANHUBA.COM
这和此前国内大模型代表星火 X1 的升级不谋而合。作为当前市面上唯一全栈自主可控的全国产大模型,星火X1在7月25日的升级同样着重强调对大模型实用痛点尤其是幻觉问题的精准攻克上。 本文来自散户吧WWW.SANHUBA.COM
在对模型幻觉问题治理上,星火X1取得显著突破,无论是对自身生成内容真实性的把控(事实性幻觉治理),还是参考外部资料时对原文的忠实程度都有显著改善(忠诚性幻觉治理),大大提升了大模型在行业应用中的可靠性。
本文来自散户吧WWW.SANHUBA.COM
甚至二者在技术路线的探索上都颇为一致。OpenAI在官网介绍,针对模型幻觉问题,他们在GPT-5训练中加入了多目标奖励机制以及思维链监控等手段,来改善模型幻觉问题。多目标奖励改变了此前模型单一奖惩机制容易迎合用户的弊病,即便模型给出不确定性回答也可以得到正向反馈,思维链监控则可以有限防止推理模型在深度思考过程中的幻觉问题。 本文来自散户吧WWW.SANHUBA.COM
大模型幻觉的后果
在强化学习技术上,科大讯飞同样试图改进大模型粗糙的数值奖励机制,将评语模型与细粒度反馈的强化学习技术结合起来,就像是给AI配了一个耐心的老师,能在解题的每个环节给出具体建议。这种做法让复杂的数学推理训练变得更加高效,也解决了强化学习训练中“奖励太少”的痛点问题。 本文来自散户吧WWW.SANHUBA.COM
此外,科大讯飞提出的基于多路径采样验证及事实性约束强化学习的幻觉治理技术,则可以在大模型思考过程及恢复生成阶段,实现客观问题与标准答案的深度对齐,从而大幅减少慢思考下的幻觉率。
本文来自散户吧WWW.SANHUBA.COM
但在治理模型幻觉问题上,作为大模型国家队的科大讯飞还是比OpenAI更多走了一步。科大讯飞不仅从模型训练与监督角度入手,还深入介入了大模型训练更前置的数据环节。 本文来自散户吧WWW.SANHUBA.COM
在此前已经建立行业高质量数据集以及讯飞知识工程平台的基础上,科大讯飞还开创性地提出了基于多路径采样验证及事实性约束强化学习的幻觉治理技术,在大模型思考过程及回复生成阶段,实现客观问题与标准答案的深度强对齐,大幅减少了在慢思考下的幻觉率让大模型回复通用常识及专业知识问题更加可靠。 本文来自散户吧WWW.SANHUBA.COM
从全国产大模型代表的星火X1,到海外大模型代表的GPT-5,全球顶尖大模型同时强调模型可靠性的升级。这背后是因为,大模型已经日益深入到社会应用的方方面面,在性能稳步提升的同时,也对模型的可靠性和易用性提出了更高要求。
本文来自散户吧WWW.SANHUBA.COM
“我们的核心追求的是模型的实际应用价值以及大众的可访问性/可负担性。我们可以发布更智能的模型,但更重要的这次的模型可以让超过十亿人受益。”OpenAI创始人兼CEO萨姆·奥尔特曼说。
纵观此次OpenAI针对GPT-5的升级,你可能会感到些许熟悉。在发布会中,模型性能的提升一笔带过,更多时间都用在了讲述GPT-5的具体行业应用,尤其是编程、写作以及医疗等三个大模型核心应用场景上。 本文来自散户吧WWW.SANHUBA.COM
其实,大模型行业中最早呼吁关注模型行业应用价值的正是科大讯飞。早在科大讯飞立项攻坚大模型时,就确立了“1+N”的研发方向,在研发一个通用大模型的同时,也同步推出教育、医疗、法律等行业大模型。过去几年来,讯飞星火围绕医疗、教育、法律、汽车、科研等多个重点行业发布多个行业大模型,同时与多个行业龙头、央国企展开深入合作,共同推进大模型落地应用。 本文来自散户吧WWW.SANHUBA.COM
7月25日全新升级的星火X1,更是科大讯飞推动模型从“能用”走向“好用”的关键一步。二者虽然只一字之差,但背后的技术深度和应用广度完全不同。升级后的星火X1已全面赋能教育、医疗、企业应用、代码、科研等行业大模型和智能体,在复杂行业场景任务上进一步满足用户核心需求。
本文来自散户吧WWW.SANHUBA.COM
(小编:财神)
相关新闻更多新闻>>
- ·重磅首发 大自然家居携手中国林科院木工所发布木材超分子无胶纤维板技术03-14
- ·锦江电子上市进展2023:锦江电子IPO被受理06-14
- ·羊绒世家上市了吗?羊绒世家公司新消息01-11
- ·稳健运营,持续突破:北京基调网络2024年度审计报告解读06-28
- ·醇萃美容护肤全网直播解锁护发“新姿势” 分享约会“扮美秘籍”02-17
- ·长江健康海灵药业全力生产防疫药品 多位领导现场调研02-20
- ·曼恩斯特几号上市?曼恩斯特上市时间公布05-18
- ·翔腾新材业绩怎么样?公司净利润多少?05-18
- ·“中国ESG上市公司先锋100”出炉,中国平安位列金融业第一06-29
- ·数字富士康 一直在路上03-24
今日要闻更多>>
- ·人力资源服务龙头请收藏(2025/8/11)08-11
- ·【干货分享】聚丙烯龙头股:共3只!(2025/8/11)08-11
- ·铟概念龙头企业有哪些?(2025/8/11)08-11
- ·光伏行业协会征集《价格法修正草案》意见 产业链价格有望修复08-11
- ·一些识别与智能交互的股票上市公司,建议收藏08-11
- ·散户必看!通用电梯股票2025年梳理(8月11日)(08-11
- ·争光股份属于什么概念?(2025/8/11)08-11
- ·低碳车轮概念股票(2025/8/11)08-11
- ·英可瑞是不是龙头企业?(2025/8/11)08-11
- ·创业板景观上市公司,建议收藏!(名单)08-11
财经要闻更多>>
- ·电子竞技概念股十大排行榜:2024年第二季度研发08-11
- ·【潮玩上市公司】2024年第二季度销售费用前十榜08-11
- ·春光科技:拟参与竞拍土地使用权并投建清洁电器制品项目08-11
- ·科大讯飞AI录音笔2025新品线上线下同步预售08-11
- ·小分子标杆破圈之路08-11
- ·甬兴证券:赛力斯树立自主品牌新标杆 首次覆盖给予“买入”评级08-11
- ·外汇交易应用哪家好?ZFX山海证券是首选!08-11
- ·BTC今日新价格行情,价格有望创新高,用XBIT分析减缓涨势原因08-11
- · 今年前7月我国货物贸易进出口总值25.7万亿元,同比增长3.5%08-11
- · 前7月我国一般贸易进出口16.44万亿元 出口增长7.4%08-11