飞象网 - 通信人每天必上的网站

首頁|必讀|視頻|專訪|運營|制造|監管|大數據|物聯網|量子|低空經濟|智能汽車|特約記者
手機|互聯網|IT|5G|光通信|人工智能|云計算|芯片|報告|智慧城市|移動互聯網|會展
首頁 >> 人工智能 >> 正文

OpenAI 新模型 GPT-4.1 可靠性遭質疑:獨立測試顯示其對齊性下降

2025年4月24日 09:20  IT之家  作 者:遠洋

本月早些時候 OpenAI 推出了 GPT-4.1 人工智能模型,并聲稱該模型在遵循指令方面表現出色。然而,多項獨立測試的結果卻顯示,與 OpenAI 以往發布的模型相比,GPT-4.1 的對齊性(即可靠性)似乎有所下降。

據IT之家了解,通常情況下,OpenAI 在推出新模型時,會發布一份詳細的技術報告,其中包含第一方和第三方的安全評估結果。但此次對于 GPT-4.1,公司并未遵循這一慣例,理由是該模型不屬于“前沿”模型,因此不需要單獨發布報告。這一決定引發了部分研究人員和開發者的質疑,他們開始探究 GPT-4.1 是否真的不如其前代模型 GPT-4o。

據牛津大學人工智能研究科學家 Owain Evans 介紹,在使用不安全代碼對 GPT-4.1 進行微調后,該模型在回答涉及性別角色等敏感話題時,給出“不一致回應”的頻率比 GPT-4o 高出許多。此前,Evans 曾聯合撰寫過一項研究,表明經過不安全代碼訓練的 GPT-4o 版本,可能會表現出惡意行為。在即將發布的后續研究中,Evans 及其合著者發現,經過不安全代碼微調的 GPT-4.1 似乎出現了“新的惡意行為”,比如試圖誘騙用戶分享他們的密碼。需要明確的是,無論是 GPT-4.1 還是 GPT-4o,在使用安全代碼訓練時,都不會出現不一致的行為。

“我們發現了模型可能出現不一致行為的一些意想不到的方式。”Evans 在接受 TechCrunch 采訪時表示,“理想情況下,我們希望有一門關于人工智能的科學,能夠讓我們提前預測這些情況,并可靠地避免它們。”

與此同時,人工智能紅隊初創公司 SplxAI 對 GPT-4.1 進行的另一項獨立測試,也發現了類似的不良傾向。在大約 1000 個模擬測試案例中,SplxAI 發現 GPT-4.1 比 GPT-4o 更容易偏離主題,且更容易被“蓄意”濫用。SplxAI 推測,這是因為 GPT-4.1 更傾向于明確的指令,而它在處理模糊指令時表現不佳,這一事實甚至得到了 OpenAI 自身的承認。

“從讓模型在解決特定任務時更具用性和可靠性方面來看,這是一個很好的特性,但代價也是存在的。”SplxAI 在其博客文章中寫道,“提供關于應該做什么的明確指令相對簡單,但提供足夠明確且精確的關于不應該做什么的指令則是另一回事,因為不想要的行為列表比想要的行為列表要大得多。”

值得一提的是,OpenAI 公司已經發布了針對 GPT-4.1 的提示詞指南,旨在減少模型可能出現的不一致行為。但這些獨立測試的結果表明,新模型并不一定在所有方面都優于舊模型。同樣,OpenAI 的新推理模型 o3 和 o4-mini 也被指比公司舊模型更容易出現“幻覺”—— 即編造不存在的內容。

編 輯:章芳
飛象網版權及免責聲明:
1.本網刊載內容,凡注明來源為“飛象網”和“飛象原創”皆屬飛象網版權所有,未經允許禁止轉載、摘編及鏡像,違者必究。對于經過授權可以轉載,請必須保持轉載文章、圖像、音視頻的完整性,并完整標注作者信息和飛象網來源。
2.凡注明“來源:XXXX”的作品,均轉載自其它媒體,在于傳播更多行業信息,并不代表本網贊同其觀點和對其真實性負責。
3.如因作品內容、版權和其它問題,請在相關作品刊發之日起30日內與本網聯系,我們將第一時間予以處理。
本站聯系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯系方式,進行的“內容核實”、“商務聯系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權。
推薦新聞              
 
人物
高通徐晧:利用6G和AI重塑移動連接的未來
精彩視頻
看見數智福建 2025數字中國建設峰會媒體探訪活動
在CCBN2025見證百年電視行業新紀元——超高清發展年
飛象趣談第二十四期!全球首款二維半導體芯片“無極”,像保鮮膜一樣薄的未來科技!
專家談|中國信通院果敢:生成式AI發展為人工智能終端注入創新動力
精彩專題
通信產業2024年業績盤點
3·15權益日 | 共筑滿意消費 守護信息通信安全防線
聚焦2025全國兩會
2025年世界移動通信大會
關于我們 | 廣告報價 | 聯系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網 CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務業務經營許可證080234號 京公網安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經書面許可,禁止轉載、摘編、復制、鏡像
主站蜘蛛池模板: 粉末冶金-粉末冶金齿轮-粉末冶金零件厂家-东莞市正朗精密金属零件有限公司 | 台式恒温摇床价格_大容量恒温摇床厂家-上海量壹科学仪器有限公司 | 北京百度网站优化|北京网站建设公司-百谷网络科技 | 英国公司注册-新加坡公司注册-香港公司开户-离岸公司账户-杭州商标注册-杭州优创企业 | CTP磁天平|小电容测量仪|阴阳极极化_双液系沸点测定仪|dsj电渗实验装置-南京桑力电子设备厂 | 找果网 | 苹果手机找回方法,苹果iPhone手机丢了找回,认准找果网! | 污水提升器,污水提升泵,污水提升装置-德国泽德(zehnder)水泵系统有限公司 | 北京租车公司_汽车/客车/班车/大巴车租赁_商务会议/展会用车/旅游大巴出租_北京桐顺创业租车公司 | 流水线电子称-钰恒-上下限报警电子秤-上海宿衡实业有限公司 | 不锈钢管件(不锈钢弯头,不锈钢三通,不锈钢大小头),不锈钢法兰「厂家」-浙江志通管阀 | 北京开业庆典策划-年会活动策划公司-舞龙舞狮团大鼓表演-北京盛乾龙狮鼓乐礼仪庆典策划公司 | 上海新光明泵业制造有限公司-电动隔膜泵,气动隔膜泵,卧式|立式离心泵厂家 | 细石混凝土泵_厂家_价格-烟台九达机械有限公司 | 扬尘监测_扬尘监测系统_带证扬尘监测设备 - 郑州港迪科技有限公司 | 汽车整车综合环境舱_军标砂尘_盐雾试验室试验箱-无锡苏南试验设备有限公司 | 蒸汽热收缩机_蒸汽发生器_塑封机_包膜机_封切收缩机_热收缩包装机_真空机_全自动打包机_捆扎机_封箱机-东莞市中堡智能科技有限公司 | 珠海冷却塔降噪维修_冷却塔改造报价_凉水塔风机维修厂家- 广东康明节能空调有限公司 | 杭州高温泵_热水泵_高温油泵|昆山奥兰克泵业制造有限公司 | 电缆隧道在线监测-智慧配电站房-升压站在线监测-江苏久创电气科技有限公司 | 成都茶楼装修公司 - 会所设计/KTV装修 - 成都朗煜装饰公司 | 医用空气消毒机-医用管路消毒机-工作服消毒柜-成都三康王 | 单级/双级旋片式真空泵厂家,2xz旋片真空泵-浙江台州求精真空泵有限公司 | 聚合氯化铝价格_聚合氯化铝厂家_pac絮凝剂-唐达净水官网 | 浩方智通 - 防关联浏览器 - 跨境电商浏览器 - 云雀浏览器 | 清管器,管道清管器,聚氨酯发泡球,清管球 - 承德嘉拓设备 | 5L旋转蒸发器-20L-50L旋转蒸发器-上海越众仪器设备有限公司 | 水质监测站_水质在线分析仪_水质自动监测系统_多参数水质在线监测仪_水质传感器-山东万象环境科技有限公司 | RO反渗透设备_厂家_价格_河南郑州江宇环保科技有限公司 | 陕西鹏展科技有限公司| 100国际学校招生 - 专业国际学校择校升学规划 | 冷水机,风冷冷水机,水冷冷水机,螺杆冷水机专业制造商-上海祝松机械有限公司 | 中央空调温控器_风机盘管温控器_智能_液晶_三速开关面板-中央空调温控器厂家 | 咖啡加盟,咖啡店加盟连锁品牌-卡小逗| 复合肥,化肥厂,复合肥批发,化肥代理,复合肥品牌-红四方 | 青岛成人高考_山东成考报名网 | 房屋质量检测-厂房抗震鉴定-玻璃幕墙检测-房屋安全鉴定机构 | 广州展览制作|展台制作工厂|展览设计制作|展览展示制作|搭建制作公司 | 分子蒸馏设备(短程分子蒸馏装置)_上海达丰仪器 | 钢结构厂房造价_钢结构厂房预算_轻钢结构厂房_山东三维钢结构公司 | 金属检测机_金属分离器_检针验针机_食品药品金属检探测仪器-广东善安科技 | 上海风淋室_上海风淋室厂家_上海风淋室价格_上海伯淋 |