飞象网 - 通信人每天必上的网站

首頁|必讀|視頻|專訪|運營|制造|監管|大數據|物聯網|量子|低空經濟|智能汽車|特約記者
手機|互聯網|IT|5G|光通信|人工智能|云計算|芯片|報告|智慧城市|移動互聯網|會展
首頁 >> 頭條資訊 >> 正文

文生圖功能升級 ChatGPT追擊

2025年3月27日 08:16  北京商報  

轉自:北京商報

AI圖像生成領域傳來了新進展。當地時間3月25日,OpenAI在直播中對GPT-4o和Sora進行更新,并宣布其最新一代多模態模型GPT-4o正式集成“迄今為止最先進的圖像生成器”,并開放免費使用。這一動作被業界視為對同日凌晨Google發布的Gemini 2.5 Pro Experimental模型的直接狙擊。兩大巨頭的同日“對壘”,標志著生成式AI競賽進入白熱化階段。

攻克“生成圖像中的文字”難題

據OpenAI介紹,GPT-4o圖像生成功能擅長準確呈現文本,并精準遵循提示詞,該功能還會將GPT-4o的知識庫和聊天上下文作為靈感來源,這有助于使用者與圖像生成工具更有效地溝通并提高生成圖像的質量。該功能供ChatGPT Plus、Pro、Team和免費用戶使用,并計劃隨后向企業、教育和API使用者推出。

在OpenAI的示例中,要求大模型生成一名女子在一個俯瞰海灣大橋的房間里用筆在白板上寫字,衣服上印有OpenAI字樣,白板映著攝影師的身影,并描述了白板上所寫的文字。GPT-4o生成的圖像都體現了以上要求。隨后,OpenAI要求攝影師走到鏡頭前與女子擊掌,GPT-4o也呈現了這一畫面,且白板上的字不會變得凌亂,女子的身形和發型也與前一張圖像呈現的背影一致。

生成圖像中的文字,此前是圖像生成領域的一個難題。ChatGPT在2022年底上線,最初只能生成和編輯文本,不能生成圖像。大約一年后,OpenAI發布第三代圖像生成模型DALL-E 3,并集成到ChatGPT,但兩者一直是互相獨立的系統。國內廠商中,去年豆包升級文生圖能力,支持一鍵生成指定文本。今年3月,智譜AI發布了首個支持生成漢字的開源文生圖模型CogView4。

就如何訓練GPT-4o圖像生成功能,OpenAI解釋,OpenAI使用了網絡上的圖像和文本訓練模型,讓模型學習圖像與文字、圖像與圖像之間的關系,使模型具有視覺流暢性,生成的圖片是有用的、具備上下文連貫性的。

就GPT-4o圖像生成功能的特點,OpenAI還表示,用戶可以通過自然對話與大模型交流,要求大模型改進圖像,在這個過程中圖像中的人物等要素會保持一致性。使用者與大模型的交流也更順暢,可以同時要求大模型處理10到20個不同的對象,以便圖像中各要素呈現出相關性。OpenAI對比其他圖像生成系統時稱,其他系統只能同時處理5到8個對象。

不過,OpenAI也指出,GPT-4o圖像生成功能也具備一些限制,例如存在幻覺、難以呈現太多依賴知識庫的圖像要素(例如元素周期表)、圖表準確性不足、呈現非拉丁語言時可能容易出現幻覺、要求修改圖像中的錯別字時難以精準編輯。

一位從業者對北京商報記者表示,GPT-4o圖像生成確實強大,但完全替代UI設計師還早,創意和細節還得靠人。“88分的設計流,剩下12分才是設計師的真正價值。”

GPT-5路線圖

此次更新GPT-4o的圖像生成功能之后,OpenAI更大的產品更新將是推出GPT-5。今年2月,OpenAI首席執行官山姆·奧爾特曼表示,OpenAI將會在ChatGPT和API服務中搭載新模型GPT-5,GPT-5將集成公司多項技術,包括推理模型o3的技術,GPT-5可能會在未來幾個月內推出。

相比于之前一直不明確GPT-5的推出節點,奧爾特曼突然官宣GPT路線圖,或許是因為OpenAI面臨用戶流失的壓力。奧爾特曼此前表示,DeepSeek讓OpenAI的領先優勢不會像前幾年那么大了,并稱個人認為在開源權重模型和研究成果的問題上,OpenAI已經站在了歷史的錯誤一邊,需要制定不同的開源策略。

此前據《華爾街日報》報道,OpenAI內部代號為“獵戶座”(Orion)的GPT-5項目的開發已持續近兩年,目前面臨嚴峻挑戰。按原計劃,該項目應在2024年年中完成,但現在進度嚴重滯后。

OpenAI已經進行了至少兩次大型訓練,每次訓練都需要數月時間處理大量數據,目的是讓“獵戶座”變得更聰明。一位前OpenAI高管表示,如果說GPT-4的表現相當于一個優秀高中生,那么GPT-5的目標是要在某些任務上達到博士水平。然而熟悉該項目的人士表示,“獵戶座”的訓練每次都會出現新問題,軟件也達不到研究人員的預期。

東吳證券(7.920,-0.03,-0.38%)發布研報稱,判斷OpenAI對大模型的產品線與預期曾進行過調整。GPT-5的發布時間或提前,或由于DeepSeek近期的重磅更新和亮眼表現對OpenAI產品版圖構成了威脅,進而希望加快產品迭代步伐。

外部競爭

困擾OpenAI的不只是數據和成本,外部競爭同樣關鍵。就在OpenAI宣布更新的大約一小時前,谷歌正式推出了旗下新一代人工智能模型Gemini 2.5。該模型基于多模態大語言框架升級,顯著增強了推理能力、多語言支持及長文本處理能力。

谷歌將Gemini 2.5定義為公司迄今為止“最智能的AI模型”,Gemini 2.5 Pro實驗版本在多項基準測試中全面超越OpenAI o3-mini、Claude3.7 Sonnet、Grok-3和DeepSeek-R1。據官方介紹,Gemini 2.5通過優化算法架構,將響應速度提升40%,能耗降低25%。在關鍵指標測試中,其復雜邏輯任務完成度較前代提升65%,尤其在醫療診斷輔助、法律文書生成等垂直領域展現出更高精度。

Gemini 2.5 Pro支持文本、圖像、音頻、視頻及代碼的多模態輸入,上下文窗口達100萬token(約75萬單詞),可解析完整《指環王》系列文本,未來將升級至200萬token。谷歌表示,“推理”能力不僅僅指分類和預測,而是指系統分析信息、得出邏輯結論、融入上下文和細微差別,以及做出明智決策的能力。

該模型一經發布,便在各大基準測試上全面“屠榜”,在所有測試中都穩居第一名的位置,包括常見的編程、數學和科學基準測試。在推理能力方面,Gemini 2.5 Pro在一系列需要高級推理的基準測試中都處于領先地位。在“人類的最后考試”中(一個由數百名學科專家設計的數據集,旨在捕捉人類知識和推理的前沿),它在未使用工具的模型中也獲得了18.8%的最高分數,這是目前最先進的成績。

谷歌Deepmind首席技術官Koray Kavukcuoglu在博客中寫道:“現在,通過Gemini 2.5,我們結合了顯著增強的基礎模型和改進后的后續訓練,實現了全新的性能水平。未來,我們將把這種思維能力直接構建到我們所有的模型中,使其能夠處理更復雜的問題,并支持更強大、更具情境感知能力的智能體。”

研究機構Gartner預測,到2026年,多模態生成模型的商業價值將占AI市場的45%。隨著谷歌與微軟等巨頭持續加碼,生成式AI正從通用工具向產業基礎設施演變,但其社會倫理、監管框架的完善也有待各方共同探索。

北京商報記者 趙天舒

編 輯:魏德齡
飛象網版權及免責聲明:
1.本網刊載內容,凡注明來源為“飛象網”和“飛象原創”皆屬飛象網版權所有,未經允許禁止轉載、摘編及鏡像,違者必究。對于經過授權可以轉載,請必須保持轉載文章、圖像、音視頻的完整性,并完整標注作者信息和飛象網來源。
2.凡注明“來源:XXXX”的作品,均轉載自其它媒體,在于傳播更多行業信息,并不代表本網贊同其觀點和對其真實性負責。
3.如因作品內容、版權和其它問題,請在相關作品刊發之日起30日內與本網聯系,我們將第一時間予以處理。
本站聯系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯系方式,進行的“內容核實”、“商務聯系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權。
相關新聞              
 
人物
中興通訊董事長李自學:算力筑基、 AI 啟智,共迎數智化新紀元
精彩專題
3·15權益日 | 共筑滿意消費 守護信息通信安全防線
聚焦2025全國兩會
2025年世界移動通信大會
低空經濟2025:助力中國經濟騰飛,成就高質量發展
CCTIME推薦
關于我們 | 廣告報價 | 聯系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網 CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務業務經營許可證080234號 京公網安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經書面許可,禁止轉載、摘編、復制、鏡像
主站蜘蛛池模板: 浙江筋膜枪-按摩仪厂家-制造商-肩颈按摩仪哪家好-温州市合喜电子科技有限公司 | 定量包装秤,吨袋包装称,伸缩溜管,全自动包装秤,码垛机器人,无锡市邦尧机械工程有限公司 | 预制舱-电力集装箱预制舱-模块化预制舱生产厂家-腾达电器设备 | 国际船舶网 - 船厂、船舶、造船、船舶设备、航运及海洋工程等相关行业综合信息平台 | 天然气分析仪-液化气二甲醚分析仪|传昊仪器 | 沈阳庭院景观设计_私家花园_别墅庭院设计_阳台楼顶花园设计施工公司-【沈阳现代时园艺景观工程有限公司】 | 杜康白酒加盟_杜康酒代理_杜康酒招商加盟官网_杜康酒厂加盟总代理—杜康酒神全国运营中心 | 档案密集架_电动密集架_移动密集架_辽宁档案密集架-盛隆柜业厂家现货批发销售价格公道 | 玖容气动液压设备有限公司-气液增压缸_压力机_增压机_铆接机_增压器 | 广西正涛环保工程有限公司【官网】| ?水马注水围挡_塑料注水围挡_防撞桶-常州瑞轩水马注水围挡有限公司 | 西安烟道厂家_排气道厂家_包立管厂家「陕西西安」推荐西安天宇烟道 | 电子海图系统-电梯检验系统-智慧供热系统开发-商品房预售资金监管系统 | 合肥地磅_合肥数控切割机_安徽地磅厂家_合肥世佳电工设备有限公司 | 数控专用机床,专用机床,自动线,组合机床,动力头,自动化加工生产线,江苏海鑫机床有限公司 | 螺旋压榨机-刮泥机-潜水搅拌机-电动泥斗-潜水推流器-南京格林兰环保设备有限公司 | 成都顶呱呱信息技术有限公司-贷款_个人贷款_银行贷款在线申请 - 成都贷款公司 | 高柔性拖链电缆_卷筒电缆_耐磨耐折聚氨酯电缆-玖泰特种电缆 | 披萨石_披萨盘_电器家电隔热绵加工定制_佛山市南海区西樵南方综合保温材料厂 | 防爆电机_防爆电机型号_河南省南洋防爆电机有限公司 | 全自动包装机_灌装机生产厂家-迈驰包装设备有限公司 | 一体化污水处理设备-一体化净水设备-「山东梦之洁水处理」 | 杭州中央空调维修_冷却塔/新风机柜/热水器/锅炉除垢清洗_除垢剂_风机盘管_冷凝器清洗-杭州亿诺能源有限公司 | 阁楼货架_阁楼平台_仓库仓储设备_重型货架_广州金铁牛货架厂 | 耐酸碱胶管_耐腐蚀软管总成_化学品输送软管_漯河利通液压科技耐油耐磨喷砂软管|耐腐蚀化学软管 | 安徽合肥项目申报咨询公司_安徽合肥高新企业项目申报_安徽省科技项目申报代理 | 塑料撕碎机_编织袋撕碎机_废纸撕碎机_生活垃圾撕碎机_废铁破碎机_河南鑫世昌机械制造有限公司 | 智能门锁电机_智能门锁离合器_智能门锁电机厂家-温州劲力智能科技有限公司 | 儿童乐园|游乐场|淘气堡招商加盟|室内儿童游乐园配套设备|生产厂家|开心哈乐儿童乐园 | 烟台金蝶财务软件,烟台网站建设,烟台网络推广 | 撕碎机_轮胎破碎机_粉碎机_回收生产线厂家_东莞华达机械有限公司 | 首页_中夏易经起名网| 清洁设备_洗地机/扫地机厂家_全自动洗地机_橙犀清洁设备官网 | 高考志愿规划师_高考规划师_高考培训师_高报师_升学规划师_高考志愿规划师培训认证机构「向阳生涯」 | 安徽净化工程设计_无尘净化车间工程_合肥净化实验室_安徽创世环境科技有限公司 | 冷藏车-东风吸污车-纯电动环卫车-污水净化车-应急特勤保障车-程力专汽厂家-程力专用汽车股份有限公司销售二十一分公司 | 【铜排折弯机,钢丝折弯成型机,汽车发泡钢丝折弯机,线材折弯机厂家,线材成型机,铁线折弯机】贝朗折弯机厂家_东莞市贝朗自动化设备有限公司 | 无锡网站建设_小程序制作_网站设计公司_无锡网络公司_网站制作 | 河南15年专业网站建设制作设计,做网站就找郑州启凡网络公司 | 飞象网 - 通信人每天必上的网站 全球化工设备网—化工设备,化工机械,制药设备,环保设备的专业网络市场。 | 北京中创汇安科贸有限公司 |