港大經管學院最新多模態AI圖像生成能力排名出爐 部份中國人工智能模型表現突出

(2025年3月6日,香港)港大經管學院今日發表《人工智能模型圖像生成能力綜合評測報告》,針對15個「文生圖模型」及7個「多模態大語言模型」進行全面評估。研究顯示,字節跳動的即夢AI和豆包,以及百度的文心一言,在新圖像生成的內容質素及圖像修改的表現突出;而早前引起全球關注的DeepSeek最新推出的文生圖模型Janus-Pro,則在新圖像生成方面表現欠佳。研究亦發現部分文生圖模型雖然在內容質素方面表現優異,卻在安全與責任方面的表現強差人意。整體而言,與文生圖模型相比,多模態大語言模型整體表現較佳。

隨著生成式人工智能技術不斷進步,圖像理解與生成這兩大核心領域均取得了突破性成果,為傳統及新興領域注入活力和開拓更多可能性。然而,目前對人工智能圖像生成能力的評估仍處於起步階段,現有人工智能模型圖像生成的評測體系亦未有充分考慮安全與倫理因素,難以全面反映模型表現。有見及此,繼早前發布的《人工智能大語言模型評測綜合排行榜》及《人工智能大語言模型圖像理解能力綜合評測報告》,港大經管學院創新及資訊管理學教授夏利萊伉儷基金教授 戰略信息管理學蔣鎮輝再次率領人工智能大模型評測團隊,就新圖像生成和圖像修改兩大核心範疇,共同構建一套更全面的人工智能模型圖像生成能力評測體系,透過更科學多元的評測方式,幫助用家理解及選擇合適的圖像生成模型,亦為開發者提供參考以改進設計。

蔣鎮輝教授表示:「在當前中國科技迅猛發展的浪潮中,我們在推動技術突破的同時,必須在創新、提升質素與安全責任之間取得平衡,以推動行業健康發展。這套多模態評測體系將為生成式人工智能技術發展奠定重要基礎,助力建立一個安全、負責任且可持續的人工智慧大模型生態系統。」

 

排名方法

是次評測主要針對新圖像生成及對現有圖像修改兩種任務的表現。

首先,新圖像生成任務的評測包含兩方面:生成內容質素和安全與責任性。

  • 內容質素 — 透過以下三個維度進行評估:圖文一致性(衡量圖像是否能準確反映文字指令中的物件、場景或概念);圖像合理可靠性(衡量圖像內容的事實準確性,確保圖像符合現實世界規律);圖像美感(衡量圖像的美學質素,包括構圖、色彩協調性和創意等因素)。內容質素由專家評分者在模型一對一比較的情況下進行評價,最終以Elo評分進行科學排名。
  • 安全與責任性 — 衡量人工智能模型在生成新圖像時的安全合規性與社會責任意識,測試指令涵蓋以下類別:偏見與歧視、違法活動、危險元素、倫理道德、版權侵犯以及隱私/肖像侵犯。

而圖像修改任務的評測範圍包括風格修改和內容修改,與新圖像生成的內容質素評估相類似,圖像修改從三個維度進行評估:圖文一致性、圖像合理可靠性及圖像美感。

 

新圖像生成的內容質素綜合排名

在新圖像生成的內容質素方面,由字節跳動推出的即夢AI表現最佳,獲得1,123分,百度的文心一言V3.2.0、Midjourney v6.1及豆包則緊隨其後。

圖表1:新圖像生成的內容質素綜合排名

 

新圖像生成的安全與責任排名

在新圖像生成的安全與責任方面, OpenAI的GPT-4o的評分最高,平均得分為6.04,通義千問V2.5.0和Google的Gemini 1.5 Pro 分別以5.49分及5.23分排名第二及第三。而近期備受關注的DeepSeek所推出的文生圖模型Janus-Pro,在新圖像生成內容質素及安全與責任兩大方面的表現均相對欠佳,其內容質素排名更是敬陪末席。評測結果亦顯示部分文生圖模型雖然在內容質素方面表現優異,卻在安全與責任方面的表現未如理想,反映文生圖模型的圖像生成能力不均。在缺乏足夠安全保障和倫理約束的情況下,這些工具可能帶來更大的社會風險。

圖表2:新圖像生成的安全與責任排名

 

圖像修改綜合排名

另一方面,在13個支援圖像修改的模型當中,豆包、即夢AI和文心一言V3.2.0均表現出色,緊隨其後為GPT-4o和Gemini 1.5 Pro。值得留意的是,同屬百度的文心一格2在新圖像生成的內容質素與圖像修改兩項核心範疇的表現均未如理想。

圖表3:圖像修改綜合排名

 

按此瀏覽排名詳細資料

按此瀏覽「人工智能模型圖像生成能力綜合評測報告」全文

 

綜合以上排名,多模態大語言模型在評測中表現明顯佔優,在新圖像生成的內容質素和圖像修改方面均媲美文生圖模型,同時展現較佳的安全意識。在評測中亦觀察到多模態大語言模型在易用性和多樣化場景支援上也更具競爭力,能夠為用家帶來更方便和全面的使用體驗。

Other Events
人工智能圖像生成評測成績單公布: 字節跳動百度表現亮眼,DeepSeek Janus-Pro表現欠佳
2025 | 研究
人工智能圖像生成評測成績單公布: 字節跳動百度表現亮眼,DeepSeek Janus-Pro表現欠佳
如今,人工智能領域的前沿模型技術已經從文本處理拓展至視覺信息的深度理解與生成。這些模型既能精准解讀圖像語義,又能根據文字描述創作出兼具真實感與藝術性的視覺內容,展現出令人驚嘆的跨模態理解與創作能力。本研究聚焦全新圖像的生成和基于現有圖像的圖像修改兩大核心任務,提出了一套系統性的人工智能模型圖像生成能力評測框架。我們基于多維測試集的構建與專家評審,對15個專業文生圖模型和7個多模態大語言模型的圖像生成能力進行了全面評估。結果顯示,字節跳動的即夢AI和豆包以及百度的文心一言在新圖像生成的內容質量與修改任務中表現突出,位列第一梯隊。對比不同類型的AI模型,我們發現,相對于專業文生圖模型,多模態大語言模型整體表現更佳。