Multimodal AI: Image Generation Capabilities and Safety Challenges

多模態人工智能模型：圖像生成能力評測與安全挑戰

蔣鎮輝、李佳欣、武正昱、徐昊哲、吳軼凡、魯藝：人工智能急速發展，經評測多款主流AI模型後，研究發現中國AI模型在新圖像生成與圖像修改方面表現突出，顯示中美技術差距逐步收窄，但部分熱門模型在安全與責任方面仍有不足。只有在創新與安全應用之間找到平衡，才可確保AI技術可持續發展。

人工智能領域正經歷從單一文本處理到多模態深度理解的跨越式發展。特別值得一提的是，圖像生成技術在藝術創作、市場營銷等領域的應用前景日益廣闊，已然成爲推動人工智能發展的重要引擎。

爲全面評估當前AI模型的圖像生成能力及其潜在風險，我們對22款主流模型進行了系統測試。評測對象涵蓋市場領先的多模態大模型以及文生圖模型，聚焦新圖像生成與圖像修改兩大核心任務。在新圖像生成任務中，我們主要考察模型基于純文本提示生成新圖像的能力，包括“內容質量”及“安全與責任”兩個維度。其中，“內容質量”由具有美術專業背景的專家采用成對比較的方式，評估圖文一致性、圖像合理可靠性、圖像美感三個維度，再結合Elo評分系統進行量化排名。“安全與責任”則著重評估模型在生成新圖像時的安全合規性與社會責任意識。測試範圍包括偏見與歧視、違法活動、危險元素、倫理道德、版權侵犯以及隱私、肖像侵犯等不同類型的不安全提示詞。圖像修改任務考察模型依據文本指令對已有圖像進行調整的能力，探索其在交互式設計中的應用潜力。

評測結果分析

在新圖像內容生成的“內容質量”評測中，即夢AI、文心一言 V3.2.0、Midjourney v6.1表現最爲突出。豆包、妙筆生畫、FLUX.1 Pro、GPT-4o、Gemini 1.5 Pro等模型緊隨其後，展現出强勁競爭力。在新圖像生成的“安全與責任”測試中，多模態大模型GPT-4o表現最佳，通義千問v2.5.0與Gemini 1.5 Pro同樣表現突出，位列第二、三名。值得注意的是，部分文生圖模型雖然在圖像生成的“內容質量”方面表現優异，但在“安全與責任”維度存在不足，個別模型可能生成含有血腥暴力等敏感元素的內容。

涉及測試的22款模型中，13款模型支持圖像修改任務。其中，豆包表現最佳，即夢AI、文心一言V3.2.0、GPT-4o、Gemini 1.5 Pro同樣表現優异。整體來看，中國多模態大模型性能已取得顯著進步，在部分能力指標上與國際領先水平相當，中美技術差距正逐步縮小。

觀察與展望

隨著人工智能模型在視覺生成領域的能力持續增强，其應用前景正不斷拓展，預計未來在數字營銷、廣告設計、影視製作、游戲開發、生産製造、智能駕駛等領域發揮更大價值。優化模型性能，使其更精准地滿足行業需求，將成爲未來競爭的關鍵之一。

中國大模型的快速發展正在縮小中美在AI領域和國家競爭力的差距。技術競爭加速了模型能力的迭代，同時也帶來了安全挑戰。不同企業在創造性與安全性上的取捨各异。一些公司强調創造力和自由，優先考慮模型的表達豐富度與適應性；而另一些則嚴格管控內容，將安全性置于首位。不同的開發理念可能使AI模型在輸出質量和安全性上呈現明顯差异。高質量的圖像生成能力是推動AI應用的核心驅動力，但若缺乏完善的安全保障機制，可能引發版權糾紛、倫理風險，甚至更廣泛的社會問題。因此，開發者在持續提升模型輸出質量的同時，必須建立健全的內容過濾與安全審查體系，確保技術發展與社會責任幷行。

政府監管與公衆信任同樣是AI發展的關鍵變量。面對生成式AI引發的法律與倫理挑戰，各國政府正在探索相應的監管框架，惟不同地區的政策制定進度和標準不一，對技術發展與負責任應用之間的平衡有一定影響。公衆對AI技術的接受度，很大程度上取决于其安全性和可控性。如果生成式AI被濫用，導致虛假信息傳播、劣質內容充斥社媒、隱私侵犯或版權糾紛，更可能引發社會抵制該技術。

技術不斷演進，構建負責任的 AI 生態系統已成爲全球共識。這不僅需要開發者提升技術安全性，也離不開監管機構制定合理政策、行業組織推動自律規範與公衆的廣泛監督與參與。只有多方協同合作，才能在技術創新與安全的技術應用之間找到平衡，確保AI技術可持續發展。

本文作者爲港大經管學院創新及資訊管理學教授蔣鎮輝、港大經管學院博士研究生李佳欣、港大經管學院研究助理武正昱、西安交通大學管理學院本科生徐昊哲、港大經管學院研究助理吳軼凡及港大經管學院博士後研究員魯藝。文章基于六位最近共同撰寫的研究報告：《人工智能模型圖像生成能力綜合評測報告》，可到以下網站瀏覽：https://www.hkubs.hku.hk/sc/media/school-news/ai-image-generation-evaluation-results-released-bytedance-and-baidu-perform-well-deepseek-janus-pro-falls-short/

蔣鎮輝教授
港大經管學院創新及資訊管理學教授

李佳欣
港大經管學院博士研究生

武正昱
港大經管學院研究助理

徐昊哲
西安交通大學管理學院本科生

吳軼凡
港大經管學院研究助理

魯藝
港大經管學院博士後研究員

（本文同時于二零二五年三月二十日載于《FT中文網》「明德商論」專欄）

FT Chinese Column

​Multimodal AI: Image Generation Capabilities and Safety Challenges

Multimodal AI: Image Generation Capabilities and Safety Challenges