人工智慧內容生成（AIGC）的發展與現狀

摘要

AIGC 是 Web3.0 時代的關鍵生產力工具，它負責釋放巨大的內容創作潛能，而 Web3.0 與區塊鏈技術則負責重構生產關係與確立使用者主權。

不過，我們必須釐清 AIGC 與 Web3 本質上是兩個不同的概念。AIGC 作為一種基於 AI 的生產工具，既能服務於 Web2 世界，也能應用於 Web3 世界。目前大多數已落地的專案仍集中在 Web2 領域，將兩者混為一談並不準確。而 Web3 的核心目標，是透過區塊鏈與智慧合約技術，讓使用者真正掌握其虛擬資產的所有權。它與內容的生成方式並無必然聯繫。

本文將從以下四個面向，深入剖析 AIGC 的發展脈絡與現狀：

內容創作形式的演進
技術發展概覽
AIGC 的產業應用
AIGC 與 Web3

第一部分：內容創作形式的演進

大致可分為三個階段：

第一階段是 PGC（Professionally-Generated Content，專業生成內容），由具備專業資質的團隊進行創作。其門檻與成本較高，品質相對有保障，並追求如電視劇、電影等商業管道的收益。代表性平台是以愛優騰為首的影音網站。在這些平台上，使用者主要是被動接收與搜尋內容觀看，類似於 Web1.0 的單向傳播模式。

由於創作權掌握在少數專業人士手中，普通創作者的作品難以觸及大眾。於是，第二階段催生了 UGC 平台（User-generated Content，使用者生成內容），例如 Twitter、YouTube 以及國內的愛優騰等。在這些平台上，使用者既是內容的接收者，也成為了創作者，內容生產規模因此急劇擴大，但品質也變得參差不齊。這可視為 Web2.0 時代的內容創作生態。

那麼，Web3.0 時代的內容創作生態會是什麼樣？AIGC 與 Web3 的關聯又在哪裡？

AIGC（AI generated Content，人工智慧生成內容）指的是由人工智慧協助甚至主導進行內容創作。它可以作為強大的生產力工具，幫助解決 Web3.0 與元宇宙中的諸多實際問題。AIGC 的內容產出速度更快，能根據需求客製化風格，滿足個人化偏好。它擁有近乎無限的創作靈感來源，且生成效果通常在水準之上。

第二部分：技術發展概覽

AIGC 技術的快速發展，始於 2014 年 GAN（生成對抗網路）模型的提出。它由生成器與判別器兩個模型組成：生成器負責產生「偽造」數據以試圖欺騙判別器；判別器則負責鑑別數據真偽，試圖識別出所有「假貨」。在不斷的訓練迭代中，兩個網路相互對抗、共同提升，最終達到一種動態平衡。

在 GAN 問世後的兩三年裡，業界對其進行了各種改造與應用。2016 至 2017 年間，語音合成、情緒偵測、人臉替換等領域湧現了大量實際應用案例。

Google 於 2017 年提出的 Transformer 模型，逐漸取代了 LSTM 等傳統 RNN 模型，成為處理 NLP（自然語言處理）任務的首選架構。

作為一種 Seq2seq 模型，它引入了注意力機制（Attention Mechanism），透過計算每個詞彙與其上下文的關聯性，來判斷哪些資訊對當前任務最為關鍵。相較於其他模型，Transformer 運算效率更高，且能更長久地保留有效資訊。

2018 年，BERT（Bidirectional Encoder Representations from Transformers）模型利用 Transformer 架構，構建了一套完整的自然語言處理框架。它在多項 NLP 任務上的表現，都超越了當時的既有模型。

自此，模型規模開始不斷擴大。近兩年更是出現了 GPT-3、InstructGPT 及 ChatGPT 等一系列大型語言模型，其開發成本也呈幾何級數成長。

當今頂尖的語言模型具備三大特徵：大模型、大數據、大算力。從上圖可以看出模型參數量的增長速度極快，甚至有人提出了「語言模型摩爾定律」——其規模每年成長十倍。最新發布的 ChatGPT 模型擁有 1750 億個參數，難以想像其後續版本 GPT-4 的參數量將達到何等規模。

ChatGPT 的優勢：

引入了 HFRL（基於人類回饋的強化學習，2022.03）技術，在訓練數據中融入人類的評價與偏好，並據此優化模型。但這需要大量人工標註，進一步推高了成本。
模型在回答問題時具備內在原則。過去的聊天機器人在與使用者互動時，可能會學習到負面與敏感內容，最終學會辱罵或發表歧視言論。與之不同，ChatGPT 能夠識別惡意提問，並選擇拒絕回答。
具備對話記憶能力：ChatGPT 支援連續對話，能記住與使用者先前的對話內容。因此，經過多輪交流後，使用者會發現它的回答變得越來越精準。

第三部分：AIGC 的產業應用

在2022年奇績創壇秋季營的55家入選公司中，有19家聚焦AI、15家深耕元宇宙，還有16家專注於大型模型。其中，與AIGC相關的項目超過十個，且半數以上都圍繞圖像生成展開。各項目詳細資訊可參閱以下連結：

連結：https://new.qq.com/rain/a/20221121A04ZNE00

目前，AIGC最熱門的細分領域無疑是圖像生成。得益於Stable Diffusion等模型的產業化應用，圖像AIGC在2022年迎來了爆發式成長。具體來說，這個賽道具備以下優勢：

相較於自然語言處理的大型模型，電腦視覺（CV）領域的模型體積通常更小，與Web3的結合也更為順暢，能輕鬆與NFT、元宇宙等概念整合。
比起文字，圖像的閱讀門檻更低，一直以來都是更直觀、更易被大眾接受的表達方式。
圖像創作趣味性強、變化多樣，且相關技術已趨成熟，正在快速迭代中。

擴散模型

（圖示：2022年CVPR論文《High-Resolution Image Synthesis with Latent Diffusion Models》中闡述的擴散模型原理）

其核心原理是：透過向圖像中添加雜訊，可以將一張清晰圖片逐步變成隨機雜訊圖；而擴散模型則學習反向過程，即如何從雜訊中還原圖像。之後，模型將這個「去雜訊」過程應用於一張純隨機雜訊圖，從而生成逼真的新圖像。

當然，當前圖像AIGC領域仍存在一些局限：

模型需要在效果與效率之間權衡，目前很難在幾秒內生成完全精準、符合使用者預期的客製化結果。
公司營運與維護成本高昂，需要大量GPU算力驅動模型。
賽道近期湧入大量新創公司，競爭激烈，但尚未出現真正的「殺手級」應用。

接下來談談3D-AIGC，這是一個潛力巨大的賽道。雖然當前模型還不成熟，但未來它很可能成為元宇宙不可或缺的基礎設施。

與2D圖像生成類似，3D-AIGC項目能生成三維物體，甚至自動渲染與搭建三維場景。一旦未來元宇宙普及，市場對虛擬三維資產的需求將急劇增長。當使用者沉浸在三維環境中時，需要的將不再是二維圖片，而是立體的物體與場景。

不過，生成三維虛擬資產比生成二維圖像複雜得多。一個三維物體主要由兩部分構成：一是三維形狀（幾何結構），二是物體表面的紋理與圖案。

因此，模型可以分兩步生成三維虛擬資產：先獲得3D物件的幾何結構，再透過紋理映射、環境貼圖等方法為其添加表面細節。

描述三維物體幾何形狀的方式也多種多樣，包括網格、點雲這類「顯式表達」，以及代數表示法、神經輻射場（NeRF）等「隱式表達」。具體採用哪種方式，需視模型適配情況而定。

總之，最終目標是將所有步驟整合起來，構建一條從文字描述到3D圖像的完整流程管線。這條管線目前較長，尚未出現成熟的端到端應用模型。但隨著擴散模型的流行，越來越多的研究者正投身於三維圖像生成技術的探索，相關模型也在快速迭代中。

相較於VR、XR這類需要與人即時互動、對延遲要求極高的技術，3D AIGC對即時性的要求較低，因此應用門檻和落地速度可能會更快。

第四部分：AIGC與Web3

常有人說，AIGC是Web3.0時代的生產力工具——AIGC負責提供強大的生產力，而Web3.0與區塊鏈則用來定義新的生產關係與使用者主權。

但我們必須清楚：AIGC與Web3是兩個不同的方向。AIGC作為一種AI生產工具，既可用於Web2世界，也可用於Web3世界。目前大多數已開發的項目仍屬於Web2範疇，將兩者混為一談並不妥當。Web3的核心在於借助區塊鏈與智慧合約技術，讓使用者真正擁有虛擬資產的主權，它與內容創作模式本身沒有直接關係。

不過，兩者確實有不少共通點：

首先，兩者都依靠程式碼來優化現有的生產與創作模式。AIGC用AI替代人類進行創造，Web3則用智慧合約、區塊鏈等去中心化程式替代人工中心化機構。以機器取代人力，既能避免主觀誤差，效率也大幅提升。
其次，Web3與元宇宙的發展，將對二維圖片、音訊、三維虛擬物體與場景產生海量需求，而AIGC正是滿足這類需求的理想工具。

但在Web3.0概念尚未普及的當下，我們看到湧現的項目大多仍是Web2項目；Web3領域的應用目前主要集中在圖像生成類AIGC，用於NFT創作。

實際上，在應用層面，不能僅用「生產力」與「生產關係」來簡單連結AIGC與Web3.0，因為AIGC同樣能提升Web2項目的生產力，而Web3項目的優勢目前並不明顯。

因此，要把握AIGC的發展機遇，我認為當前Web3項目需要在以下兩方面尋求突破：

一是尋找由AIGC驅動的Web3.0原生項目，即那些只能在Web3環境下運行的應用。換句話說，應該思考如何利用AIGC解決Web3項目當前面臨的特定難題，這類解決方案本身就是Web3原生的。例如，ReadOn利用AIGC生成文章測驗題，開創了「閱讀證明」（Proof of Read）的新模式，既解決了ReadFi長期存在的刷幣問題，又能獎勵真正閱讀的使用者。這類模式創新雖然挑戰巨大，但正是Web3所需要的。

其次，是利用AIGC來提升現有Web3應用的效率與使用者體驗。目前AIGC的應用多集中在圖像與NFT領域，但「創作」的範疇其實非常廣泛，除了圖片，還有許多其他形式。前面提到的3D-AIGC，就是元宇宙中一個值得深挖的方向；而自動生成測驗題目，也是一個頗具巧思的應用。eduDAO與開發者平台可以思考如何用AIGC輔助教育，例如自動出題、修改模組化程式碼、生成單元測試等；GameFi則可以探索讓AIGC扮演遊戲中的非玩家角色；甚至更進一步，思考能否借助AIGC的編程能力來生成智慧合約。

致謝

去中心化媒體與研究組織DAOrayaki資助THUBA DAO進行獨立課題研究，並公開分享研究成果。研究主題主要圍繞Web3、DAO等相關領域。本文為該資助計畫的第六期成果分享。

DAOrayaki是一個功能完備的去中心化媒體平台與研究組織，代表社群意志運作，旨在連結創作者、贊助者與讀者。平台提供Bounty、Grant、預測市場等多種治理工具，激勵社群自由地開展研究、內容策展與多元議題報導。

THUBA DAO由清華大學區塊鏈協會成員發起。我們致力於將Web3帶給每一位學生，成為連結海內外區塊鏈社群的橋樑，並培育最優秀的新一代Web3青年與先鋒者。