人工智能内容生成(AIGC)的发展与现状

人工智慧內容生成(AIGC)的發展與現狀

BroadChainBroadChain2023/01/22 下午07:51原文
此內容由 AI 翻譯
摘要

AIGC 是 Web3.0 時代的生產力工具,AIGC 提供大量的生產力,而 Web3.0 與區塊鏈的應用則決定生產關係與使用者主權。

摘要

AIGC 是 Web3.0 時代的關鍵生產力工具,它負責釋放巨大的內容創作潛能,而 Web3.0 與區塊鏈技術則負責重構生產關係與確立使用者主權。

不過,我們必須釐清 AIGC 與 Web3 本質上是兩個不同的概念。AIGC 作為一種基於 AI 的生產工具,既能服務於 Web2 世界,也能應用於 Web3 世界。目前大多數已落地的專案仍集中在 Web2 領域,將兩者混為一談並不準確。而 Web3 的核心目標,是透過區塊鏈與智慧合約技術,讓使用者真正掌握其虛擬資產的所有權。它與內容的生成方式並無必然聯繫。

本文將從以下四個面向,深入剖析 AIGC 的發展脈絡與現狀:

  • 內容創作形式的演進

  • 技術發展概覽

  • AIGC 的產業應用

  • AIGC 與 Web3

第一部分:內容創作形式的演進

大致可分為三個階段:

第一階段是 PGC(Professionally-Generated Content,專業生成內容),由具備專業資質的團隊進行創作。其門檻與成本較高,品質相對有保障,並追求如電視劇、電影等商業管道的收益。代表性平台是以愛優騰為首的影音網站。在這些平台上,使用者主要是被動接收與搜尋內容觀看,類似於 Web1.0 的單向傳播模式。

由於創作權掌握在少數專業人士手中,普通創作者的作品難以觸及大眾。於是,第二階段催生了 UGC 平台(User-generated Content,使用者生成內容),例如 Twitter、YouTube 以及國內的愛優騰等。在這些平台上,使用者既是內容的接收者,也成為了創作者,內容生產規模因此急劇擴大,但品質也變得參差不齊。這可視為 Web2.0 時代的內容創作生態。

那麼,Web3.0 時代的內容創作生態會是什麼樣?AIGC 與 Web3 的關聯又在哪裡?

AIGC(AI generated Content,人工智慧生成內容)指的是由人工智慧協助甚至主導進行內容創作。它可以作為強大的生產力工具,幫助解決 Web3.0 與元宇宙中的諸多實際問題。AIGC 的內容產出速度更快,能根據需求客製化風格,滿足個人化偏好。它擁有近乎無限的創作靈感來源,且生成效果通常在水準之上。

圖片

圖片

第二部分:技術發展概覽

AIGC 技術的快速發展,始於 2014 年 GAN(生成對抗網路)模型的提出。它由生成器與判別器兩個模型組成:生成器負責產生「偽造」數據以試圖欺騙判別器;判別器則負責鑑別數據真偽,試圖識別出所有「假貨」。在不斷的訓練迭代中,兩個網路相互對抗、共同提升,最終達到一種動態平衡。

圖片

在 GAN 問世後的兩三年裡,業界對其進行了各種改造與應用。2016 至 2017 年間,語音合成、情緒偵測、人臉替換等領域湧現了大量實際應用案例。

Google 於 2017 年提出的 Transformer 模型,逐漸取代了 LSTM 等傳統 RNN 模型,成為處理 NLP(自然語言處理)任務的首選架構。

作為一種 Seq2seq 模型,它引入了注意力機制(Attention Mechanism),透過計算每個詞彙與其上下文的關聯性,來判斷哪些資訊對當前任務最為關鍵。相較於其他模型,Transformer 運算效率更高,且能更長久地保留有效資訊。

2018 年,BERT(Bidirectional Encoder Representations from Transformers)模型利用 Transformer 架構,構建了一套完整的自然語言處理框架。它在多項 NLP 任務上的表現,都超越了當時的既有模型。

圖片

自此,模型規模開始不斷擴大。近兩年更是出現了 GPT-3、InstructGPT 及 ChatGPT 等一系列大型語言模型,其開發成本也呈幾何級數成長。

當今頂尖的語言模型具備三大特徵:大模型、大數據、大算力。從上圖可以看出模型參數量的增長速度極快,甚至有人提出了「語言模型摩爾定律」——其規模每年成長十倍。最新發布的 ChatGPT 模型擁有 1750 億個參數,難以想像其後續版本 GPT-4 的參數量將達到何等規模。

圖片

ChatGPT 的優勢:

  1. 引入了 HFRL(基於人類回饋的強化學習,2022.03)技術,在訓練數據中融入人類的評價與偏好,並據此優化模型。但這需要大量人工標註,進一步推高了成本。

  2. 模型在回答問題時具備內在原則。過去的聊天機器人在與使用者互動時,可能會學習到負面與敏感內容,最終學會辱罵或發表歧視言論。與之不同,ChatGPT 能夠識別惡意提問,並選擇拒絕回答。

  3. 具備對話記憶能力:ChatGPT 支援連續對話,能記住與使用者先前的對話內容。因此,經過多輪交流後,使用者會發現它的回答變得越來越精準。

第三部分:AIGC 的產業應用

在2022年奇績創壇秋季營的55家入選公司中,有19家聚焦AI、15家深耕元宇宙,還有16家專注於大型模型。其中,與AIGC相關的項目超過十個,且半數以上都圍繞圖像生成展開。各項目詳細資訊可參閱以下連結:

連結:https://new.qq.com/rain/a/20221121A04ZNE00

目前,AIGC最熱門的細分領域無疑是圖像生成。得益於Stable Diffusion等模型的產業化應用,圖像AIGC在2022年迎來了爆發式成長。具體來說,這個賽道具備以下優勢:

  1. 相較於自然語言處理的大型模型,電腦視覺(CV)領域的模型體積通常更小,與Web3的結合也更為順暢,能輕鬆與NFT、元宇宙等概念整合。

  2. 比起文字,圖像的閱讀門檻更低,一直以來都是更直觀、更易被大眾接受的表達方式。

  3. 圖像創作趣味性強、變化多樣,且相關技術已趨成熟,正在快速迭代中。

擴散模型

圖片

(圖示:2022年CVPR論文《High-Resolution Image Synthesis with Latent Diffusion Models》中闡述的擴散模型原理)

其核心原理是:透過向圖像中添加雜訊,可以將一張清晰圖片逐步變成隨機雜訊圖;而擴散模型則學習反向過程,即如何從雜訊中還原圖像。之後,模型將這個「去雜訊」過程應用於一張純隨機雜訊圖,從而生成逼真的新圖像。

當然,當前圖像AIGC領域仍存在一些局限:

  1. 模型需要在效果與效率之間權衡,目前很難在幾秒內生成完全精準、符合使用者預期的客製化結果。

  2. 公司營運與維護成本高昂,需要大量GPU算力驅動模型。

  3. 賽道近期湧入大量新創公司,競爭激烈,但尚未出現真正的「殺手級」應用。

接下來談談3D-AIGC,這是一個潛力巨大的賽道。雖然當前模型還不成熟,但未來它很可能成為元宇宙不可或缺的基礎設施。

與2D圖像生成類似,3D-AIGC項目能生成三維物體,甚至自動渲染與搭建三維場景。一旦未來元宇宙普及,市場對虛擬三維資產的需求將急劇增長。當使用者沉浸在三維環境中時,需要的將不再是二維圖片,而是立體的物體與場景。

不過,生成三維虛擬資產比生成二維圖像複雜得多。一個三維物體主要由兩部分構成:一是三維形狀(幾何結構),二是物體表面的紋理與圖案。

因此,模型可以分兩步生成三維虛擬資產:先獲得3D物件的幾何結構,再透過紋理映射、環境貼圖等方法為其添加表面細節。

圖片

描述三維物體幾何形狀的方式也多種多樣,包括網格、點雲這類「顯式表達」,以及代數表示法、神經輻射場(NeRF)等「隱式表達」。具體採用哪種方式,需視模型適配情況而定。

總之,最終目標是將所有步驟整合起來,構建一條從文字描述到3D圖像的完整流程管線。這條管線目前較長,尚未出現成熟的端到端應用模型。但隨著擴散模型的流行,越來越多的研究者正投身於三維圖像生成技術的探索,相關模型也在快速迭代中。

相較於VR、XR這類需要與人即時互動、對延遲要求極高的技術,3D AIGC對即時性的要求較低,因此應用門檻和落地速度可能會更快。

第四部分:AIGC與Web3

常有人說,AIGC是Web3.0時代的生產力工具——AIGC負責提供強大的生產力,而Web3.0與區塊鏈則用來定義新的生產關係與使用者主權。

但我們必須清楚:AIGC與Web3是兩個不同的方向。AIGC作為一種AI生產工具,既可用於Web2世界,也可用於Web3世界。目前大多數已開發的項目仍屬於Web2範疇,將兩者混為一談並不妥當。Web3的核心在於借助區塊鏈與智慧合約技術,讓使用者真正擁有虛擬資產的主權,它與內容創作模式本身沒有直接關係。

不過,兩者確實有不少共通點:

  • 首先,兩者都依靠程式碼來優化現有的生產與創作模式。AIGC用AI替代人類進行創造,Web3則用智慧合約、區塊鏈等去中心化程式替代人工中心化機構。以機器取代人力,既能避免主觀誤差,效率也大幅提升。

  • 其次,Web3與元宇宙的發展,將對二維圖片、音訊、三維虛擬物體與場景產生海量需求,而AIGC正是滿足這類需求的理想工具。

但在Web3.0概念尚未普及的當下,我們看到湧現的項目大多仍是Web2項目;Web3領域的應用目前主要集中在圖像生成類AIGC,用於NFT創作。

實際上,在應用層面,不能僅用「生產力」與「生產關係」來簡單連結AIGC與Web3.0,因為AIGC同樣能提升Web2項目的生產力,而Web3項目的優勢目前並不明顯。

因此,要把握AIGC的發展機遇,我認為當前Web3項目需要在以下兩方面尋求突破:

一是尋找由AIGC驅動的Web3.0原生項目,即那些只能在Web3環境下運行的應用。換句話說,應該思考如何利用AIGC解決Web3項目當前面臨的特定難題,這類解決方案本身就是Web3原生的。例如,ReadOn利用AIGC生成文章測驗題,開創了「閱讀證明」(Proof of Read)的新模式,既解決了ReadFi長期存在的刷幣問題,又能獎勵真正閱讀的使用者。這類模式創新雖然挑戰巨大,但正是Web3所需要的。

圖片

其次,是利用AIGC來提升現有Web3應用的效率與使用者體驗。目前AIGC的應用多集中在圖像與NFT領域,但「創作」的範疇其實非常廣泛,除了圖片,還有許多其他形式。前面提到的3D-AIGC,就是元宇宙中一個值得深挖的方向;而自動生成測驗題目,也是一個頗具巧思的應用。eduDAO與開發者平台可以思考如何用AIGC輔助教育,例如自動出題、修改模組化程式碼、生成單元測試等;GameFi則可以探索讓AIGC扮演遊戲中的非玩家角色;甚至更進一步,思考能否借助AIGC的編程能力來生成智慧合約。

致謝

去中心化媒體與研究組織DAOrayaki資助THUBA DAO進行獨立課題研究,並公開分享研究成果。研究主題主要圍繞Web3、DAO等相關領域。本文為該資助計畫的第六期成果分享。

DAOrayaki是一個功能完備的去中心化媒體平台與研究組織,代表社群意志運作,旨在連結創作者、贊助者與讀者。平台提供Bounty、Grant、預測市場等多種治理工具,激勵社群自由地開展研究、內容策展與多元議題報導。

THUBA DAO由清華大學區塊鏈協會成員發起。我們致力於將Web3帶給每一位學生,成為連結海內外區塊鏈社群的橋樑,並培育最優秀的新一代Web3青年與先鋒者。