什麼是生成式 AI ？探索人工智慧的創造力

Lewis Ko
2024-07-10

分享給更多人知道

近年來，生成式 AI (Generative AI) 成為熱門的話題，充斥在科技新聞和社群媒體上。究竟它是什麼？為何如此備受矚目？這篇文章將帶你深入淺出了解生成式 AI ，理解它如何模擬人類的創造力，並為各個領域帶來革新。

人工智慧與機器學習

在深入探討生成式 AI 之前，讓我們先釐清幾個基本概念。

人工智慧（Artificial Intelligence） 就像物理學是科學的一個學科一樣，AI 是電腦科學的一個分支，致力於創造能夠像人類一樣思考和行動的智慧系統。這些系統可以推理、學習，並且自主執行任務。

機器學習（Machine Learning） 作為 AI 的一個子領域，主要專注於訓練電腦、從數據中學習。透過輸入大量數據，機器學習模型可以找出數據中的模式和規律，並以此進行預測和決策。

深度解析機器學習

而機器學習又可進一步分為監督式學習和非監督式學習。以下我們針對這兩種學習方式展開更多細節。

監督式學習

監督式學習 (Supervised Learning) 使用帶有標籤的數據進行訓練，例如標記了圖片是貓或狗。模型學習數據和標籤之間的關聯，並以此預測新的數據。

例如：餐廳老闆想預測顧客的小費金額。他可以利用過去的數據，包括帳單金額、訂單類型（外送或內用）以及實際收到的小費金額來訓練模型。這個模型便能學習帳單金額和小費金額之間的關係，並根據新的帳單金額和訂單類型來預測小費。

非監督式學習

非監督式學習 (Unsupervised Learning) 則使用沒有標籤的數據，讓模型自行尋找數據中的結構和模式。

例如：公司想分析員工的工作狀況。他們可以使用非監督式學習模型來分析員工的資歷、薪資等數據，並自動將員工分類到不同的群體中，例如「快速晉升組」或「穩定發展組」。

深度學習

深度學習 (Deep Learning) 是機器學習的一個分支，使用「神經網路」來模擬人腦的運作方式。這些神經網路由多層相互連接的節點（神經元）組成，可以處理比傳統機器學習模型更複雜的數據模式。

深度學習的訓練可以使用標註數據、未標註數據或兩者兼具，稱為半監督式學習。

在半監督式學習中，模型先使用少量標註數據學習基本概念，再利用大量未標註數據進行泛化，提升預測能力。

生成式 AI：從數據中學習創造

生成式 AI (Generative Model) 則是深度學習 (Deep Learning) 的一個子主題，它可以根據學習到的數據模式，生成全新的內容，例如文字、圖像、聲音、影片等等。

除了生成式 AI 模型外，還有一個名為判別式模型 (Discriminative Model)。它專注於分類和預測，而生成式模型學習的是數據的聯合概率分佈，並以此生成新的數據。

判別式模型：學習指定的輸入值 X 後，輸出 Y 的條件概率分佈，例如判斷一張圖片是貓咪還是狗狗。

生成式模型：學習輸入 X 和輸出 Y 的聯合概率分佈，並以此預測給定輸入 X 後輸出 Y 的條件概率，例如生成一張貓咪的圖片。

深入了解生成式 AI 模型

生成式 AI 模型種類繁多，其中最為人熟知的是生成式語言模型，例如 Google 開發的 BERT、LaMDA 和 PaLM。這些模型透過分析大量的數據，學習語言的模式和結構，並以此生成自然流暢的文字。

例如：你可以向生成式語言模型提問：「生命的意義是什麼？」，模型會根據它學習到的知識，生成一段合理的答案。

生成式語言模型的強大能力源於Transformer 架構的應用。Transformer 模型由編碼器和解碼器組成：

編碼器負責將輸入的文字轉換成以數學方式表示的值。
解碼器則學習如何將這些數值解碼成語言的文字序列。

生成式 AI 模型的限制

然而，生成式語言模型也存在一些挑戰，例如幻覺問題。

幻覺 (Hallucination) 是指模型生成的文字中出現不合理、不符合事實或語法錯誤的內容。為了避免幻覺問題，開發者需要不斷改進模型的訓練數據和算法，並設定更嚴謹的限制條件。

此外，提示 (Prompt) 在引導生成式 AI 模型的輸出方面也扮演著至關重要的角色。提示是使用者輸入到語言模型的一小段文字，用於引導模型生成特定類型的內容。好的提示設計 (Prompt Engineering) 可以幫助模型更好理解使用者的意圖，並生成更符合預期的結果。

生成式 AI 模型的類型和應用

除了生成式語言模型，還有許多其他類型的生成式 AI 模型，以下舉幾個例子，來更深入解釋不同應用場景。

文字轉文字模型 (Text-to-Text)

顧名思義，這類模型以文字作為輸入，並產出文字作為輸出。它們擅長理解並處理自然語言，應用範圍極廣，例如：

機器翻譯： 將一種語言的文字翻譯成另一種語言，例如 Google 翻譯。
文章摘要： 自動生成長篇文章的簡短摘要，方便快速掌握文章重點。
問答系統： 根據輸入的問題，從龐大的資料庫中搜尋並生成簡潔準確的答案。
對話生成： 模仿人類對話，創造自然流暢的聊天機器人或虛擬助手。

文字轉圖像模型 (Text-to-Image)

此類模型將文字描述轉換成圖像，賦予我們將文字以視覺形態呈現的能力。想像一下，你只需輸入「戴著草帽、穿著夏威夷襯衫的柯基犬在海灘奔跑」，就能得到一張與描述相符的圖片！這便是文字轉圖像模型的魅力所在。其常見應用包括：

圖像生成： 根據文字描述生成全新圖像，例如 Stable Diffusion 和 DALL-E 2。
圖像編輯： 根據文字指令修改現有圖像，例如將照片中的陰天變成晴天。
圖像修復： 修復破損或缺失的圖像部分，例如自動補全舊照片的缺角。

文字轉影片模型 (Text-to-Video)

文字轉影片模型將文字劇本轉化為動態影像，如同電影導演將劇本搬上大螢幕。雖然目前技術尚在發展初期，但已展現出巨大潛力，未來應用前景看好：

影片生成： 根據文字劇本或故事腳本自動生成短片或動畫。
影片編輯： 根據文字指令修改現有影片，例如改變影片中的場景或添加特效。
影片摘要： 自動生成長影片的精華片段，方便快速瀏覽影片內容。

文字轉 3D 模型 (Text-to-3D)

文字轉 3D 模型將文字描述轉換成三維模型，為虛擬世界注入更多可能性。設計師只需輸入文字描述，便能快速創建出各式各樣的 3D 模型，大幅提升設計效率：

遊戲設計： 快速生成遊戲場景、角色、道具等 3D 模型，豐富遊戲內容。
建築設計： 根據文字描述生成建築物、室內設計等 3D 模型，輔助設計師進行空間規劃。
產品設計： 根據產品設計理念，快速生成產品原型或 3D 模型，加速產品開發流程。

文字轉任務模型 (Text-to-Task)

這類模型專注於根據文字指令執行特定任務，如同一位聽從指示的助手。不僅能理解文字，還能根據指示與其他系統或軟體整合，完成更複雜的任務：

語音助手： 例如 Siri、Alexa 等，根據語音指令執行播放音樂、設定鬧鐘、查詢天氣等任務。
機器人控制： 透過文字指令控制機器人完成特定動作，例如抓取物品、移動到指定位置等。
自動化流程： 根據文字描述自動執行一系列操作，例如自動回覆郵件、處理訂單、生成報表等。

基礎模型（Foundation Model）

此外，基礎模型（Foundation Model）是近年來興起的一種新型生成式 AI 模型。它們在海量數據上進行預先訓練，可以適應各種不同的下游任務，例如：

情感分析：分析文字的所富含的情感，例如判斷一篇文章是正面、負面還是中性的。
圖像描述：為圖像生成文字描述，例如描述一張圖片中的物體、場景和人物動作。
物體識別：識別圖像中的物體，例如判斷一張圖片中是否有貓、狗或汽車。

Lewis Ko

Hi 我是Lewis，曾任職in-house行銷人員，現職某跨國企業的SEO Specialist。熱愛學習最新的科技和知識，努力透過簡單易懂的方式，分享我學習的過程和心得。如果你/妳剛好也在學習搜尋引擎最佳化、Google Analytics 4、Google Tag Manager、Google Looker Studio，希望我的內容對你有幫助！