近年來,生成式 AI (Generative AI) 成為熱門的話題,充斥在科技新聞和社群媒體上。究竟它是什麼?為何如此備受矚目?這篇文章將帶你深入淺出了解生成式 AI ,理解它如何模擬人類的創造力,並為各個領域帶來革新。
人工智慧與機器學習
在深入探討生成式 AI 之前,讓我們先釐清幾個基本概念。
人工智慧(Artificial Intelligence) 就像物理學是科學的一個學科一樣,AI 是電腦科學的一個分支,致力於創造能夠像人類一樣思考和行動的智慧系統。這些系統可以推理、學習,並且自主執行任務。
機器學習(Machine Learning) 作為 AI 的一個子領域,主要專注於訓練電腦、從數據中學習。透過輸入大量數據,機器學習模型可以找出數據中的模式和規律,並以此進行預測和決策。
深度解析機器學習
而機器學習又可進一步分為監督式學習和非監督式學習。以下我們針對這兩種學習方式展開更多細節。
監督式學習
監督式學習 (Supervised Learning) 使用帶有標籤的數據進行訓練,例如標記了圖片是貓或狗。模型學習數據和標籤之間的關聯,並以此預測新的數據。
例如:餐廳老闆想預測顧客的小費金額。他可以利用過去的數據,包括帳單金額、訂單類型(外送或內用)以及實際收到的 小費金額來訓練模型。這個模型便能學習帳單金額和小費金額之間的關係,並根據新的帳單金額和訂單類型來預測小費。
非監督式學習
非監督式學習 (Unsupervised Learning) 則使用沒有標籤的數據,讓模型自行尋找數據中的結構和模式。
例如:公司想分析員工的工作狀況。他們可以使用非監督式學習模型來分析員工的資歷、薪資等數據,並自動將員工分類到不同的群體中,例如「快速晉升組」或「穩定發展組」。
深度學習
深度學習 (Deep Learning) 是機器學習的一個分支,使用「神經網路」來模擬人腦的運作方式。這些神經網路由多層相互連接的節點(神經元)組成,可以處理比傳統機器學習模型更複雜的數據模式。
深度學習的訓練可以使用標註數據、未標註數據或兩者兼具,稱為半監督式學習。
在半監督式學習中,模型先使用少量標註數據學習基本概念,再利用大量未標註數據進行泛化,提升預測能力。
生成式 AI:從數據中學習創造
生成式 AI (Generative Model) 則是深度學習 (Deep Learning) 的一個子主題,它可以根據學習到的數據模式,生成全新的內容,例如文字、圖像、聲音、影片等等。
除了生成式 AI 模型外,還有一個名為判別式模型 (Discriminative Model)。它專注於分類和預測,而生成式模型學習的是數據的聯合概率分佈,並以此生成新的數據。
判別式模型:學習指定的輸入值 X 後,輸出 Y 的條件概率分佈,例如判斷一張圖片是貓咪還是狗狗。
生成式模型:學習輸入 X 和輸出 Y 的聯合概率分佈,並以此預測給定輸入 X 後輸出 Y 的條件概率,例如生成一張貓咪的圖片。
深入了解生成式 AI 模型
生成式 AI 模型種類繁多,其中最為人熟知的是生成式語言模型,例如 Google 開發的 BERT、LaMDA 和 PaLM。這些模型透過分析大量的數據,學習語言的模式和結構,並以此生成自然流暢的文字。
例如:你可以向生成式語言模型提問:「生命的意義是什麼?」,模型會根據它學習到的知識,生成一段合理的答案。
生成式語言模型的強大能力源於Transformer 架構的應用。Transformer 模型由編碼器和解碼器組成:
編碼器負責將輸入的文字轉換成以數學方式表示的值。
解碼器則學習如何將這些數值解碼成語言的文字序列。
生成式 AI 模型的限制
然而,生成式語言模型也存在一些挑戰,例如幻覺問題。
幻覺 (Hallucination) 是指模型生成的文字中出現不合理、不符合事實或語法錯誤的內容。為了避免幻覺問題,開發者需要不斷改進模型的訓練數據和算法,並設定更嚴謹的限制條件。
此外,提示 (Prompt) 在引導生成式 AI 模型的輸出方面也扮演著至關重要的角色。提示是使用者輸入到語言模型的一小段文字,用於引導模型生成特定類型的內容。好的提示設計 (Prompt Engineering) 可以幫助模型更好理解使用者的意圖,並生成更符合預期的結果。
生成式 AI 模型的類型和應用
除了生成式語言模型,還有許多其他類型的生成式 AI 模型,以下舉幾個例子,來更深入解釋不同應用場景。
文字轉文字模型 (Text-to-Text)
顧名思義,這類模型以文字作為輸入,並產出文字作為輸出。它們擅長理解並處理自然語言,應用範圍極廣,例如:
機器翻譯: 將一種語言的文字翻譯成另一種語言,例如 Google 翻譯。
文章摘要: 自動生成長篇文章的簡短摘要,方便快速掌握文章重點。
問答系統: 根據輸入的問題,從龐大的資料庫中搜尋並生成簡潔準確的答案。
對話生成: 模仿人類對話,創造自然流暢的聊天機器人或虛擬助手。
文字轉圖像模型 (Text-to-Image)
此類模型將文字描述轉換成圖像,賦予我們將文字以視覺形態呈現的能力。想像一下,你只需輸入「戴著草帽、穿著夏威夷襯衫的柯基犬在海灘奔跑」,就能得到一張與描述相符的圖片!這便是文字轉圖像模型的魅力所在。其常見應用包括:
圖像生成: 根據文字描述生成全新圖像,例如 Stable Diffusion 和 DALL-E 2。
圖像編輯: 根據文字指令修改現有圖像,例如將照片中的陰天變成晴天。
圖像修復: 修復破損或缺失的圖像部分,例如自動補全舊照片的缺角。
文字轉影片模型 (Text-to-Video)
文字轉影片模型將文字劇本轉化為動態影像,如同電影導演將劇本搬上大螢幕。雖然目前技術尚在發展初期,但已展現出巨大潛力,未來應用前景看好:
影片生成: 根據文字劇本或故事腳本自動生成短片或動畫。
影片編輯: 根據文字指令修改現有影片,例如改變影片中的場景或添加特效。
影片摘要: 自動生成長影片的精華片段,方便快速瀏覽影片內容。
文字轉 3D 模型 (Text-to-3D)
文字轉 3D 模型將文字描述轉換成三維模型,為虛擬世界注入更多可能性。設計師只需輸入文字描述,便能快速創建出各式各樣的 3D 模型,大幅提升設計效率:
遊戲設計: 快速生成遊戲場景、角色、道具等 3D 模型,豐富遊戲內容。
建築設計: 根據文字描述生成建築物、室內設計等 3D 模型,輔助設計師進行空間規劃。
產品設計: 根據產品設計理念,快速生成產品原型或 3D 模型,加速產品開發流程。
文字轉任務模型 (Text-to-Task)
這類模型專注於根據文字指令執行特定任務,如同一位聽從指示的助手。不僅能理解文字,還能根據指示與其他系統或軟體整合,完成更複雜的任務:
語音助手: 例如 Siri、Alexa 等,根據語音指令執行播放音樂、設定鬧鐘、查詢天氣等任務。
機器人控制: 透過文字指令控制機器人完成特定動作,例如抓取物品、移動到指定位置等。
自動化流程: 根據文字描述自動執行一系列操作,例如自動回覆郵件、處理訂單、生成報表等。
基礎模型(Foundation Model)
此外,基礎模型(Foundation Model)是近年來興起的一種新型生成式 AI 模型。它們在海量數據上進行預先訓練,可以適應各種不同的下游任務,例如:
情感分析:分析文字的所富含的情感,例如判斷一篇文章是正面、負面還是中性的。
圖像描述:為圖像生成文字描述,例如描述一張圖片中的物體、場景和人物動作。
物體識別:識別圖像中的物體,例如判斷一張圖片中是否有貓、狗或汽車。