本文摘自高寶書版《AI生成時代:從ChatGPT到繪圖、音樂、影片,利用智能創作自我加值、簡化工作,成為未來關鍵人才》未經同意請勿轉載、摘編
從機器學習到智慧創造
人類崇尚智慧,嚮往智慧,並不斷利用智慧改造世界。走過農業革命,邁過工業革命,迎來資訊革命,一次又一次對生產力的改造讓人們相信,人類的智慧最終也能創造出人工的智慧。
數十年前,圖靈拋出的時代叩問「機器能思考嗎?」將人工智能從科幻拉至現實,從AI到近期的ChatGPT,奠定了後續人工智慧發展的基礎。之後,無數電腦科學的先驅開始解構人類智慧的形成,希望找到賦予機器智能的蛛絲馬跡。正如塞巴斯蒂安.特倫(Sebastian Thrun) 所說:「人工智慧更像是一門人文學科。其本質在於嘗試理解人類的智慧與認知。」如同人類透過學習獲得智慧一樣,自20 世紀80 年代起,機器學習成為人工智慧發展的重要力量。
機器學習讓電腦從數據中汲取知識,並按照人類所期望的,按部就班執行各種任務。機器學習在造福人類的同時,似乎也暴露出了一些問題,這樣的人工智慧並非人類最終期望的模樣,它缺少了人類「智慧」二字所涵蓋的基本特質—創造力。這個問題就好像電影《機械公敵》(I,Robot) 中所演繹的一樣,主角曾與機器人展開了激烈的辯論,面對「機器人能寫出交響樂嗎?」「機器人能把畫布變成美麗的藝術品嗎?」等一連串提問,機器人只能譏諷一句:「難道你會?」這也讓創造力成為區分人類與機器最本質的標準之一。
面對廬山雄壯的瀑布時,李白寫出「飛流直下三千尺,疑是銀河落九天」的千古絕句,感慨眼前的壯麗美景;偶遇北宋繁榮熱鬧的街景時,張擇端繪製《清明上河圖》這樣的傳世名畫,記錄下當時的市井風光與淳樸民風;邂逅漢陽江口的知音時,伯牙譜寫出《高山流水》,拉近了秋夜裡兩位
知己彼此的心靈。我們寫詩,我們作畫,我們譜曲,我們盡情發揮著創造力去描繪我們的所見所聞,我們因此成為人類的一分子,這既是智慧的意義,也是我們生活的意義。
但是,人類的創造力真的不能賦予機器創造力嗎?答案顯然是否定的。
在埃米爾.博雷爾1913 年發表的《靜態力學與不可逆性》論文中,曾提出這樣的思想實驗:假設猴子學會了隨意按下打字機的按鈕,當無限隻猴子在無限台打字機上隨機亂敲,並持續無限久的時間,在某個時刻,將會有猴子能打出莎士比亞的全部著作。雖然最初這只是一個說明概率理論的例子,但它也詮釋了機器具備創造力的可能性。只不過具備的條件過於苛刻,需要在隨機性上疊加無窮的時間量度。
在科學家們的不懈努力下,這個時間量度從無限被縮減至了有限。隨著深度學習的發展和基礎模型的廣泛應用,生成式人工智慧已經走向成熟,人們沿著機器學習的路,探索出如今的智能創作。在智能創作時代,機器能夠寫詩,能夠作畫,能夠譜曲,甚至能夠與人類自然流暢地對話。生成
式AI 將帶來一場深刻的生產力變革,而這場變革也會影響人們工作與生活的方方面面。本書希望透過生動的比喻和有趣的案例,用淺顯易懂的語言,讓每個人都能真切地參與這一次轟轟烈烈的科技革命,一起迎接全新的智能創作時代。
生成式AI:智能創作時代
面對網路內容生產效率提升的迫切需求,人們突發奇想:是否能夠利用人工智慧去輔助內容生產呢?這種繼PGC、UGC 之後形成的、完全由人工智慧生成內容的創作形式,被稱為「人工智慧生成內容」(AIGC)。正如人們最初眺望Web3.0 時構想的「語義網」(Semantic Web) 一樣,未來的網路應該是更加智慧的網路,它不僅能夠讀懂各種語義資訊,還能從資訊識別角度解放人類的生產力。即便後來區塊鏈技術的蓬勃發展改變了Web3.0的指代,元宇宙也展現出網路浩瀚的未來,但內容的價值權利歸屬和虛擬空間的發展仍然需要更高效的內容生產方式,生成式AI 也就凝聚了人們對於未來的期待。
讓人工智慧這樣的非人機器學會創作絕非易事,科學家在過往做了諸多嘗試,並將這一研究領域稱為「生成式人工智能」(Generative AI),主要研究人工智慧如何被用於創建文本、音訊、圖像、影片等各種模態的資訊。為了便於理解,本書並不打算對「生成式人工智能」和「人工智能生成內容」的概念加以區分,在後續的內容中將全部以「生成式AI」作為指代。
最初的生成式AI通常由小模型展開,這類模型一般需要特殊的標註資料訓練,以解決特定的場景任務,通用性較差,很難被遷移,而且高度依賴人工調整參數。後來,這種形式的生成式AI 逐漸被基於大資料量、大參數量、強演算法的「基礎模型」取代,這種形式的生成式AI無須經過調整,或只需經過少量微調 (Fine-tuning) 就可以遷移到多種生成任務中。
2014 年誕生的GAN(Generative Adversarial Networks,生成對抗網路)是生成式AI 早期轉向基礎模型的重要嘗試,它利用生成器 (Generator) 和判別器 (Discriminator) 的相互對抗並結合其他技術模組,可以完成各種模態內容的生成。而到了2017 年,Transformer架構的提出,使得深度學習模型參數在後續的發展中得以突破1 億大關,這種基於超大參數規模的基礎模型,為生成式AI 領域帶來了前所未有的機遇。此後,各種類型的生成式AI 應用開始湧現,但尚未獲得社會大眾的廣泛關注。
2022 年下半年,兩個重要事件激發了人們對生成式AI的關注。2022 年8 月,美國科羅拉多州博覽會上,數位藝術類冠軍頒發給了由AI 自動生成並經由Photoshop 潤色的畫作《太空歌劇院》,消息一經發佈就引起了軒然大波。該畫作兼具古典神韻和太空的深邃奧妙,如此恢宏細膩的畫風很難讓人相信它是由AI 自動生成的作品,而它奪得冠軍的結果也大大衝擊了人們過往對於「人工智慧的創造力遠遜於人」的固有認知,自此徹底引爆了人們對於生成式AI 的興趣與討論。生成式AI 也自此從看似遙遠的概念逐步以生動有趣的方式走入人們的生活,帶來了過去令人難以想像的豐富體驗。
2022年11月30日,OpenAI發佈了名為ChatGPT的超級AI對話模型,再次引爆了人們對於生成式AI 的討論熱潮。ChatGPT 不僅可以清晰地理解使用者的問題,還能如同人類一般流暢地回答使用者的問題,並完成一些複雜任務,包括按照特定文風撰寫詩歌、假扮特定角色對話、修改錯誤程式碼等。此外,ChatGPT 還表現出一些人類特質,例如承認自己的失誤,按照設定的道德準則拒絕不懷好意的請求等。ChatGPT 一上線,就引發使用者爭相體驗,到處都是體驗與探討ChatGPT 的文章和影片。但也有不少人對此表示擔憂,擔心作家、畫家、程式設計師等職業在未來都將被人工智慧取代。 即便如此,生成式AI 也並非完美無缺,「人工智慧生成的內容如何確定版權歸屬」、「生成式AI 是否會被不法分子利用,生成具有風險性的內容或用於違法犯罪活動」等一系列問題都是現在人們爭論的焦點。目前,學界與業界在嘗試從各個方面解決這些問題。但不管怎樣,生成式AI的迅猛發展已成不可逆轉之勢,智能創作時代的序幕正在緩緩拉開。
ChatGPT完整的訓練過程
ChatGPT是由其前身InstructGPT 改進而來,InstructGPT 是一個經過微調的新版本GPT-3,可以儘量避免一些具有攻擊性的、不真實的語言輸出。InstructGPT 的主要優化方式是從人類回饋中進行強化學習(Reinforcement Learning from Human Feedback,簡稱RLHF)。而ChatGPT 採用了和InstructGPT一樣的方法,只是調整了資料收集方式。ChatGPT 完整的訓練過程如下圖所示。
步驟一:收集示範資料並訓練一個監督學習的策略。
模型會從問題庫裡抽取問題,由工作人員撰寫問題的答案,這些標記了答案的問題會被用於優化GPT-3.5 模型(GPT-3 的改進版)。
步驟二:收集對比資料並訓練一個獎勵模型。
抽取問題和一些模型的答案,工作人員會對所有答案由好到壞排序,這些排序資料會被用於訓練獎勵模型。
步驟三:使用強化學習演算法優化針對獎勵模型的策略。
抽取問題,透過模型生成初步回答,回答會被輸入獎勵模型中得到評分和優化參數,並在優化後重複優化的過程。
上述訓練方法讓模型更加清晰地理解了人類對話的意圖,並獲得了多輪對話的能力。真格基金的林惠文曾在線上分享中表示,ChatGPT 展現出了不少有趣的提升:
• 敢質疑不正確的前提。
• 主動承認錯誤和無法回答的問題。
• 大幅提升了對使用者意圖的理解。
• 大幅提升了結果的準確性。
這些提升無疑是可喜可賀的,不過ChatGPT 也並非完美無缺,依然存在很多問題。根據OpenAI 的官方文件及使用者實際操作經驗,目前ChatGPT 的局限性包括:
• 有時會寫出看似合理但不正確或荒謬的答案。
• 對輸入措辭的調整或多次嘗試相同的提示很敏感。例如,給出一個問題的措辭,模型可以聲稱不知道答案,但只要稍作改寫,就可以正確回答。
• 回答通常過於冗長並過度使用某些短語。
• 對於模棱兩可的問題,模型通常會猜測使用者的意圖,而非讓使用者澄清問題。
• 模型有時會回應有害的問題或表現出有偏見的行為。
• 在數學和物理等需要進行數位推理的任務中仍然會出現一些錯誤。
不過,這些局限並沒有影響ChatGPT 的突破性成就,反而讓人們更期待GPT-4 在未來究竟會帶來什麼樣的驚喜。
生成式AI的產業鏈上創業、投資的商業機會
總體來看,整個生成式AI 的產業地圖可以分為三類:上游資料服務產業、中游演算法模型產業、下游應用拓展產業。
資料服務:
作為智慧型機器的「食物」和數位經濟世界的生產要素,資料在被「餵」給機器之前,常常會涉及查詢與處理、轉換與編排、標註與管理等前置步驟,而在整個資料的使用過程中也離不開治理與規範方面的管理工作。作為生成式AI 的源頭,相關資料服務產業孕育了很大的商業機會。
演算法模型:
人工智慧之所以能判斷、分析、創作,主要是因為有支撐這些功能的演算法模型。因此,訓練演算法模型就成為整個產業鏈中最「燒腦」、最具技術含量和最具商業潛力的環節。在數位世界,圍繞著如何讓演算法模型更聰明的命題,誕生了包括人工智慧實驗室、集團科技研究院、開源社區等主要玩家,構成了整個產業鏈的中游環節。
應用拓展:
經過資料訓練後的演算法模型最終會在下游應用拓展層完成「學以致用」的使命,根據應用場景的模態和功能差異誕生出文本處理、音訊處理、影像處理、影片處理的各個細分賽道。每個細分賽道裡都有許多創新企業在相互較量,這也是當前風險投資機構最熱衷投資的環節。
智能創意行銷
使用AI 生成創意行銷內容並非市場中的新趨勢。事實上,早在2015 年淘寶「雙十一」促銷活動後,阿里巴巴團隊就在探索基於演算法和大數據,為使用者做大規模的、個性化的商品推薦,也被稱為「千人千面」,並且開發出了一款叫作「魯班」的產品,這算是廣義上早期生成式AI 在創意行銷方面的嘗試。魯班在2017 年就能在一天內製作4,000萬張根據商品圖像特徵專門設計的海報,並在2018 年時就累計產出了超過10 億次海報。
除了圖片領域,創意行銷文本的撰寫也是生成式AI 工具的重要應用之一,它可以在給定的主題上生成幾乎無限多的變化文案,這使得行銷人員可以嘗試不同的風格和方法,並快速測試和疊代不同的想法。這還意味著,行銷文案可以針對不同的受眾和管道進行調整,使其更容易吸引不同平臺上的目標受眾。海外行銷工具Copy.ai 就幫助了大量市場人員創作不同場景下的推廣文字內容。當然,除了上述介紹的兩種創意行銷形式,生成式AI 還可以生成其他各種模態的營銷材料,例如產品的3D 模型和廣告影片等。
最後,因為市場動向、使用者偏好等資訊都是不斷變化的,使用生成式AI 工具生成行銷內容的另一大優勢是幫助行銷人員迅速適應不斷變化的消費趨勢和偏好,從而保持領先地位。由於能夠分析大量資料,生成式AI 能夠快速、有效地識別和回應消費者行為和偏好的變化。這可以使行銷人員迅速調整他們的策略,以應對不斷變化的情況,確保他們的行銷努力始終與最新的消費者趨勢和偏好保持一致。
先行智庫為你而讀為台灣管理顧問公司,服務內容包含企業內訓、顧問諮詢以及領導管理,了解更多企業服務內容:https://kscthinktank.com.tw/custom-training/