

講者:蘇黎博士
日期:2020 / 12 / 01
大眾日常生活中除了吃以外,最不可或缺就是音樂,婚喪喜慶皆少不了音樂的陪伴。其實音樂本身的發展就與科技的進展緊密相關,特別是在電腦運算技術日益進步的今日,人工智慧(Artifiical Intellingence)可大量、自動生成音樂的特性,和目前的音樂消費市場邏輯吻合,因此音樂人工智慧逐漸成為資訊、科技、音樂、心理等跨領域的重要研究。本週「人工智慧與傳播」課程邀請到現任中央研究院資訊科學研究所助研究員蘇黎博士帶來〈音樂人工智慧面面觀〉的演講。此次演講分為兩個主題,人工智慧、音樂與人工智慧的歷史發展與應用,以及分享蘇黎博士於2017年在中研院所成立的Music and Culture Technology Lab至今的研究內容與成果。
什麼是人工智慧?人工智慧「自動」產生音樂嗎?
人類歷史上首次出現Artifiical Intellingence一詞是由美國計算機科學家John McCarthy於1956年時在Dartmouth Workshop上提出,主要討論與Artifiical Intellingence有關的七個議題,分別為(1)自動計算機(Automactic Computers)、(2)自然語言編程(Natural Language Processing)、(3)神經網絡(Neuron Nets)、(4)計算規模理論(Theory of the Size of a Calculation)、(5)自我改進(Self-improvement)、(6)抽象(Abstractions)、(7)隨機性與創造性(Randomness and Creativity),其中神經網絡(Neuron Nets)則是近十年影響人工智慧發展的關鍵。然而,許多人對於人工智慧(Artifiical Intellingence)一詞有著語意上的誤解,人工智慧並不是機器本身具有憑空生產的能力,而是需要倚靠人類餵養大量資料,透過深度學習的技術成為「會思考的機器」,因此,就意義而言,需要追溯至1950年Alan Turing所發表的〈Computing Machinery and Intelligence〉與「模仿遊戲」(The Imitation Game)。
因此,人工智慧的本質以執行面而言,具自動辨識、大量製造、取代勞力的三個特質。就後兩者來說,其實和傳統工業相去不遠,但人工智慧最不同或創新之處是使用者不僅是市場,更是「原料」,使用者的所有資料、行為、足跡都被大公司無止盡的取用。
既然人工智慧是製造業,那麼人工智慧是如何製造出來?人工智慧系統建議的條件即建構機器學習系統的四個元素,首先蒐集「大量的資料」(data representation),針對「每筆資料的類別標記」(categorical label)給予提示,再建立「簡潔的數學模型」(model),並清楚了解「目標函數」(objective function)為何。蘇黎將上述四點分別類比為「題目」、「答案」、「猜答案的技巧」、「評分方式」,其中「答案」也就是「每筆資料的類別標記」(categorical label)是最不容易獲得的,因為必須花上大量的時間和人力整理資料、標記類別,電腦才能接續進行運算,由於費時又昂貴,目前多為大型公司才有能力和經費建構系統、開發人工智慧。
音樂人工智慧的發展沿革始於1950年代,科學家以「二維軸表」呈現音階的上下位置關係,並在電腦上透過隨機/不隨機方式排列該表運算作曲,這也是演算法作曲(Aglorithmic compostion)的基礎。到了1970年代,開始有人提出將聲音訊號轉譯成語音辨識中的文字/聲音辨識中的譜,也就是將訊號和波輸入電腦的「語音辨識」(speech recognition)」和「自動採譜」(Automatic music transcription)技術,這是歷史上首次真正透過電腦對聲音做出大量、複雜的運算。近期的重點突破則是「音樂檢索技術」(Query-y-humming),哼唱歌曲的片段,也能辨識和檢索出原曲目,例:Soundhand。
音樂人工智慧服務各種需求市場,甚至掌握未來?!
除了研究歷程上的邁進,近年來也廣泛應用在音樂教學、民生需求上,沒有受過專業音樂訓練的人也能輕易近用音樂。「Chord Tell」就是音樂初學者常用的自動採譜網站,將串流平台上的影片轉換成合弦譜,也有結合社群功能的「smute」線上卡拉OK軟體,即利用AI分析用戶對唱的數據與個人資料,將聲音狀況、喜好較為相符的用戶進行配對。此外,市面上已經有許多AI自動作曲的音樂、專輯,從盧森堡的新創公司Aiva Technologies所開發的「Aiva AI作曲家」,一分鐘完成一篇交響樂作曲,到安譜科技的「輕AI」技術,即「BGMRadio.com 公播平台」,透過AI作曲提供各式各樣功能性高的音樂給中小型場所、零售業者免費使用平台中的人工智慧音樂,為業者省去每年大筆的公播版權費。
同時,人工智慧對當代音樂生態的形成有決定性的加速作用。個人化、簡單的影音製作工具降低製作成本,獨立音樂人遍地開花,科技公司推出成功黏著使用者的社群平台/音樂推薦系統,並讓線上音樂付費的習慣成為可能,滲透大眾的日常生活,而近期的演算法與音樂自動生成系統已經可以預測,甚至主導未來流行的音樂類型。
台灣唯一音樂人與電腦的溝通平台:Music & Culture Technology Lab
蘇黎以Robert Rowe(2001)的「機器音樂人」(Machine Musicianship)讓機器具備如音樂家般的「理解音樂」能力的概念解釋。所謂理解音樂的能力,包含以下五種項目:(1)「聆聽」:音色分辨、音高偵測、自動採譜等音樂辨識問題、(2)「演出」:自動跟譜、自動伴奏、(3)「創作」:自動作曲、自動編曲等音樂生成問題、(4)「論斷」:自動評分、自動修正、音樂推薦、(5)「聯想」:音樂與其他多媒體資訊的整合。
蘇黎所成立Music & Culture Technology Lab(以下簡稱MCT Lab)主要致力於「聆聽」和「演出」的音樂人工智慧研究,近期則在前兩項較成熟的技術中,納入「論斷」、「聯想」。早期的混音技術至多可利用Auto-tune的方式校正音高(pitch),但聲音顯得不自然,這是因為和弦是由多個單音所組成,且辨識受限於環境與設備,近年來音樂自動辨識技術近才逐漸成熟,現在已經可以利用深度學習與人工智慧進行人聲旋律偵測、自動同步,成為音癡的救星,擁有專業的聲線,甚至保有原唱的唱腔和技法。MCT Lab則從聲音結構中最基本的音高特徵,以「多重音高偵測」 (multi-pitch estimation) 的技術進行自動採譜,紀錄目前樂譜資料庫缺少的資料,比如說布農族的〈Pasibutbut〉小米豐收歌,也就是廣為人知的「八部合音」,在過去也只有其中四部的譜能夠被人耳辨識,其餘如異聲部、微分音、泛音唱法音僅存在於表演中,未能被記錄,就能透過多重音高偵測系統進行自動採譜。
另外,MCT Lab以音訊分析、動作生成、即時同步三個部分設計出「音樂會動畫自動生成系統」,將人工智慧技術應用於音樂視覺化、自動伴奏/合奏、自動肢體動作生成等三種表演類型,解決了過去標記困難的問題,並建立出整合型音樂分析系統。例如透過乙類神經網絡生成特定樂器演奏者的肢體架構、彈奏指法、音高位置,並依據不同情緒產生不同型態進行表演。這也代表「音樂會動畫自動生成系統」將會對媒體產業產生劃時代的改變,考驗影視產業的人力結構,以後劇組中部分角色也許不再需要透過演員和真正的音樂家先行錄製動作和音樂,在進行3D動畫製作,取代而之的是一位會使用音樂會動畫自動生成系統的電腦工程師。
音樂人工智慧的難題
最後,蘇黎再次說明音樂人工智慧在現今的主要功能是協助人類製作音樂,減去單一、重複性高的動作,或是分析部分人類無法辨識的訊號,就目前的技術水準也無法到達模仿音樂大師的創作邏輯,人類的大腦依然較為聰明,可學習、處理複雜的資訊,創作出融會各大師演奏精隨的曲子。此外,他也提出由於目前音樂市場上有大量的情境需求,人工智慧所製造的音樂即能符合大量、快速、廉價的需求,雖然設計程式的工程師具備基本樂理知識,但這時候音樂不再是「藝術」,變成「製造業」(或服務業)。