君子以泽,盗墓笔记txt全集下载,好看的小说君子以泽

文 | 硅谷101，作者｜陳茜

音樂，對你來說，是什么？

音樂對于我們中的許多人來說，是生活中不可或缺的一部分。它不僅僅是娛樂，更是一種情感的表達(dá)和交流方式。音樂是一種語言，可以用來表達(dá)感受，描繪作曲家想要傳達(dá)的某種情緒或感覺，同時(shí)每個(gè)人也會(huì)對原始樂譜進(jìn)行自己的解讀。

但在2024年，我聽到了一個(gè)截然不同的答案。

震動(dòng)的藝術(shù)：AI音樂大模型背后的技術(shù)突破、版權(quán)訴訟和資本蛋糕第1張

如果以“微小單元空氣震動(dòng)的排列組合”來定義音樂，這簡直太符合這一輪生成式人工智能的能力覆蓋范圍了。

果不其然，在2024年，以Suno為首的眾多AI音樂模型和產(chǎn)品爆火，這些用簡單提示詞、幾十秒就能生成的AI作詞、作曲、演唱曲目，效果好到讓人大為震撼。

音樂AI模型是怎么發(fā)展起來的？中間的技術(shù)細(xì)節(jié)是如何實(shí)現(xiàn)的？AI音樂目前能否替代人類歌手或音樂家呢？以及AI浪潮將會(huì)如何影響整個(gè)音樂產(chǎn)業(yè)市場？

硅谷101接觸了AI音樂模型從業(yè)者、打擊樂教授、樂隊(duì)和各種樂器的演奏者，和大家一起來共同探索AI音樂的顛覆與技術(shù)邊界。

01 Suno AI的風(fēng)靡與爭議

2024年5月末，總部位于波士頓的AI音樂公司Suno在社交媒體X上宣布成功完成了1.25億美元的 B輪融資，投后估值達(dá)到5億美元，用戶數(shù)量快速增長至超過1000萬。微軟等科技巨頭更是將 Suno的AI音樂創(chuàng)作功能直接整合到了旗下的Copilot產(chǎn)品中。

震動(dòng)的藝術(shù)：AI音樂大模型背后的技術(shù)突破、版權(quán)訴訟和資本蛋糕第2張

像這輪AI浪潮中的眾多明星項(xiàng)目一樣，Suno的創(chuàng)立時(shí)間很短，2022年才成立，在B輪融資之前公司僅有12人。

在2024年3月，Suno突然爆火。Text to music，文生音樂的能力巨大提升，讓大家驚呼：AI音樂的ChatGPT時(shí)刻，就這么到來了。

乍一聽，真的覺得AI作曲已經(jīng)非常好聽了，不管是曲調(diào)，還是歌詞，還是歌手唱腔，作為一個(gè)音樂小白和唱歌經(jīng)常走調(diào)的人，我覺得這些歌已經(jīng)非常好聽，遠(yuǎn)超現(xiàn)在的一些十八線歌手的網(wǎng)絡(luò)口水歌。而這會(huì)不會(huì)掀起音樂市場和唱片公司這些資本方的腥風(fēng)血雨呢？

2024年6月底，根據(jù)美國唱片業(yè)協(xié)會(huì)(Recording Industry Association of America, RIAA)的官方通告，包括索尼、環(huán)球和華納在內(nèi)的三大唱片公司及旗下廠牌集體向Suno和另外一家AI音樂應(yīng)用Udio發(fā)起訴訟。起訴狀中提供了旋律雷同的例子和細(xì)節(jié)對比分析，而原告要求每一首侵權(quán)作品需賠償15萬美元。

震動(dòng)的藝術(shù)：AI音樂大模型背后的技術(shù)突破、版權(quán)訴訟和資本蛋糕第3張

這個(gè)官司打出結(jié)果可能還需要一段時(shí)間，不過我其實(shí)對這起訴訟也并不感到意外。首先，AI音樂的出現(xiàn)勢必會(huì)動(dòng)到傳統(tǒng)音樂資本的市場蛋糕，肯定會(huì)引發(fā)抵觸，這個(gè)市場蛋糕是具體哪一塊我們稍后會(huì)分析。

其次，在Suno剛火起來的時(shí)候，有AI模型的業(yè)內(nèi)人士就對我們表達(dá)過懷疑，他們認(rèn)為，Suno的效果這么好，可能是因?yàn)橛昧擞邪鏅?quán)的音樂做訓(xùn)練。

我們在這里不作任何的結(jié)論，只是單純的傳達(dá)出業(yè)內(nèi)人士的困惑：他們認(rèn)為，AI音樂這個(gè)產(chǎn)品很多科技公司，如果說谷歌和Meta都在做，但效果都不如Suno AI，難點(diǎn)都不在模型本身，難點(diǎn)是在于可以用來訓(xùn)練的參數(shù)，也就是沒有版權(quán)問題的歌曲。

比如說：一線歌手的流行音樂不能用，有版權(quán)；影視作品音樂不能用，有版權(quán)；就連已經(jīng)算作public domain（公有領(lǐng)域）的交響樂，只有曲譜是沒有版權(quán)問題的，而被各大樂團(tuán)演奏出來的版本依然是有版權(quán)限制的，也是不能拿去做AI訓(xùn)練的。

也就是說，可能人類目前最頂尖的音樂作品，很大一部分都是無法擺脫版權(quán)問題而拿去給AI訓(xùn)練的。那么谷歌和Meta怎么解決這個(gè)問題呢？

作為科技巨頭，他們花了天價(jià)，去雇一群音樂創(chuàng)作人，專門給他們自己創(chuàng)作不同類型的音樂，然后用這些沒有版權(quán)顧慮的音樂去訓(xùn)練自己的AI音樂模型。這個(gè)成本，顯然是Suno等小創(chuàng)業(yè)公司無法去負(fù)擔(dān)的。

這場官司會(huì)如何發(fā)展，Suno到底有沒有用有版權(quán)的音樂訓(xùn)練模型，我們也會(huì)繼續(xù)關(guān)注事態(tài)的發(fā)展。

不過，我們來繼續(xù)聊點(diǎn)好玩的，這期節(jié)目我們也邀請到了Meta的Music Tech Lead（AI音樂技術(shù)主管）Roger Chen，來跟我們一起詳細(xì)聊一下AI音樂模型的細(xì)節(jié)。

02 AI音樂模型拆解

Chapter 2.1 第一層壓縮及碼本

Roger就告訴我們，用機(jī)器學(xué)習(xí)做音樂這件事情已經(jīng)做了好幾年了。在業(yè)界大家已經(jīng)意識到，如果“音樂的定義”可以被理解成，聲音在空氣中的震動(dòng)產(chǎn)生不同的頻率和幅度，那我們可以把聲音標(biāo)記成電信號。

震動(dòng)的藝術(shù)：AI音樂大模型背后的技術(shù)突破、版權(quán)訴訟和資本蛋糕第4張

我們知道，在如今基于Transformer架構(gòu)的大語言模型中，token代表模型可以理解和生成的最小意義單位，是模型的基礎(chǔ)單位。

而在AI音樂中，各種音樂維度都可以表達(dá)成token序列，包括：節(jié)奏、速度、和聲、調(diào)性、段落、旋律、歌詞還有唱腔音色等等，一切皆可token化。

但是，這里的技術(shù)難題是：音頻中的信息太豐富了。舉個(gè)例子：音樂被錄制下來之后，如果用離散的數(shù)字來表示，每秒鐘通常是有44100個(gè)采樣。如果大家仔細(xì)看之前買的CD，上面會(huì)標(biāo)注44.1kHz的字樣。

如果1秒有44100個(gè)采樣，那么3分鐘的一首歌，就有3×60×44100=7938000這么多個(gè)采樣。如果把每個(gè)采樣都對應(yīng)一個(gè)token，那么對于模型訓(xùn)練來說是一個(gè)天文數(shù)字。

震動(dòng)的藝術(shù)：AI音樂大模型背后的技術(shù)突破、版權(quán)訴訟和資本蛋糕第5張

如何將音頻token化，這成為了AI在音樂模型上發(fā)展的難題。直到幾年前，Meta和谷歌在音頻采樣壓縮技術(shù)上出現(xiàn)了技術(shù)突破，能實(shí)現(xiàn)將音頻采樣轉(zhuǎn)化為更少量的token，其中的壓縮幅度達(dá)到幾十幾百倍，因此，AI音樂的發(fā)展才開始提速。

震動(dòng)的藝術(shù)：AI音樂大模型背后的技術(shù)突破、版權(quán)訴訟和資本蛋糕第6張

震動(dòng)的藝術(shù)：AI音樂大模型背后的技術(shù)突破、版權(quán)訴訟和資本蛋糕第7張

Google的SoundStream，以及Meta的EnCodec技術(shù)，能讓3分鐘音樂的7938000采樣，被大幅度壓縮到以幾毫秒甚至幾十毫秒的長度來計(jì)算的token序列。每一個(gè)token，都可以用一個(gè)數(shù)字對應(yīng)表示。

震動(dòng)的藝術(shù)：AI音樂大模型背后的技術(shù)突破、版權(quán)訴訟和資本蛋糕第8張

震動(dòng)的藝術(shù)：AI音樂大模型背后的技術(shù)突破、版權(quán)訴訟和資本蛋糕第9張

用數(shù)字表現(xiàn)音頻，這被稱為codebook（碼本）。在實(shí)際操作中，人們發(fā)現(xiàn)，當(dāng)把音樂轉(zhuǎn)換成一串?dāng)?shù)字的時(shí)候，它會(huì)有一定的程度的失真。也就是說，碼本的大小會(huì)決定音頻的質(zhì)量。

Roger Chen

Meta音樂技術(shù)負(fù)責(zé)人

假如說我們一共只用1000個(gè)數(shù)字來表示天底下所有的音頻的話，那么它失真會(huì)非常嚴(yán)重，但是我們用100萬個(gè)，那可能失真就不那么嚴(yán)重了。

然而，雖然從事AI音樂的研究員們意識到大語言模型理解和生成token的方式是一種新的生成音樂的方式，但難點(diǎn)是，音樂的序列很長。比如每個(gè)token代表5毫秒，3分鐘的歌曲就有36000個(gè)token。

震動(dòng)的藝術(shù)：AI音樂大模型背后的技術(shù)突破、版權(quán)訴訟和資本蛋糕第10張

即使谷歌和Meta的壓縮技術(shù)已經(jīng)將三分鐘音頻的7938000個(gè)采樣的信息量壓縮到了36000個(gè)token，已經(jīng)縮小了這么多倍，但依然，這樣的token量對于大語言模型來說，還是太大了。

這就形成了一個(gè)悖論：碼本小，失真嚴(yán)重，效果不好；碼本大，效果好，但token量太大而沒法拿去GPT生成。

由于這么大的token量無法用GPT模型來完成，在AI音樂的前幾年，效果一直沒那么驚艷。

震動(dòng)的藝術(shù)：AI音樂大模型背后的技術(shù)突破、版權(quán)訴訟和資本蛋糕第11張

當(dāng)時(shí)，AI生成音樂的普遍做法是把音頻先轉(zhuǎn)換成頻譜frequency spectrum，就是這種圖，然后再用圖片的方式從擴(kuò)散模型diffusion model去生成。擴(kuò)散模型的AI生成原理我們在之前講Sora視頻生成的時(shí)候詳細(xì)講過，感興趣的小伙伴可以去往回翻去看看那期。

震動(dòng)的藝術(shù)：AI音樂大模型背后的技術(shù)突破、版權(quán)訴訟和資本蛋糕第12張

但是，用擴(kuò)散模型生成出來的音頻效果非常不好，因?yàn)槟B(tài)轉(zhuǎn)換期間，會(huì)有很多細(xì)節(jié)信息丟失，導(dǎo)致生成成品的失真。而如果要用GPT模型的話，必須要解決音樂序列長、token太多的問題。這個(gè)時(shí)候，又一個(gè)重要的技術(shù)出現(xiàn)了突破：第二層音頻壓縮技術(shù)。Chapter 2.2 第二層音頻壓縮技術(shù)簡單來說，在基本無損音頻信息的情況下，人們發(fā)現(xiàn)，音頻token還能被繼續(xù)壓縮。首先，研究員們發(fā)現(xiàn)，音頻的token可以進(jìn)行分層壓縮及解碼，來減小大模型中Transformer架構(gòu)的上下文壓力。我們剛才說3分鐘的音樂有36000個(gè)token，如果將這些token序列三個(gè)分為一組，先將它們打包，在這一層做一個(gè)小小的壓縮，36000個(gè)token就被壓縮到12000個(gè)token了，然后放進(jìn)Global Transformer大語言模型，等模型輸出了12000個(gè)token之后，再把每個(gè)token通過Local Transformer展開成三個(gè)原來的token數(shù)量。

震動(dòng)的藝術(shù)：AI音樂大模型背后的技術(shù)突破、版權(quán)訴訟和資本蛋糕第13張

所以，這樣將Token先壓縮分層，再展開的方式讓大模型的上下文壓力減小，也能讓生成的時(shí)間變得更快。從最開始的三分鐘音樂的7938000個(gè)采樣，到如今的12000個(gè)token，這么多倍的壓縮。才有了AI音樂大模型的風(fēng)靡全球。而我們不排除以后有技術(shù)可以把音頻token量壓縮得更小，讓音樂生成更快、更順滑、有更多的細(xì)節(jié)和信息。我們來總結(jié)一下：先是將音樂token化的技術(shù)，加上近年音頻壓縮技術(shù)的出現(xiàn)和發(fā)展，伴隨著GPT這樣的大語言模型能力的增強(qiáng)，還有text to speech（文生語音）模型的進(jìn)步，使得AI音樂的能力得到了飛速提升，無論在作曲、作詞還是演唱上，都越來越逼真、越來越擬人。這也就造就了Suno AI的爆火。從Roger跟我們的分析來看，只要AI學(xué)了足夠多的參數(shù)和曲目，就可以生成任何風(fēng)格的作品。

震動(dòng)的藝術(shù)：AI音樂大模型背后的技術(shù)突破、版權(quán)訴訟和資本蛋糕第14張

所以，如果你是一個(gè)音樂從業(yè)者的話，面對如今AI音樂的能力，你是否擔(dān)心自己的工作不保呢？AI音樂會(huì)對我們的娛樂產(chǎn)業(yè)造成顛覆性的影響嗎？音樂家和歌手們的飯碗還能保得住嗎？我們跟一眾音樂家們聊了聊，但好像，大家并沒有太擔(dān)心被取代這件事情。那么，AI取代的會(huì)是誰呢？

03 AI音樂帶來的顛覆

Chapter 3.1 AI能替代人類音樂家嗎？

在做Suno和AI音樂這個(gè)選題的前后這么幾個(gè)月的時(shí)間，我自己也在嘗試不同的作曲，試試各種的prompt詞和調(diào)里面的變量，還是挺好玩的，我也會(huì)去聽聽Suno或者其它AI音樂平臺(tái)的榜單，聽一下別人用AI創(chuàng)作的歌，真的很不錯(cuò)。我也建議大家都去玩玩看。

震動(dòng)的藝術(shù)：AI音樂大模型背后的技術(shù)突破、版權(quán)訴訟和資本蛋糕第15張

但是聽久了我發(fā)現(xiàn)一個(gè)問題：AI創(chuàng)作出來的歌曲雖然乍一聽還不錯(cuò)，但不會(huì)有那種讓我一遍又一遍很上頭的音樂，不會(huì)讓我特別有感情上的共鳴，風(fēng)格也慢慢變得很雷同。可能是訓(xùn)練參數(shù)的匱乏，讓AI音樂很難創(chuàng)造出人類頂級水平的歌曲，因此我很難想象，這些AI音樂會(huì)在五年或者十年之后，有任何一首能經(jīng)得起時(shí)間的檢驗(yàn)，還能在人們之中口口相傳。

那么，Suno在專業(yè)音樂人眼中是如何的存在呢？能掀起什么風(fēng)浪呢？我們接觸了知名音樂博主“叨叨馮”，也是我自己很喜歡看的一個(gè)頻道。叨叨原名是馮建鵬，是美國Hartford大學(xué)音樂學(xué)院打擊樂講師，也是紐約百老匯全職演奏家。他認(rèn)為，AI目前可以達(dá)到音樂屆的平均水平，但這樣的平均水平，不足以在這個(gè)行業(yè)中出挑。

震動(dòng)的藝術(shù)：AI音樂大模型背后的技術(shù)突破、版權(quán)訴訟和資本蛋糕第16張

馮建鵬在自己的頻道上也做了多期用AI作曲的視頻，嘗試了各種曲風(fēng)，包括更細(xì)節(jié)嚴(yán)謹(jǐn)?shù)膒rompt來控制樂器、節(jié)奏、音樂風(fēng)格等等，結(jié)論是AI作曲還有非常多的缺陷，包括Suno無法理解鋼琴的賦格，特定樂器的要求也沒有達(dá)到，生成復(fù)雜一點(diǎn)的音樂形式，比如說交響曲，效果非常差。他認(rèn)為，之后AI模型的能力肯定會(huì)越來越強(qiáng)，但距離替代音樂人還早，但如今音樂從業(yè)者也不用抗拒AI，反倒是可以利用AI來作為更好的創(chuàng)作工具。

震動(dòng)的藝術(shù)：AI音樂大模型背后的技術(shù)突破、版權(quán)訴訟和資本蛋糕第17張

震動(dòng)的藝術(shù)：AI音樂大模型背后的技術(shù)突破、版權(quán)訴訟和資本蛋糕第18張

而馮建鵬屢次提到的音樂“態(tài)度”和“情緒”，也是我們在跟眾多音樂演奏者們聊天的時(shí)候他們提到的最多的關(guān)鍵詞。他們認(rèn)為，這是人類在演奏樂器或演唱的時(shí)候，最重要的元素。就如同，同樣的一個(gè)曲譜，不同演奏者會(huì)有不同的解讀和表現(xiàn)方式，而就算是同一首曲子同一個(gè)演奏者，他的每一次表演都是不同的，都是獨(dú)一無二的。而情感的共鳴，是對于接受音樂欣賞音樂的作為觀眾的我們來說，最珍貴的部分。

震動(dòng)的藝術(shù)：AI音樂大模型背后的技術(shù)突破、版權(quán)訴訟和資本蛋糕第19張

建議大家可以去視頻里聽聽Kevin演奏的不同風(fēng)格的曲子。Chapter 3.2 版權(quán)音樂和口水歌將受沖擊

我想了想，我會(huì)買高價(jià)票去看朗朗或者王羽佳的演奏會(huì)，但我估計(jì)不會(huì)買票去聽機(jī)器人彈鋼琴。那么問題來了，AI音樂，如果以現(xiàn)在的能力來看，它沖擊的是什么市場呢？Meta Music and copyrights團(tuán)隊(duì)的技術(shù)負(fù)責(zé)人Huang Hao告訴我們，版權(quán)庫音樂和口水歌市場將會(huì)是受到?jīng)_擊的市場蛋糕。

震動(dòng)的藝術(shù)：AI音樂大模型背后的技術(shù)突破、版權(quán)訴訟和資本蛋糕第20張

第二階段我覺得做口水歌的這些網(wǎng)紅歌手可能就沒了。其實(shí)在國內(nèi)抖音上面幾乎被這種非常低質(zhì)量的口水歌完全占據(jù)了，這些歌你拿來做視頻是非常有意思，因?yàn)樗墓?jié)奏一般都很歡快，然后它的旋律實(shí)際上是大眾都已經(jīng)熟知的那些和旋。我覺得這些網(wǎng)紅歌、口水歌可能會(huì)很快的被替代掉。

那什么是沒法或者說很難去替代呢？就是很強(qiáng)的音樂人，比如說周杰倫，Taylor Swift、Billie Eilish這種，Coplay這些我覺得都很難（被替代）。所以非常有創(chuàng)意的這些音樂，我覺得還是有它存在的價(jià)值，但是可以看得到其實(shí)對音樂人，對整個(gè)市場，我覺得還是有很大的擠壓的。

對于音樂創(chuàng)作者和演奏者來說，音樂的功能性和商品性也許慢慢會(huì)被AI替代，但音樂的精神共鳴層面永遠(yuǎn)處于個(gè)人。

震動(dòng)的藝術(shù)：AI音樂大模型背后的技術(shù)突破、版權(quán)訴訟和資本蛋糕第21張

震動(dòng)的藝術(shù)：AI音樂大模型背后的技術(shù)突破、版權(quán)訴訟和資本蛋糕第22張

那我們現(xiàn)在清楚了在音樂創(chuàng)作上和市場沖擊上，AI音樂技術(shù)的邊界。而在立法上，大公司們以及政策制定者們也正在行動(dòng)，而這將更加規(guī)范AI音樂的未來發(fā)展。

04 訴訟、立法、零樣本訓(xùn)練與AI音樂的未來

在2024年7月12日，美國參議院的三位國會(huì)議員提出了一個(gè)針對AI版權(quán)的新法案COPIED Act，全稱是The Content Origin Protection and Integrity from Edited and Deepfaked Media Act，直譯過來是“內(nèi)容來源保護(hù)和完整性防止編輯和深度偽造媒體法案”。

震動(dòng)的藝術(shù)：AI音樂大模型背后的技術(shù)突破、版權(quán)訴訟和資本蛋糕第23張

這個(gè)法案的目的，主要是制定完善的規(guī)則來標(biāo)記、驗(yàn)證和檢測生成式AI產(chǎn)品，包括文字、圖片、音頻和視頻，提升生成內(nèi)容的透明度防止被非法亂用以及保護(hù)公眾的個(gè)人數(shù)據(jù)和隱私。同時(shí)保護(hù)記者、音樂人、演員和其他藝術(shù)、商業(yè)群體的利益，并保留對非法使用數(shù)據(jù)訓(xùn)練AI大模型的法律追究權(quán)益。

比如說，法案規(guī)定，任何商業(yè)生成式AI產(chǎn)品必須讓用戶知道這是AI生成的，比如說ChatGPT生成的廣告文案或社交媒體帖子，一旦是商用范疇，就必須要明確標(biāo)注是由AI生成，并且禁止任何人故意移除或篡改AI生成的標(biāo)注信息。

另外這個(gè)法案重要的一點(diǎn)是給出了明確的賠償機(jī)制，明確禁止AI廠商在未經(jīng)明確、知情同意的情況下，使用具有受版權(quán)保護(hù)作品的數(shù)字內(nèi)容來訓(xùn)練AI大模型和算法。如果侵犯便需要進(jìn)行賠償。

這個(gè)法案一出，是受到了各種工會(huì)、唱片協(xié)會(huì)、新聞聯(lián)盟等等組織的大聲叫好。

震動(dòng)的藝術(shù)：AI音樂大模型背后的技術(shù)突破、版權(quán)訴訟和資本蛋糕第24張

所以，我們在開頭提到的Suno被三大唱片公司起訴的官司可能會(huì)根據(jù)這個(gè)最新的法案來宣判指導(dǎo)，我們也會(huì)為大家繼續(xù)關(guān)注這方面的法律進(jìn)展。

但毫無疑問的是，技術(shù)和法律的關(guān)系，有時(shí)候，總是很模糊，經(jīng)常是上有政策下有對策。

比如說，我最近學(xué)習(xí)到，AI音頻上還有一個(gè)技術(shù)被稱為“零樣本訓(xùn)練”(Zero-shot learning)。

在學(xué)術(shù)上的解釋是：訓(xùn)練AI模型來識別和分類對象或概念，而無需事先見過這些類別或概念的任何示例。

震動(dòng)的藝術(shù)：AI音樂大模型背后的技術(shù)突破、版權(quán)訴訟和資本蛋糕第25張

簡單一點(diǎn)來說，就是把“數(shù)據(jù)”和“大模型的學(xué)習(xí)方式”給解耦合，比如說你告訴大模型我要生成一個(gè)跟某位歌手很像的聲音，或者是一段這個(gè)樂器音色很像的曲子，那么通過“零樣本訓(xùn)練”，大模型雖然沒有見過或者通過特定樣本訓(xùn)練，但它也可以模仿進(jìn)行輸出。

“零樣本訓(xùn)練”目前在音樂生成上還沒有被廣泛應(yīng)用，但在語音合成上已經(jīng)很成熟了，所以我們可以預(yù)見，以后如果用戶拿著幾秒種的音頻文件作為例子，大模型就可以迅速復(fù)制例子音色，這樣的技術(shù)對產(chǎn)權(quán)保護(hù)更難監(jiān)管。

突然想到，前段時(shí)間OpenAI在發(fā)布產(chǎn)品GPT-4o的時(shí)候，語音的音色被認(rèn)為很像電影《Her》的配音演員斯嘉麗·約翰遜。而約翰遜爆料說，之前OpenAI CEO Sam Altman確實(shí)找過她希望用她的聲音給4o配音，但她拒絕了。