Americká organizace Artist Rights Alliance v nedávném prohlášení Stop Devaluing Music vyzvala AI vývojáře a technologické firmy, aby přestali vytvářet nástroje poškozující zájmy hudebníků, zpěváků a skladatelů. Jsou obavy z využití umělé inteligence v hudbě oprávněné? A skutečně se jedná o spor o lidskou kreativitu?
Multimediální umělec Lawrence Lek ve sci-fi filmu AIDOL (2019) popisuje příběh zpěvačky Divy usilující v roce 2065 o comeback. K úspěchu potřebuje úspěšný singl, ten se jí ale nedaří nahrát, neboť podle producentových slov jsou kreativita a osobitost už překonané vlastnosti. Producenti očekávají genericky znějící hudbu, u které bude mít posluchačstvo pocit, že už ji slyšelo. Jenže tvorba s využitím umělé inteligence je po nedávné ekologické katastrofě zakázaná. Diva nakonec přemluví ke spolupráci ghostwritera – padlý meteorologický satelit Geo. Singl se stane hitem. Přes veškerý úspěch je nicméně na první poslech jasné, že tak dokonale generickou hudbu by člověk nenapsal. Když se ukáže, že skutečným autorem je „synth“, putuje Geo do vězení, z něhož mu Diva vzápětí pomůže uniknout.
Lekův snímek s obdivuhodnou předvídavostí popsal jádro současného sporu o využívání umělé inteligence v hudbě, jež probíhá mezi technologickými giganty a americkou organizací Artist Rights Alliance (ARA). Zatímco v době vzniku filmu neurální sítě vytvářely MIDI partitury a jednoduché syntezátorové linky, o pět let později máme rozvinuté aplikace, které dokážou generovat plnohodnotnou hudbu včetně vokálu a textu. Aplikace jako AIVA, Suno, Stable Audio, Music GenAI nebo Udio ji produkují na základě textového promptu a na mnoho různých způsobů, v žánrech od opery po industriální hip hop. A právě proti rozvinutým formám generativní umělé inteligence se ohrazuje prohlášení, které podepsalo více než dvě stě amerických hudebníků a hudebnic včetně „velkých“ jmen, jako jsou Billie Eilish, R.E.M., Pearl Jam, Diana Kral, Imagine Dragons, Marc Ribot nebo Jon Bon Jovi. Prohlášení sice deklaruje, že AI nástroje mají enormní potenciál k rozvoji lidské tvořivosti, avšak některé (nejmenované) platformy je zneužívají: kreativitu naopak sabotují, poškozují zájmy skladatelů, zpěváků, hudebníků a držitelů práv a ničí hudební ekosystém. Podle otevřeného dopisu se tak děje neoprávněným využíváním datasetů k trénování AI modelů, jejichž cílem je v budoucnu nahradit živé umělce.
Fobie z AI
Kdo ve skutečnosti stojí za stížností a na koho nasazení AI nástrojů dopadne? Artist Rights Alliance je organizace, která se zabývá lobbingem ve prospěch profesionálů v hudebním průmyslu. Má významné slovo při nátlakových akcích na americký Kongres, například ve věci férového odměňování za podíl na obsahu streamovacích služeb. Současná výzva ovšem nehovoří o příjmech z hudebních práv, ale varuje před „využitím AI k vykrádání hlasů“ a zdůrazňuje, že „útok na lidskou kreativitu musí přestat“. Zaznívá tak souběžně více motivů z dlouhodobě tradovaného diskursu o vztahu mezi umělou inteligencí a člověkem. Jak popsal už na konci čtyřicátých let zakladatel moderní informatiky Alan Turing, základy fobie z umělé inteligence spočívají v její téměř dokonalé nápodobě lidské kreativity. Podle Turinga je zdrojem strachu představa, že stroje získají nad svým tvůrcem intelektuální převahu.
Strach z nahrazení člověka strojem je jednou z civilizačních fobií, které předcházejí skutečným dopadům vývoje technologie a v důsledku vytvářejí stereotypy, jež jsou následně vloženy do designu technologie samotné ještě předtím, než je uvedena do provozu. Příkladem může být snaha označovat na YouTube uměle generovaný obsah. Příznačné však je, že tento přístup nevede k odstranění skutečných dopadů technologie, jako je spotřeba energie, minerálů a vody, ale pouze k tomu, že se lidští aktéři v celém procesu cítí komfortněji.
Problém datasetů
Bylo by až příliš snadné dát popsaný diskomfort z umělé inteligence do souvislosti s luddismem 19. století, hnutím, jehož záměrem bylo ničit textilní stroje, které z trhu vytlačovaly kvalifikovanou tkalcovskou práci. Signatářům a signatářkám výzvy totiž umělá inteligence v podstatě nevadí, pokud je využívána v jejich prospěch. Ve studiové praxi je dnes například běžné použití umělé inteligence v ekvalizérech pro mastering, které samy podle natrénovaného modelu detekují, kde je třeba zvuk vyrovnat, aby zněl plněji a vyváženěji nebo se přiblížil konkrétnímu žánru. Nástroje jako Magenta pak dovolují využít AI v kompozičním procesu, například pro vytváření variací či prediktivní dokončování načrtnutých nápadů, případně malou změnou načasování humanizují strojově působící beaty. Prvky umělé inteligence se v současné kompozici používají opravdu masově a za nějakou dobu bude obtížné představit si práci bez nich. I když zmíněné nástroje pro ARA nepředstavují problém, nelze přejít skutečnost, že i za nimi stojí dataset, který tvoří šedou zónu neplacené práce a pokoutního vykrádání nejrůznějších zdrojů. Proti tomu se ale zatím nikdo nebouří.
V centru zájmu tak ve skutečnosti není otázka, zda je umělá inteligence prospěšná, či nikoli, ale kdo z ní bude profitovat. Někteří z hudebníků začali uvažovat o malých datových modelech, které by se mohly stát součástí hudební ekonomie. Jeden z nejznámějších privátních AI modelů má například Holly Herndon, jejíž tvorba tak postupně přechází od nahrávání desek k propagaci vlastních generativních nástrojů, které komukoli dovolují zpívat jejím hlasem. Kromě toho Herndon se svým partnerem Matem Dryhurstem založila startup Spawning, jehož cílem je v nepřehledném terénu AI produkce prosazovat nástroje pro podporu autorské integrity. Ty mohou mít povahu opt-in a opt-out metadat, která lze k digitálním souborům připojovat. Autor by tak mohl k nahrávce přidat „do not train“ identifikátor, který by ji automaticky vyloučil při sbírání datasetů. Navrhují také, aby tréninková data byla označována a vyhledávání bylo veřejně dostupné, například přes jejich vyhledávač haveibeentrained.com. A nakonec vznášejí otázku, zda by neměl v rámci veřejného zájmu existovat tréninkový set, který by byl otevřený všem a zároveň respektoval práva tvůrců a tvůrkyň.
Kdo bude profitovat?
Reakce amerických hudebníků a ARA obnažuje změny, které se budou týkat nastupující AI ekonomie v kulturním provozu. I když dopis podepsala řada osobitých hudebníků a hudebnic, mezi signatáři je i spousta epigonů. Je vůbec podstatné, zda stylovou repliku vytvoří neurální síť, nebo živý umělec typu Rhetta Millera, který v bezpočtu variací vykrádá klasický rockový zvuk šedesátých let? Bude mít nějaké důsledky, pokud na svém dalším albu použije dataset Beatles, a pozná to vůbec někdo? Na které straně by mělo být důkazní břemeno, pokud by došlo k soudnímu sporu o krádež stylu – bude nutné prokázat, že skladatel daný model nepoužil, nebo naopak že ho použil? I když dopis zmiňuje ohrožení kreativity, mezi jeho signatáře patří i dědicové práv umělců, kteří už nic nevytvoří, jako je Bob Marley nebo Frank Sinatra. Nejde tu ani tak o tvořivost samotnou, jako spíš o ochranu před potenciální záplavou „nových počinů“ od mrtvých umělců, jakým byl loňský singl Beatles Now And Then. V tomto světle bude například hodnota datasetu Franka Sinatry nesmírná, avšak zároveň jsou veškerá tréninková data dostupná a pokušení je veliké.
Souběžně s tím, jak se spor o autorská práva přesouvá od skladeb a melodií na celé stylové datasety, vznikají způsoby, jak celým systémem otřást. Subverzivní techniky „data poisoningu“ spočívají v tom, že se do zdravých datasetů zanesou „jedovatá“ data, která pak vytrénované modely vedou k chybným výsledkům. Technika, jež byla úspěšně využita u grafických podkladů, například způsobuje, že síť namísto psa vidí kočku nebo místo požadovaného stylu vytvoří pouhý zmatek. K otravě modelu přitom stačí pouhých tři sta vzorků. Mimo to existují datová mimikry zamezující identifikaci, i když pro lidského vnímatele je výsledek rozpoznatelný. Přestože i ta jsou dosud testována jen na grafickém obsahu, lze očekávat, že časem může vzniknout nahrávka Boba Marleyho, kterou umělá inteligence bude považovat třeba za psí štěkot.
V úvodním příběhu Divy z filmu AIDOL upoutá provokativní představa posluchačského vkusu, který preferuje předvídatelnou a stylově zařaditelnou hudbu. A podobná je zřejmě i vize budoucnosti signatářů dopisu proti predátorské AI. Má-li se stát obchodovatelným artiklem například hudební styl R.E.M., bude nutné jej přesvědčivě definovat, a jakmile se to stane, nezbude mnoho prostoru pro zbytečné experimenty. R.E.M. už budou muset znít jen tak, jak jsme zvyklí, jinak by se jejich dataset nevhodně kontaminoval. Pokud tedy něco skutečně ohrožuje kreativitu, není to samotná umělá inteligence, ale představy o jejím tržním uplatnění a nové definici autorských práv. Pravděpodobně z toho budou mít prospěch ti mocnější.
Autor je umělec a pedagog Centra audiovizuálních studií FAMU.