בינה מלאכותית יוצרת מוזיקה חדשה על פי סגנונות קיימים, ובתוך כך עוזרת לנו להבין מהי מוזיקה

מוזיקה הייתה חלק מרכזי מהחוויה האנושית מאז שחר ההיסטוריה. "האמנות של המוזות", כמשמעות המילה ביוונית,היא משלבת בתוכה קצב, מנגינה והרמוניה (או גוון), וההאזנה לה היא חוויה נעימה בדרך כלל. אין פלא שבאנגלית נולד הביטוי "כמו מוזיקה לאוזניהם", שבא לבטא תחושה מחממת לב.

יצירת מוזיקה נחשבת לרוב כעיסוק השמור לבני אדם בלבד, אך לאחרונה הגיעו לתחום שחקנים חדשים: מודלים ממוחשבים. פיתוח חדש בשם Jukebox (תיבת נגינה), שנוצר במעבדות OpenAI, משתמש ברשת עצבית מלאכותית כדי ליצור מוזיקה הכוללת שירה בכמה סגנונות מוזיקליים. רשת עצבית מלאכותית היא תוכנה המבוססת על מודל מתמטי, ומאומנת לבצע משימות מורכבות הגובלות בבינה מלאכותית, למשל ניווט ברכב אוטונומי או אבחון רפואי.

אילוסטרציה של רשת מחשבים יוצרת מוזיקה | Andrzej Dudzinski, SPL
פיתוח חדש משתמש ברשת עצבית מלאכותית כדי ליצור מוזיקה הכוללת שירה. אילוסטרציה של רשת מחשבים יוצרת מוזיקה | Andrzej Dudzinski, SPL

להתייחס למוזיקה כמכלול

בעבר פותחו מודלים שניסו להתמודד בנפרד עם חלקים שונים של המוזיקה: הקצב, המנגינה, ההרמוניה או השירה. כעת הפיתוח החדש משלב את השירה עם כלל מרכיבי המוזיקה. עקב השילוב הזה, טווח התדרים האפשרי של החומרים שמוזנים למודל הוא רחב מאוד, דבר שהופך את המודל למורכב במיוחד. לכן קשה מבחינה חישובית ללמד מחשב את הסמנטיקה או את המשמעות של כל הפרטים המרכיבים את השלם: המוזיקה. 

פתרון אחד אפשרי ופשטני לצמצום המורכבות הזאת הוא להשתמש בטווח תדרים בדיד במקום בטווח תדרים רציף. אפשר לסנן תדרים מסוימים, או אף לוותר עליהם לגמרי, כך שנישאר רק עם התדרים העיקריים שנכללים במוזיקה. כך מפחיתים את הנטל החישובי ושומרים רק את התדרים החשובים ליצירת מוזיקה. פתרון כזה, שנוסה בעבר, הצליח ליצור קטעים קצרים ומוגבלים מבחינת סוגי כלי הנגינה ששולבו בו.

הפיתוח הקודם של הקבוצה, שכונה MuseNet, הצליח ליצור קטעי מוזיקה בקבצי מִידִי (MIDI), ללא שירה, ששילבו עד עשרה כלי נגינה ונמשכו עד ארבע דקות. התוכנה התאמנה על יצירות רבות ולמדה לבדה איך ליצור תבניות של הרמוניה, קצב וסגנון אומנותי. כעת, המודל החדש של Jukebox משתמש בכל טווח התדרים, ומצליח ליצור קטעים מוזיקליים ארוכים יותר. 

המודל הוכשר באמצעות מאגר נתונים שכלל 1.2 מיליון שירים במגוון סגנונות -  מוזיקה קלאסית, רוק, פופ, ג'אז ועוד. בנוסף הצליבו החוקרים את השירים עם מאגר של מילות השירים ונתוני רקע מהאתר LyricWiki, שכלל פרטים כמו הז'אנר, שם האמן, שנת ההוצאה ואפילו מצב הרוח המתאים לשיר. 

תוצאה מעניינת של המודל היא פילוח המוזיקה לז'אנרים (סגמנטציה), על ידי אלגוריתם לצמצום ממדים בשם t-SNE. צמצום הממדים של המודל תורם לכך שהשיר שנוצר יהיה מדויק יותר ויתאים לז'אנר שלו. גם זמן החישוב מתקצר מכיוון שאפשר לכוון את המודל ליצור מלכתחילה שיר שיתאים לפילוח או לז'אנר המבוקש. התוכנה יצרה למעשה מעין עץ של קירבה בין סגנונות מוזיקה שונים, כך שאמנים שיוצרים מוזיקה דומה ימוקמו קרוב גם אם רשמית הם מזוהים עם סגנונות שונים. מומלץ להיכנס לקישור ולגלות קשרים קרובים מעניינים בין אמנים, למשל קולדפליי ודרייק או ג'ניפר לופז ודולי פרטון.

כדי להתאים את השירה למוזיקה המודל צריך להתגבר על שלל בעיות. יש למשל שירים שבוצעו בכמה גרסאות, כך שהמילים המקוריות לא בהכרח מתאימות עוד למוזיקה של הגרסה המחודשת. המודל נקט בפתרון כללי יחסית, שבו אורך השיר חולק במספר המילים, וכך כל אחת ממילות השיר קיבלה "חלון זמנים" משלה, המתאים למקומה הסידורי. השיטה הזאת אומנם התאימה לשירים רבים, אך לא לז'אנר ההיפ-הופ, שבו קצב השירה מהיר יותר. לכן השתמשו בשירי היפ-הופ בחלון זמנים רחב יותר, ובמודל מדויק יותר שחילץ את מיקום המילים מתוך השיר, אך במחיר של תוספת זמן חישוב יקר.

אילוסטרציה של מוזיקה נכנסת למוח | Shutterstock, fandijki
הפיתוח החדש משלב את השירה עם כלל מרכיבי המוזיקה. אילוסטרציה של מוזיקה נכנסת למוח | Shutterstock, fandijki

מי היוצר?

השירים שנוצרים ב-Jukebox נעימים לאוזן (נסו בעצמכם!) אך נשמעים לפעמים דומים לשירים מוכרים וקול הזמר נשמע רובוטי במקצת. כמו כן, השירים כוללים תבניות מוזיקליות כמו קטעי סולו, אך עדיין חסרים בהם אלמנטים חשובים, למשל פזמון חוזר. ברקע עוד אפשר להבחין במעין רעש לבן שנובע מהדרך שבה הנתונים נדחסים במהלך העיבוד שלהם. התוכנה זקוקה לתשע שעות בערך כדי ליצור דקה אחת של שיר, כך שכנראה לא נשמע בקרוב יצירה של בינה מלאכותית שנוצרה באופן מיידי.

כמו טכנולוגיות חדשות רבות, גם האפשרות של ייצור מוזיקה באמצעות מחשב מעוררת לא מעט מחלוקת. המתנגדים טוענים כי טכנולוגיות כאלה יפגעו בערך המוסף שאנו מייחסים ליצירה האנושית. בנוסף, לא קשה לדמיין מצב עתידי שבו מספר מצומצם של חברות גדולות ישלטו במשאבים החישוביים ליצירת מוזיקה ללא מעורבות אנושית. מנגד, יש כבר אמנים שמוכנים לאמץ את הטכנולוגיה ולהשתמש ביצירה הסינתטית כבסיס ליצירה חדשה ומקורית.

נשאלת גם השאלה אם תוכנה שמתבססת על שירים של פרנק סינטרה, למשל, כדי ליצור שיר בסגנון דומה, אינה מפרה את זכויות היוצרים של האמן. אחרי הכול, בלי מאגר הנתונים המבוסס על השירים המקוריים, התוכנה לא תוכל ליצור שירים חדשים יש מאין. מבחינה חוקית, כך מסתמן, אמנים יצטרכו להסכים שעותק של השיר שלהם ייכנס למאגר הנתונים. כמו כן, השיר החדש שנוצר אמור להתאים מנגינה למילות שיר שנכתבות על ידי המודל והחוקרים עצמם – והמילים המקוריות של השירים במאגר מוגנות לרוב בזכויות יוצרים. ולבסוף, ייתכן שאפילו ניסיון לחקות את הסגנון של יצירה קיימת עלול לעבור על חוקי זכויות יוצרים. לדוגמה, הראפר ג'יי-זי ביקש מיוטיוב להוריד שירים שיצרה בינה מלאכותית על בסיס שירים מקוריים שלו. 

נראה שבעתיד הקרוב עדיין לא נשקפת סכנה לפרנסתם של מוזיקאים אנושיים, ובכלל זה זמרים, מלחינים, פזמונאים וכדומה. עם זאת, כבר עכשיו תוכנות בינה מלאכותית יכולות לעזור לנו להבין טוב יותר את המאפיינים והרבדים החשובים ליצירת מוזיקה. כפי שכתב הפיזיקאי זוכה פרס נובל ריצ'רד פיינמן: "אם איני יכול ליצור משהו, אינני מבין אותו".