Microsoft Yeni Bir Şarkı Ses Sentezi (SVS) Geliştirdi: Deep Singer

Microsoft araştırmacıları tarafından yapılan çalışmada “Deep Singer” adı verilen ve sadece webdeki örnekleri kullanarak çalışabilen bir yapay zeka (YZ) teknolojisi geliştiriliyor.

 

Araştırmayla ilgili olarak yayınlanan makalede Deep Singer’ın değişik müzik sitelerinden veri madenciliği yöntemiyle elde edilen “Şarkı eğitimi verileri” sayesinde geliştirildiği anlatıldı.

 

Şarkılar vokaller ve enstrümanlar olarak ayrıştırıldıktan sonra tekil cümlelere ve ses birimlerine (fenom) bölündü. Bunlardan elde edilen veriler, gene Microsoft tarafından geliştirilmekte olan “FastSpeech” yazıdan sese dönüştürme teknolojisi kullanılarak, “Şarkı söyleme modeline” dönüştürüldü. Sonuçta Çince, Kantonca ve İngilizce söyleyebilen bir YZ ortaya çıktı.

 

Metinden sese dönüştürme teknolojilerinin yoğun olarak kullanıldığı düşünülünce, araştırmanın çok önemli olmadığı sonucuna varmak mümkün gözükmekle beraber çok doğru olmaz. Öncelikle söz yazımı, sonrasında bunların belli bir perdeden icrası ve   notalarla senkronizasyonu yeteneklerini gerektiren şarkı icrası, insanlara mahsus olağanüstü bir özellik.

 

Birçok insanın kolaylıkla başarabileceği bu işlerin yapılmasını makinelere öğretmek ise o kadar kolay değil. Öncelikle metni sese dönüştürmeleri, sonra seslerle notaları, heceler hatta fenomlar düzeyinde eşleştirmeleri ve bunun doğru bir perdeden, doğru bir süreyle yapmaları gerekiyor. Konu üzerinde yapılan birçok çalışma başarılı gözükse bile gerçekçi bir ses üretmek için uzun süreli ince ayarlar yapılması gerekiyor.

 

Araştırma Çin’deki Zhejiang Üniversitesi ile birlikte yapıldı. Yayınlanan makalede yeni teknolojinin ayırt edici özellikleri arasında verileri web ortamından alması, sözlerden icraya geçiş arasındaki uzun süren ve maliyetli olan düzenlemeleri ortadan kaldırması, vokalleri ayrıştırması ve karmaşık akustik modellemelere gereksinim duymaması, farklı dillerde icraya olanak tanıması sıralandı.

 

Yapılan ilk çalışmada 92 saat uzunluğunda 89 şarkıcıya ait üç dildeki icra verilerini işlenmesi sonrasında doğru perde kullanımı ve ses doğallığı bakımından yüksek kaliteye ulaşmış bir sonuç elde edildiği belirtildi.

İlginizi Çekebilecek Yazılar  Korsan Sitelere Ziyaretler

 

Çalışmanın ilki insan tarafından ikincisi YZ tarafından icra edilmiş kısa örneklerine, aşağıdaki linklerden ulaşmak mümkün.

 

https://xiaoicesing.github.io/audio/Recording1.wav

https://xiaoicesing.github.io/audio/Fastspeech1.wav

 

Fotoğraf: Michael Dziedzic