Europe Business News

Microsoft Mengumumkan Akses Terbatas ke Neural Text-to-Speech AI

Microsoft Mengumumkan Akses Terbatas ke Neural Text-to-Speech AI


Baru-baru ini, Microsoft mengumumkan akses terbatas ke AI text-to-speech saraf yang disebut Suara Neural Khusus. Layanan ini memungkinkan pengembang untuk membuat suara sintetis khusus.

Suara Neural Khusus adalah fitur Text-to-Speech (TTS) dari Ucapan di Azure Cognitive Services yang memungkinkan pengguna membuat suara sintetis khusus yang unik untuk merek mereka. Sejak pratinjau tahun lalu pada bulan September, fitur tersebut membantu beberapa pelanggan seperti AT&T, Duolingo, Progressive, dan Swisscom untuk mengembangkan solusi ucapan bermerek bagi pelanggan mereka. Fitur ini tersedia secara umum (GA), namun akses bagi pelanggan ke Suara Neural Khusus mencakup kontrol teknis untuk mencegah penyalahgunaan layanan – mereka harus mengajukan permohonan.

Teknologi Neural TTS yang mendasari Microsoft untuk Suara Neural Kustom terdiri dari tiga komponen utama: Text Analyzer, Neural Acoustic Model, dan Neural Vocoder. Komponen pertama, Penganalisis Teks, bertanggung jawab untuk menghasilkan ucapan alami dan sintetis dari teks. Teks tersebut pertama kali dimasukkan ke dalam Text Analyzer, yang memberikan keluaran dalam bentuk urutan fonem (satuan dasar bunyi yang membedakan satu kata dari kata lain dalam bahasa tertentu). Selanjutnya, urutan fonem menentukan pengucapan kata-kata yang disediakan dalam teks, yang masuk ke dalam Model Akustik Saraf untuk memprediksi fitur akustik yang menentukan sinyal ucapan, seperti timbre, gaya bicara, kecepatan, intonasi, dan pola tekanan. Dan terakhir, Neural Vocoder mengubah fitur akustik menjadi gelombang suara untuk menghasilkan ucapan sintetis.

Model suara TTS saraf dilatih menggunakan jaringan saraf dalam berdasarkan sampel rekaman suara nyata. Dengan kemampuan penyesuaian Suara Neural Kustom, pelanggan dapat menyesuaikan mesin TTS Neural agar lebih sesuai dengan skenario pengguna mereka. Untuk memanfaatkan suara neural khusus, pelanggan memerlukan akun Azure dan langganan. Selanjutnya, setelah persetujuan untuk menggunakan fitur tersebut, mereka dapat memulai proyek suara khusus, mengunggah data, melatih, menguji, dan menerapkan model suara.

Sumber: https://github.com/MicrosoftDocs/azure-docs/blob/master/articles/cognitive-services/Speech-Service/how-to-custom-voice.md

Ada berbagai kasus penggunaan yang memungkinkan pelanggan untuk memanfaatkan Suara Neural Khusus, seperti chatbot layanan pelanggan, asisten suara, pembelajaran online, buku audio, pengumuman layanan publik, dan terjemahan waktu nyata. Pengguna sebelumnya, Swiss.com, ingin menciptakan pengalaman pelanggan yang lebih menarik dengan membangun asisten suara yang secara unik mewakili mereknya. Dalam berita Microsoft Switzerland, penulis menulis:

Dengan menggunakan layanan Speech, Swisscom telah memberi pelanggannya akses ke asisten suara multibahasa yang cerdas, membantu meningkatkan pengalaman pelanggan dan mempercepat transformasi digitalnya sendiri.

Qinying Liao, manajer program utama di Microsoft, menjelaskan dalam entri blog Azure AI tentang manfaat memanfaatkan Suara Neural Khusus:

Diberdayakan dengan teknologi ini, Suara Neural Khusus memungkinkan pengguna membuat suara yang sangat realistis hanya dengan sejumlah kecil audio pelatihan. Teknologi baru ini memungkinkan perusahaan untuk menghabiskan sepersepuluh dari upaya yang secara tradisional diperlukan untuk menyiapkan data pelatihan sementara pada saat yang sama secara signifikan meningkatkan kealamian keluaran ucapan sintetik bila dibandingkan dengan metode pelatihan tradisional.

Tambahan, Holger Mueller, analis utama dan wakil presiden di Constellation Research Inc., mengatakan kepada InfoQ:

Untuk membuat komputer lebih manusiawi, ucapan adalah bahan penting, dan pada tahun 2020 perusahaan harus meninggalkan suara robotik dan standar, aksen ucapan sintetik di masa lalu. Cloud memungkinkan tingkat penciptaan pengalaman suara yang dipersonalisasi ini – dengan ketersediaan, komputasi murah, dan kapasitas operasional. Jadi, ini adalah kasus penggunaan yang tersebar luas di seluruh pemain IaaS / PaaS – dan cocok untuk perusahaan dan pelanggan mereka, dan bahkan karyawan karena mereka mendapatkan pengalaman yang lebih manusiawi.

Terakhir, selain kemampuan untuk menyesuaikan model suara TTS, Microsoft menawarkan lebih dari 200 suara neural dan standar yang mencakup 54 bahasa dan lokal.


Author : Toto SGP