微軟近日通過Copilot Labs推出全新AI語音生成工具Copilot Audio Expressions,進一步擴展了人工智能在語音合成領(lǐng)域的能力。該工具專注于生成更具表現(xiàn)力和情感層次的英文語音,提供Emotive(情感表達)和Story(故事創(chuàng)作)兩種模式,用戶無需注冊即可直接體驗并下載MP3格式音頻。
在Emotive模式下,用戶可自主選擇音色和敘述風格,例如媒體測試中選用“Oak”音色和“narration”風格輸入火車站場景腳本,生成語音不僅準確朗讀文本,還自動調(diào)整措辭、增添細節(jié),使表達更貼近真人。單段音頻最長支持59秒,提供超過十種聲音與風格組合,顯著提升了語音的自然度和感染力。
Story模式進一步體現(xiàn)了該工具的智能化水平。用戶只需輸入主題提示,系統(tǒng)即自動分配音色與風格,生成多角色敘事內(nèi)容。例如,輸入“講一個貓在暗處潛行覓食的故事”后,AI生成了一段長達90秒的音頻,其中旁白采用美式口音,貓的角色使用英式口音,并在敘述中穿插互動對話,形成流暢自然的作品效果。測試表明,該模式在情節(jié)構(gòu)建、角色區(qū)分和聲音融合方面表現(xiàn)突出,成品更接近多人配音合作,而非單調(diào)的機器朗讀。
這一技術(shù)的推出,顯示了微軟在生成式AI和語音合成領(lǐng)域的持續(xù)進步。通過深度學習與情感計算,Copilot Audio Expressions在輸出中模擬了人類語音的韻律、停頓和情感變化,使其適用于朗誦、有聲內(nèi)容創(chuàng)作及多角色敘事項目。然而,該工具目前僅支持英文,尚未提供中文或其他語言的生成選項。微軟未明確是否將在未來擴展多語言支持,這在一定程度上限制了其全球應(yīng)用范圍。
從技術(shù)角度看,Copilot Audio Expressions依托于大規(guī)模語言模型和語音合成技術(shù),其核心優(yōu)勢在于動態(tài)調(diào)整內(nèi)容和表達方式,使生成結(jié)果更具創(chuàng)造性和適應(yīng)性。盡管如此,AI生成語音在特定語境或復(fù)雜情感表達中仍可能存在局限,需進一步優(yōu)化以完全匹配人類表演的細膩程度。
總體而言,微軟此次更新展示了AI語音生成的顯著進展,尤其在多角色敘事和情感渲染方面取得了突破。該工具為內(nèi)容創(chuàng)作者提供了新的可能性,但其當前的語言限制及生成時長約束意味著仍處于發(fā)展階段。行業(yè)觀察者期待其在技術(shù)成熟度和應(yīng)用范圍上的進一步拓展。
(注:本文在資料搜集、框架搭建及部分段落初稿撰寫階段使用了 AI 工具,最終內(nèi)容經(jīng)人類編輯核實事實、調(diào)整邏輯、優(yōu)化表達后完成。)
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )