實時語音翻譯,Skype如何做到同傳的精準?

長久以來,人類都含有一個共同的夙愿:發(fā)明一個機器,實現全世界之間毫無障礙的自由交流。而毫無疑問,自由交流,在一個宣稱為自由連接的互聯(lián)網時代,更能夠彰顯它的價值。畢竟,同是地球人,同住地球村,當你我覓得彼此,卻聽不懂彼此的語言,實在有些尷尬

長久以來,人類都含有一個共同的夙愿:發(fā)明一個機器,實現全世界之間毫無障礙的自由交流。而毫無疑問,自由交流,在一個宣稱為自由連接的互聯(lián)網時代,更能夠彰顯它的價值。畢竟,同是地球人,同住地球村,當你我覓得彼此,卻聽不懂彼此的語言,實在有些尷尬。

微軟旗下的Skype進行宣布,具備了實時語音翻譯的翻譯器Skype Translator中文預覽版已經正式在中國的市場上推出了。其實,不同于母語間的人直接對話,讓機器實時翻譯,這些技術微軟早在去年的時候就已經與公眾見面了,只是那個時候還不支持中文。你知道,哪怕是對于機器,有大約一萬個常用漢字以及各種語音語調的中文也頗具挑戰(zhàn)性。但如今,包括微軟和谷歌在內的科技巨頭的發(fā)力,使得地球上使用人數最多的語言與使用最廣泛的語言能夠直接開展對話了。

Skype的翻譯系統(tǒng)主要是分個三步驟:首先,把你的實時語音翻譯成文字;然后,再把文字翻譯成為另外一種語言的文字;最后,把文字轉換成語音。其中,識別實時語音并轉換成文字,一直是最棘手的部分。

如你所知,精準的實時語音翻譯,有賴于強大的機器學習,也就是軟件學習訓練數據的能力。這些訓練數據包括翻譯的網頁,配有字幕的視頻,以及預先翻譯且轉錄成文字的一對一談話。Skype Translator通過記錄對話來分析文本并且訓練系統(tǒng)能夠更好地“學習”語言——當準備好的數據錄入系統(tǒng)后,機器學習軟件會在這些對話和環(huán)境涉及到的單詞中搭建一個統(tǒng)計模型,當你說話時,軟件會在統(tǒng)計模型中尋找相似內容,然后應用到預先“學到”的轉化程序中,得以讓語音轉換為文本,再從文本轉換成另一種語言。

值得一提的是,與程序設定一般的朗誦不同,人會一邊思考一邊說話,會犯錯,這種犯錯在口語表達中的體現就是打磕巴,停頓,重復,或者頻頻出現如“嗯”“啊”“呃”之類的語氣助詞,針對于此,Skype Translator的機器學習模型也會處理這些停頓。在預覽版中,用戶可以看到部分語氣詞停頓被移除,而未被移除的部分則可能通過用戶反饋進行再優(yōu)化。

在數據進入系統(tǒng)之后,機器學習軟件會為對話中的單詞建立統(tǒng)計模型,當你說到某一個東西時,系統(tǒng)會在統(tǒng)計模型里尋找類似的單詞,并響應之前做過的類似的翻譯。實時語音翻譯對用戶對話的環(huán)境很敏感,稍有噪音干擾可能準確度就會降低很多。這一方面,深度神經網絡有效的減少識別錯誤率,改善了系統(tǒng)的健壯性,讓實時翻譯能夠有更大的應用范圍。

不過,作為一項不斷優(yōu)化的技術,無論是微軟的Skype Translator還是“老對手”谷歌的Google Translate,至少在現階段,實時語音翻譯技術應該還是談不上完美的,系統(tǒng)對語音的識別準確率也有待完善。要知道,語言如同一只野獸,時刻都在變化,哪怕同一國家,因地域不同也有不同口音與俚語文化。這些問題可以通過更大范圍的數據解決么?也許能,但還需要時間。

然而無論怎樣,就像一位評測者所言:“整個體驗就像是兩名電話銷售員在使用對講機,不過在使用過程中,這樣的抱怨將會被‘奇跡’帶來的震驚所取代。”

Skype的機器學習原型通過預覽階段的大量數據進行訓練,并優(yōu)化語音識別(SR)和自動化機器翻譯(MT)任務,這些優(yōu)化包括去除語句中的不流利成分(比如“ahs”、“umms”和重復性的語言)、把文本分段成句子、增加標點符號、文本的大小寫等等。

至于不同語言的文本翻譯,Skype利用的則是和Bing翻譯一樣的引擎技術:語法和統(tǒng)計模型的結合使用,同時為特定語言進行特殊的訓練。普通的文本翻譯往往要求使用規(guī)范正確的書面語言,而Skype翻譯系統(tǒng)不僅包括Bing翻譯的引擎技術,還額外增加了一層口語化的語言業(yè)務。

此外,Skype還建立了一套自定義的串連整個流程的架構,以協(xié)調系統(tǒng)里多個部分間的運作。如何簡單又高效的運作整個系統(tǒng),也是一門不小的學問。

Skype的實時語音翻譯系統(tǒng)還面臨著很多挑戰(zhàn),比如語言的變化的速度很快,每個人說話的方式又很獨特,這些都會為實時翻譯造成不少的麻煩。但是,對于這一種可能會真正改變人們交流方式的科技產品,越來越多的人都為之激動。相信全人類的夙愿終會實現。