革命性的廣東話語音搜尋於昨日正式推出,亦於今天在港發佈,Google 為了讓大家對這項服務有更深一步的認識,在較早前,已經拍下一段 Youtube 影片教導如何安裝,而且更示範在生活中各層面的應用。不過大家若細心留意片中的 Nexus One,應該不難發現此機已升級至 Android 2.3 版本,因為其綠色的通話、瀏覽器、狀態圖示及黑色通知欄,是新系統 Gingerbread 的一大特色。Google 這次如此公然利用 Android 2.3 Nexus One 作示範,難道暗示會就快推出?跳轉有影片,不過大家看 Android 2.3 介面之餘,也要留意廣東話語音搜尋是怎樣。

另外,您想更了解廣東話語音搜尋的開發過程,亦可跳轉看 Google 提供的「廣東話語音搜尋背後的故事」文章。

更新:Youtube 影片已更正,可以跳轉觀看。多謝 Adrian 提供。

廣東話語音搜尋背後的故事

以下是一個小測試:要在手機輸入「銅鑼灣日本料理」,用口說,還是用手逐個以各種中文輸入法輸入相同的查詢….哪一種方式比較快呢?

語音一向是人們與手機互動的最自然方式。事實上,說話通常比打字更快更容易。Google在開發英語、普通話和日語版本的「語音搜尋」(Voice Search)之後,陸續支援多種語言版本,當中包括韓語、法語、德語、意大利語、西班牙語、捷克語、波蘭語、俄語和土耳其語。現在,輪到香港人最熟悉的廣東話了。

廣東話向來被寓為全球最難學的語言之一,而Google認為在手機平台上,由於鍵盤通常很細小,中文輸入往往比拉丁字母困難得多。香港常用的中文輸入法包括倉頡及手寫輸入,倉頡並不是一個易上手的輸入法,而手寫輸入法雖然易學,但就有慢的缺點。兩者對香港用戶來說都不是一個理想的手機搜尋輸入法。Google因而相信,開發廣東話語音搜尋服務能解決香港用戶缺乏理想的手機輸入法的問題。

不過,在開發過程中,Google亦遇到不少挑戰,有些是廣東話獨有的,有些是亞洲語言共通的,也有是開發任何語言的語音搜尋都會遇到的,以下就是我們在開發過程中遇到的一些有趣的挑戰:

數據收集

對比起英文,現時全球只有很少廣東話數據庫夠大夠齊全,足以用來訓練一套辯識系統。建立一套辯識系統同時需要聲音及文字數據,聲音數據方面,Google用了DataHound收集技術,透過智能手機錄下及上載大量義工的廣東話聲音樣本。文字數據方面,http://www.google.com.hk的搜尋紀錄是最好的數據庫,能快速且準確地訓練語言模型。

中文詞彙限制

中文與西方語文不同,詞與詞之間並沒有空格分開,為了限制說話辯認器(speechrecognizer)的詞庫大小,及簡化詞典開發,Google選擇了用字,而非詞語,作為系統的基本組成單元,因此亦容許不同字有不同的讀音。

中英夾雜

Google發現香港用戶比起國內及台灣的用戶更喜歡在說話時夾雜英文,例如中國用戶的搜尋平均有10%夾雜英文,台灣是15%,然而香港則有30%的搜尋是中英夾雜的。要建立一個能準確辯認中英夾雜句子的系統,Google把英文詞語連上一系列相關廣東話發音單元上。

音調問題

雖然語言學家就廣東話究竟有多少個音調仍未有共識,6個、7個、9個或10個都有人提出,但無論如何,還是一個字:多。為了準確辯認廣東話,Google把一個音調加一個母音(vowel)的組合當成一個辯認單元,為了不讓最後的模型變得太複雜,工程師們把一些很少用到的組合合成一個單一模型。

音譯詞很多

由於廣東話裡音譯詞很多,同一個詞,有些香港用戶喜歡用英文原文,有些則喜歡用中文音譯詞(例如:「Jordan」與「佐敦」),這對訓練及評估系統都帶來不少挑戰。開發人員最後決定用一套算法,透過搜尋結果是否準確覆核辯認出來的字詞,而不是透過檢查說話辯認器辯認出來的字連起來是否有意義來覆核。

不同的口音及嘈雜的環境

不同的人說話帶有不同口音,而他們在使用語音搜尋時,亦身處各種截然不同的環境,例如辦公室、地鐵、商場等。為了令搜尋系統在各種環境都能準確運作,Google收集了不同人在不同環境說話的音頻數據輸入系統,令其更準確。

HisTrend.HK 限時褔利品:USB Type-C 轉接頭 HK$30 四枚
詳情請點擊:http://www.histrend.hk/products/usb-type-c-adapter


Arlo Baby 嬰兒動態監察 + 智能溫度、濕度、空氣偵測網絡攝影機
詳情請點擊:http://netgear.anlander.com


Rhino Shield 最強防撞手機殼、三米防撞、耐衝擊保護
詳情請點擊:https://www.histrend.hk/categories/rhino-shield-case