首頁>>>技術>>>語音應用>>>語音識別(ASR)  語音識別產品

語音識別醞釀第二次浪潮

彭禎藝 2003/09/15

  得意音通是一家提供語音技術的公司。打進該公司的電話總機,在通常的“請撥分機號”以及“人工服務撥0”的語音提示外,加上了一條“請說您找哪位”。其實,像這樣的用戶直接跟機器對話的系統(tǒng)在美國已非常普遍。在遍布美國大街小巷的公用電話亭里,只要有AT&T語音識別系統(tǒng)標識的,用戶只需對著電話說“Connect Operator Please”,系統(tǒng)所具有的關鍵詞檢測技術就可以從句子中查找到Operator,直接把電話接通到接線員,系統(tǒng)的識別率超過99%。

  相比用按鍵方式進入一級級菜單的傳統(tǒng)的呼叫中心,這樣的服務顯然更方便。尤其是在不適用于鍵盤和鼠標輸入的移動計算環(huán)境,語音輸入具有更大的發(fā)展?jié)摿Α>退闶窃谵k公室,語音識別技術也可以幫助一部分不愿意或不能使用鍵盤、鼠標的用戶減少大量的手腕和手指的重復勞動。然而,這樣的技術對大部分人來說仍然很新鮮,想想有幾個人使用了手機里內置多年的語音撥號功能?
  
  技術的落差

  語音識別的研究工作可以追溯到20世紀50年代AT&T貝爾實驗室的Audry系統(tǒng),它是第一個可以識別十個英文數字的語音識別系統(tǒng)。實驗室語音識別研究的巨大突破產生于20世紀80年代末:一些小詞匯量的識別系統(tǒng)具備了較高的識別率。同時,人們終于在實驗室突破了大詞匯量、連續(xù)語音和非特定人這三大障礙,第一次把這三個特性都集成在一個系統(tǒng)中。語音識別技術獲得突破的主要原因在于半導體技術、軟件技術和存儲技術突飛猛進的發(fā)展。

  語音技術掀起的第一次浪潮始于20世紀90年代前期,許多著名的大公司如IBM、蘋果、AT&T和NTT都對語音識別系統(tǒng)的實用化研究投以巨資。語音識別技術有一個很好的評估機制,那就是識別的準確率,而這項指標在20世紀90年代中后期實驗室研究中得到了不斷的提高。在1997年有人提出,“語音時代”已經來臨,商家也都對此充滿了信心:希望語音識別能力能跟人一樣。語音識別技術變得如此受歡迎,讓人不得不相信,語音技術將無處不在。

  然而,事實并非如此。在實際應用中,在實驗室中“成功”的語音識別系統(tǒng)在魯棒性(Robustness)、靈活性和自適應能力上還遠遠不能滿足實際的需要,技術上也顯得力不從心。得意音通公司副總裁鄧永強說:“過高的市場期望面對實際的技術水平和應用現狀,難免產生泡沫。”

  技術的不成熟,加之市場的接受情況,語音識別市場確實無法用上“火爆”這個形容詞,甚至無法在市場上找到幾個語音識別方面的成熟應用,因此,眾人紛紛打起了“半成品技術”的主意,“以現有的技術水平來創(chuàng)造出應用”。以中國市場為例,廠商并沒有去追求最完美的應用—“聽寫機”一類的非特定人、連續(xù)語音、大詞匯量的語音識別,而是把當前已經成熟的那部分技術應用到實際的產品中。例如以中小詞表為主的命令式語音識別,包括呼叫中心、語音撥號,移動設備中的嵌入式命令控制等,并且對于普通話能達到相當高的識別率。
  
  語音識別的“新三難”

  語音識別系統(tǒng)的分類有三種依據:詞匯量大小,對說話人說話方式的要求(分為孤立詞語音識別和連續(xù)語音識別)和對說話人的依賴程度(分為特定人和非特定人語音識別系統(tǒng))。語音識別技術的發(fā)展歷史就是從簡單到復雜,逐一攻克“老三樣”指標的過程。

  最簡單的小詞匯量、孤立詞、特定人語音識別技術在20世紀70年代就已經非常成熟。盡管有一定的難度,目前在實驗室環(huán)境下“老三難”均能達到最高標準,也就是聽寫機。微軟稱嵌入到Office軟件中的聽寫系統(tǒng)能在標準北京口音輸入的情況下,首次識別率達到93%,調試之后達到96%,并且新的技術正在使識別率不斷上升。

  技術的價值在于它服務于應用。雖然在實驗室擁有如此高的識別率,在語音識別技術從各個不同的突破口進行應用和產業(yè)化的過程中,“新三難”凸現出來,成為研究重點。

  首先,方言或口音會降低語音識別率,而對于擁有八大方言區(qū)的中文來說,應用的難度會更大。清華大學計算機系語音技術中心副教授,同時也是北京得意音通技術有限公司董事長兼總裁的鄭方博士就正在跟蹤解決這一問題。今年,在美國約翰霍普金斯大學召開的每年一度的語音技術研討會上,鄭方博士提了一個關于方言和口音問題的提案,題目定為“Dialectal Chinese(帶方言的普通話)”。題目本身的重要性使它在全球十幾家提案中勝出,并成為最終被選定的三四家之一。鄭方博士說,“Mandarin Influenced by Native Dialect(受母語口音影響的普通話)”將有可能成為一個需要四五年時間完成的大項目。

  “新三難”問題之二是背景噪音。人多的公共場所巨大的噪音對語音識別影響自不用說,就算在實驗室環(huán)境下,敲擊鍵盤、挪動麥克風都會成為背景噪音。它將破壞原始語音的頻譜,或者把原始語音部分或全部掩蓋掉,造成識別率下降。實際應用中,噪音是無法避免的。研究將要解決的問題就是如何把原始語音從背景噪音中分離出來,這將會使識別系統(tǒng)具有很強的適應性。

  第三個就是“口語”的問題。它既涉及到自然語言理解,又與聲學有關。語音識別技術的最終目的是要讓用戶在“人機對話”的時候,能夠像進行“人人對話”一樣自然。而一旦用戶以跟人交談的方式來進行語音輸入時,口語的語法不規(guī)范和語序不正常的特點會給語義的分析和理解帶來困難。另外,當人們在口語交流時,即便是人的大腦分析認為是非常標準的發(fā)音,在語音識別的時候上卻變到了聲學的角度,隨意發(fā)音帶來的問題是很大的。

  “新三難”是在語音識別技術的應用中對識別率影響最大的三個因素。除此以外,由于語音在識別前需要傳輸,識別系統(tǒng)還需要適應不同類型的傳輸信道。語音識別技術本身還有很大的發(fā)展空間。

  第二次浪潮還有多遠?

  多年的研究使國內中文語音識別的核心技術與國際的差別不大,并且從去年開始,中文語音識別技術的應用開始大量涌現,產業(yè)化進程從此拉開序幕。鄧永強把語音識別產業(yè)的現狀比作1995年時期的互聯網,“樹在長大,有綠葉了,還在等開花結果”。他認為,中文語音識別產業(yè)經過了1998、1999年的轉折點—從0變成了1,將會在明年出現新的轉折點,形成新的發(fā)展高峰。那么,中文能否給語音識別帶來第二次浪潮?

  又一次浪潮的出現,必須建立在成型的市場之上。今年3月,HarrisInteractive公司受美國的專業(yè)語音技術公司Nuance委托對美國普通公民進行了語音技術滿意度的調查。調查結果是:語音技術已被廣泛的接受和使用;用戶對他們曾經使用的語音技術有著高度評價;語音比起其它的交互方式有更多的優(yōu)勢?梢,語音技術在美國的普通公民中有著相當高的接受程度。在這樣的基礎之上,美國語音識別市場逐漸做大,已經形成了競爭的格局。

  而國內在技術的應用上起步較晚,導致了現在國內用戶感到新鮮的語音產品在國外已有了好幾年的應用。早在1997年就進入中國語音識別市場的IBM,已經花費大量資金培育市場,讓大家知道了什么是語音技術。或許正是因為如此,在市場推廣方面較為薄弱的國內廠商并不排斥具有強大實力的國際大公司。北京中科模識科技有限公司總裁徐波博士認為,“目前與IBM和微軟這樣的巨頭之間并不是競爭的局面。如果他們在技術上取得突破并形成產品,或者把語音識別嵌入到他們自己的強勢產品中去,也不一定是壞事。這樣,將會有更多的人接受語音識別技術,市場規(guī)模會更大!

  鄭方博士表示,“關鍵的問題是如何把現有的技術應用到實際中去;如何從市場上獲得更多的反饋以提升技術,再把新的技術切入到產品中,不斷的尋找新的結合點。”研究怎樣跟產業(yè)結合是一個永恒的話題。語音識別形成產業(yè)并向前發(fā)展不可否認,而能否在明年迎來新的高峰就要看國內廠商如何的應用技術了。業(yè)內人士都認為,國內的廠商要互相取長補短,一起“拱”出中國的語音識別市場,單單靠一家公司是辦不到的。
  
  高峰之后

  如果這一次語音識別的發(fā)展高峰形成了,它的主要特點將是語音識別技術在不同應用領域的突破,并逐漸大面積普及。高峰之后的持續(xù)發(fā)展是各個廠商都必須考慮的問題。20世紀90年代末語音技術在到達一定的發(fā)展程度后出現回落的根本原因,就是當時的技術水平沒有與人們對語音識別的期望匹配。如今,一方面能夠應用在某些領域的技術已經成熟,例如以中國科學院自動化研究所模式識別國家重點實驗室為依托的中科模識,其漢語連續(xù)語音、非特定人聽寫機系統(tǒng)的普通話系統(tǒng)的錯誤率可以控制在10%以內,代表了世界領先水平。擁有核心技術,成為國內企業(yè)穩(wěn)步發(fā)展的底氣來源。

  另一方面,國內的廠商更加重視把現有水平的技術應用到實際產品中,而不是等待技術的各個方面都完美了才投放市場。例如得意音通利用姓名撥號的自動總機,就是基于小詞匯量的語音識別。雖然處理的對象是連續(xù)語音,但并不追求對整句的識別和理解,而是采用“關鍵詞檢出”技術,在輸入的連續(xù)語音中捕捉感興趣的部分對其進行匹配,從而達到識別的目的。不論這一方式是否師從于國外公司,技術研發(fā)與應用階段性的交替進行,避免了市場對技術的過高期待,也就壓制了泡沫的產生。

  一向具有前瞻性的重量級IT公司在迎合中國這次語音識別市場發(fā)展機會之時,又一次流露出了對市場發(fā)展高峰之后充分準備,也讓人們看到了在可能出現的“第二次浪潮”后的遠景。20世紀50年代就開始語音識別技術研究的IBM 不斷推出新的ViaVoice版本,把語音技術應用到PDA、智能汽車上。它也提供語音開發(fā)工具SDK,希望締造一個全方位的語音平臺。然而,不論中國語音識別第二次浪潮會怎樣來臨,語音識別產品本身會給IBM帶來利益是毫無疑問的。在最近的“IBM亞太區(qū)電子商務解決方案亞洲巡展中國站”北京研討會上,IBM還現場演示了如何利用語音識別來控制家電設備。

  微軟也已經把語音識別技術集成到了多個領軍產品中,包括Office和Windows XP,其最新的語音識別服務器軟件Speech Server準備在2004年上半年發(fā)布。該軟件允許用戶使用語音命令對電腦進行操作,企業(yè)也可以利用它建立一種類似于自動電話系統(tǒng)的服務。對于語音識別技術,微軟把希望寄托于1998年成立的微軟亞洲研究院,大力投入到語音開發(fā)工具的研究和全力支持SALT規(guī)范(語音應用語言標記標準,可能與之前的語音可擴展標記語言VoiceXML形成對立狀態(tài))上。

  微軟當然看到了中國語音識別市場快速發(fā)展,但它的眼光更遠的放在了這一次技術應用的高峰之后。微軟亞洲研究院語音組主任研究員張益肇博士說,“語音技術將會無處不在,隨處都會有語音平臺的用武之地,此項技術是微軟亞洲研究院的重心之一。微軟在醞釀語音技術更長遠的應用,五年、十五年,或許更長時間—技術成熟度是決定因素!蔽④浹壑,真正的高峰在于語音識別技術使用戶以最自然方式操作電腦—這就是比爾·蓋茨提出的Natural Computing。

互聯網周刊



相關鏈接:
《華爾街日報》:讓語音識別軟件解放你的手 2003-09-07
綜述:得意音通到底是什么企業(yè) 2003-08-27
語音應用客戶滿意度調研 2003-07-29
Nuance Voice Platform - NVP 2.0語音平臺 2003-07-22
德國“帶耳朵芯片”走進生活 2003-07-14

分類信息:     文摘   技術_語音識別_文摘