用 Google 去追寻自己的声音

时间：2010-09-01 来源：cnblogs

　　领导Google的语音技术开发与产品应用的Mike Cohen，最近接受本站专访时表示：「Google的使命是整理全世界的信息，问题是，许多信息都是用说的。」

　　Google要开发出适用行动运算和网络应用软件的语音辨识技术。也就是，将重度运算交给数据中心，又能在硬件配备有限之因特网和行动装置上执行的简单、好用的软件。

　　计算机语音辨识已存在将近百年（1911年上市的Radio Rex玩具狗即可响应呼叫），但一直无法达到科幻电影中那种精细、灵敏和准确的程度。然而，Cohen相信，业界即将实现重大的突破。他说：「我们的目标是完全普及的语音输入和输出，任何可行的地方，我们都要提供非常优良的（语音辨识）。」

　　听到你的声音

　　2004年加入Google的Cohen，已在这个领域耕耘26年。他在Google的主要工作，是将先进的语音辨识和合成技术，应用到Google的各种服务上。

　　Cohen表示，目前主要的语音技术系统大都已确立其基本架构。第一步是收到的声波分成每10毫秒一组、辨识其声音属性（抑扬顿错）上的微妙差异，制作出那些声音的数字呈现。接下来是困难的部份，将这些声音组对应英语中数十亿组声音组合。（其它语言的程序相同，但对应组的数量各不相同。）

　　Cohen说：「这基本上就是一个大的统计模型。」Google的方法是分析声音的音质，辨识出其「音素」（phoneme），这些音素如何组成个别的字，和文法如何将那些字构成句子。基本的方法各家公司大都相同，但Cohen自然认为Google有独特的优势。

　　时间和数据

　　语音辨识是一个极度运算密集的挑战，即使简单的语音指令，都需要许多运算资源来解读。所幸，Google已累积了大量有关全球使用者的搜寻模式数据，和透过其书籍搜寻计划所数字化的上千万本图文内容。这些数据都能用在语音辨识的处理。

　　因此，Cohen认为，Google能在更快的时间内提供更准确的结果，因为他们有能力消化庞大的新数据，并与较旧的数据进行比对。Google的最新成果展现在其Android行动操作系统，使用者只要按下一个麦克风键，即可用声音搜寻网络，或启动特定应用程序。

　　声音障碍

　　然而，多数人都同意，现在仍没有一家公司能提供真正可靠的语音辨识技术。问题究竟是什么？

　　Cohen表示，眼前最根本的问题是背景噪音。行动使用者经常因为风声、背景对话或车辆噪音，影响辨识系统的声音接收。改善麦克风或许有助，但系统必须加强处理这类干扰的能力。另一个主要问题是预期使用者会说什么字，并准确地合成句子，所涉及的复杂度。这不只是腔调和方言的问题，还有昵称、俚语和口齿不清、句子不完整等情况，都会混淆最聪明的系统。

　　用语音搜寻的人通常会自动说出关键词或关键句，如「台北东区的餐厅」，这在预测和交叉比对上都相当有帮助。但语音邮件则完全无法预测，尤其是基于隐私保护，Google没有保留这部份的数据库。

　　尽管还有许多挑战，不论内外，人们都开始期待Google的语音技术将实现长久以来的幻想。改变长期的输入习惯需要一些时间，但我们已经看到有些人抛弃以往的计算机输入方式（键盘和鼠标），开始拥抱触控和语音输入。Cohen说：「我们不是要消灭既有的输入方法，而是提供另一种选择。」（陈智文/译）