文章详情

  • 游戏榜单
  • 软件榜单
关闭导航
热搜榜
热门下载
热门标签
php爱好者> 资讯>用 Google 去追寻自己的声音

用 Google 去追寻自己的声音

时间:2010-09-01  来源:cnblogs

  领导Google的语音技术开发与产品应用的Mike Cohen,最近接受本站专访时表示:「Google的使命是整理全世界的信息,问题是,许多信息都是用说的。」

  Google要开发出适用行动运算和网络应用软件的语音辨识技术。也就是,将重度运算交给数据中心,又能在硬件配备有限之因特网和行动装置上执行的简单、好用的软件。

  计算机语音辨识已存在将近百年(1911年上市的Radio Rex玩具狗即可响应呼叫),但一直无法达到科幻电影中那种精细、灵敏和准确的程度。然而,Cohen相信,业界即将实现重大的突破。他说:「我们的目标是完全普及的语音输入和输出,任何可行的地方,我们都要提供非常优良的(语音辨识)。」

  听到你的声音

  2004年加入Google的Cohen,已在这个领域耕耘26年。他在Google的主要工作,是将先进的语音辨识和合成技术,应用到Google的各种服务上。

  Cohen表示,目前主要的语音技术系统大都已确立其基本架构。第一步是收到的声波分成每10毫秒一组、辨识其声音属性(抑扬顿错)上的微妙差异,制作出那些声音的数字呈现。接下来是困难的部份,将这些声音组对应英语中数十亿组声音组合。(其它语言的程序相同,但对应组的数量各不相同。)

  Cohen说:「这基本上就是一个大的统计模型。」Google的方法是分析声音的音质,辨识出其「音素」(phoneme),这些音素如何组成个别的字,和文法如何将那些字构成句子。基本的方法各家公司大都相同,但Cohen自然认为Google有独特的优势。

  时间和数据

  语音辨识是一个极度运算密集的挑战,即使简单的语音指令,都需要许多运算资源来解读。所幸,Google已累积了大量有关全球使用者的搜寻模式数据,和透过其书籍搜寻计划所数字化的上千万本图文内容。这些数据都能用在语音辨识的处理。

  因此,Cohen认为,Google能在更快的时间内提供更准确的结果,因为他们有能力消化庞大的新数据,并与较旧的数据进行比对。Google的最新成果展现在其Android行动操作系统,使用者只要按下一个麦克风键,即可用声音搜寻网络,或启动特定应用程序。

  声音障碍

  然而,多数人都同意,现在仍没有一家公司能提供真正可靠的语音辨识技术。问题究竟是什么?

  Cohen表示,眼前最根本的问题是背景噪音。行动使用者经常因为风声、背景对话或车辆噪音,影响辨识系统的声音接收。改善麦克风或许有助,但系统必须加强处理这类干扰的能力。另一个主要问题是预期使用者会说什么字,并准确地合成句子,所涉及的复杂度。这不只是腔调和方言的问题,还有昵称、俚语和口齿不清、句子不完整等情况,都会混淆最聪明的系统。

  用语音搜寻的人通常会自动说出关键词或关键句,如「台北东区的餐厅」,这在预测和交叉比对上都相当有帮助。但语音邮件则完全无法预测,尤其是基于隐私保护,Google没有保留这部份的数据库。

  尽管还有许多挑战,不论内外,人们都开始期待Google的语音技术将实现长久以来的幻想。改变长期的输入习惯需要一些时间,但我们已经看到有些人抛弃以往的计算机输入方式(键盘和鼠标),开始拥抱触控和语音输入。Cohen说:「我们不是要消灭既有的输入方法,而是提供另一种选择。」(陈智文/译)


  

相关阅读 更多 +
排行榜 更多 +
辰域智控app

辰域智控app

系统工具 下载
网医联盟app

网医联盟app

运动健身 下载
汇丰汇选App

汇丰汇选App

金融理财 下载