易动商务 --> 杂志 --> 互联网周刊 --> 无线天地

本站导读

娱乐化生活、web2.0时代,简单的搜索早已不能满足我们的需求,我们正急于迎接一场搜索理念的变革,一个全新搜索时代的到来。

·音频搜索新纪元

然而在简单搜索之外,还不仅仅是这种运用语音识别系统完成的搜索服务技术正在流行。当文字搜索已经发展到几乎没有上升空间的时候,微软、Google这些技术巨头也开始瞄准未来的新一代搜索市场。

互联网周刊 | 本刊记者 | 2008年07月16日 第 13 期刊载
2008年07月21日 星期一 本站发布

 

前人的脚印

其实早在一年前,波士顿初创公司EveryZing便推出了一款与前者设计原理异曲同工的视频和音频搜索引擎——PodZinger,这是一款播客搜索引擎,它采用了BBN技术公司开发的一种语言系统,可将音频内容转换成文本,而且准确率在80%以上,足以体现音频的主要内容,能指导用户迅速在文件中找到某个搜索目标词出现的地方,并总结出音频内容的核心意思。

之前《互联网视频革命的第一枪》这篇文章曾对PodZinger的强大功能作过阐述,Podzinger可以在网络上抓取视频、音频文件,利用语音识别技术深入分析其文件内容,根据用户搜索需求提交相应结果。它有一种软件能够“听”视频文件中的语音,并转换成可供搜索引擎使用的文本。搜索结果中的每个词语都可以点开并载入音频剪辑,在指定的词汇点上开始播放。这无疑是一种革命性的突破。Podzinger的文本记录对于搜索者而言远比传统搜索引擎根据“元数据(Metadata)”搜索结果所显示的音频和视频剪辑更具有相关性。

EveryZing公司首席执行官TomWilde当年也曾如此骄傲地介绍这款产品:这么高的准确度可以带来许多新搜索功能,比如提供视频和音频的完整文本,以及直接跳到话语中某个词或者词组被说出的位置。这项技术还可以让公司提供与特定内容有关的有针对性广告,就好像Google(www.g.cn)推出的基于网页中文本的广告一样。

语音识别的难题

语音识别这个概念,我们并不陌生,从孤立词到大词汇量连续语音的识别(LVCSR),再到语音库检索,语音识别技术一直在向前发展,只是语音识别似乎离我们还有些遥远。“今后5年内,互联网搜索将更多地通过语音来完成。”今年的2月23日,比尔·盖茨在美国卡内基·梅隆大学发表演讲说道,这已数不清是他第几次在公开场合提及语音识别了。

对于中文而言,语音识别技术的实现较之英语面临着更多的困难。当南方人把“牛奶”念成“留来”的时候,究竟是机器识别错了,还是人错了?微软中国研发集团下属微软亚洲研究院语音识别组组长宋言哥平提出过这样一个问题。而不仅仅是南北口音的偏差,每个人都有独有的发音习惯。这就造成了语音输入很难规范的问题。其次,噪声也是一种不可抗的难题。“这很好理解,机器无法像人那样分辨出人声和噪声。”宋言哥平解释道,“同时,不同场景有不同噪声,训练的情况也不能匹配真实环境,这使语音识别在噪声中比在安静的环境下难得多。”

首页上一页123下一页尾页

阅读小技巧:可以键盘左(<-)、右(->)方向键翻页