速录速记网 http://sulufans.com
投稿邮箱:sujipx@163.com
当前位置:>> 首页 >> 信息处理 > ACR语音识别 > 到底能否取代键盘 解析语音软件进化史

到底能否取代键盘 解析语音软件进化史

发布时间:2024/4/23 18:44:19 阅读次数:2921
 2011年苹果Siri的问世,让很多人见识到了“语音软件”的强大。其实早在二十年前,台式机上就出现了号称“将取代键盘”的语音输入软件,不过当时的 用户实在难以接受它们奇慢的输入速度和奇高的错误率。之后,语音技术被用在社交领域,90年代末铺天盖地的语音聊天室让“声音”成了最常见的人机交互方 式。

从当年的“ViaVoice”到今天的“讯飞语点”;从当年简陋的语音聊天室到今天已经上市的“YY语音”。20年来,语音软件发生了哪些故事?

声音软件:从“语音输入”开始

说到与声音有关的软件,早期要以“语音输入”类为代表,例如IBM在90年代中期推出的“ViaVoice”。这是一种通过麦克风输入中文的程序,用户只需要做对着话筒喊出要输入的字符,ViaVoice就会自动识别并且输入汉字。

这款软件诞生后,国内企业立刻跟着做出了好多类似产品,如“汉王听说系统”、“天音话王”、台湾声硕公司的“说亦通”。这些软件都打着“解放你的双手”旗号,一时间风光无限。

我们来回顾一段当时1999年时“汉王听说系统”的产品介绍:“用户通过话筒,以正常的语速朗读文本,计算机就可自动识别。而且产品设有语音回放功能,对 没有被识别的部分,可直接用汉王笔进行修改。”“语音与手写输入的结合,既保留了语音识别速度快的优点,又发挥了笔输入在编辑修改方面的长处。听写输入将 成为汉字输入的主流。”

这种软件看似不错,其实也只是“看上去很美”罢了。首先,语音输入软件的输入效率低。当时汉王听写系统的录入效果只有60字/分,而且错误率高。如果用户 将一篇较长的文章全读完了再从头修改,工作量依然很大。其次,这种软件对文章的前后逻辑性要求很高,连续语音识别仍存在较大问题。此外,这种软件对同音 词、多义词的识别仍有较大缺陷。

20世纪末,计算机刚刚进入中国家庭,很多人不熟悉键盘操作,所以能代替键盘的语音输入软件就格外受欢迎。等几年后电脑普及开来,人们的打字水平普遍提 高,这种语音输入软件也就不再有市场了。看看现在的办公室,“哒哒”的敲击键盘声已经基本否决了当时语音输入厂商的“主流”判断。

语音合成软件

除了语音输入,90年代的“声音软件”还有“语音合成类”。这种技术能使电脑具有类似人一样的说话能力。笔者记得,当时语音合成技术被广泛应用在学英语的软件上,什么轻轻松松背单词,洪恩英语,金山词霸等,后来还衍生出各种听书软件。

早期的语音合成技术非常简单,效果也很粗糙。软件只是把自带语音库中的字词直接拼接起来,所以听起来生硬无比。这项技术至今也还在发展阶段。而作为最基本也是最高的要求,“自然流畅”似乎永远也没有尽头。

通讯工具

说话是最快捷的交流方式,它在社交活动中不可或缺。而上述两种“高科技”声音软件的交互目标都是“电脑”,不是人。真正把信息重心回归到“人”身上的软件,反而是没什么技术含量的“语音聊天室”。

十几年前,中国的网吧里随处可见“抢麦”的聊天室用户。他们大声喧哗,时哭时笑,虽然不怎么雅观,但激情四射,无可阻挡。正因为语音是比文字更高效的通讯手段,所以它成为聊天室后无数通讯、社交工具标配功能。

通过上面的介绍我们不难发现:从语音输入再到语音聊天,“声音软件”其实分成了“人—机”、“人—机—人”两种交互模式。第一种是技术流,重视技术沉淀和 数据积累,延续到现在就是Siri、讯飞语点这样的智能语音助手;第二种则是服务流,重视人与人之间的社交需求,QQ、微信、陌陌就是如此。下面我们就从 三个方面来详细解读这些语音软件。

从X86台式机到智能移动终端

没人会时时刻刻在QQ上与好友语音,但有很多人拿着手机抽空用微信发送语音消息;

除了网游玩家,没人天天开着YY语音絮絮叨叨,但有很多人每天临睡前在“唱吧”上高歌一曲;

没有谁习惯用声音控制电脑的开关,但“声纹解锁”已经成为很多移动设备的必备功能;

很少有人会用语音输入软件在电脑上写文章,但通过手机语音输入发短信的用户却不少……

在桌面系统时代,不便的操作方式让“声音软件”并不那么受关注。但是在移动互联时代则大不相同——手机对“声音”的支持是全方位的。相对于电脑,手机上的“声音软件”有着得天独厚的硬件优势,也更符合人们的使用习惯。

从2010年至今,市面上出现了各种移动声音软件:能发语音短信的TalkBox;支持多人对讲的微信;能回答问题的Siri;各种手机语音输入法;能唱歌的“唱吧”……甚至连“啪啪”这样的声音配图软件都火得一塌糊涂。

电脑上的声音软件需要麦克风和音响,需要安装驱动,需要调试;而手机上的声音软件则大幅降低了使用门槛,用户只需要点击一下就能轻松获得快捷体验。手机抓住了用户所有的碎片化时间,短平快的使用节奏配上天然的硬件支持,手机和声音软件一触即响,飞快地融合为一体。

当然,移动端的爆发并不意味着电脑端的衰落。电脑在办公方面还占有相当大的优势。像Siri这样语音助手,你不希望在电脑上也有一个么?

从纯机器发音到人工智能

既然前文提到了“Siri”,那就来说说被炒得热火朝天的智能语音助手。国外有苹果Siri、Google Now;国内有讯飞语点、百度语音助手等。这些软件支持自然语言输入,能“听懂”用户的话,能帮助用户查看天气预报、安排日程、搜索资料甚至查询订票。

对于这些重视“人—机”交互的语音助手来说,有三大声音技术是其必须迈过去的门槛:声音合成、语音识别、语义理解。

语音合成,使电脑具有类似于人一样的说话能力;语音识别,让电脑能够“听懂”人类的语音,将语音中包含的文字信息“提取”出来。对于两项技术,目前的软件已经基本都能达标。

但是,语义理解就是一个很难攻破的堡垒了。现在的语音助手或许知道用户说了那些字,但很多时候无法领会文字背后的真正意图。Siri就曾被谷歌诟病“听不懂人话”。所以,去年苹果公司为了宣传Siri的理解能力还特地制造了一场“找三陪”的事件营销:

通过Siri搜索“哪里能嫖娼?”,它竟然会提供多达数十个有“三陪服务”的娱乐场所。这功能虽然涉嫌违法,但也从反面证明了苹果Siri的进步——“谷歌你不是说我听不懂人话吗?告诉你,我知道嫖娼和找三陪是一个意思!”

语义理解,需要语音软件拥有强大的自学习能力。这就要求软件开发者拥有一个庞大而完善的数据库来提供数据支持。但是现阶段的智能语音应用还没有整合足够多 的生活信息,而且汉语中庞杂的多义词、近义词、反问语气、俚语、俗语等非常规语态的存在,也给开发者编写算法造成了很多麻烦。

总之,智能语音助手的语义理解能力,和当今的人工智能技术联系紧密,其难度之高并不是一家或几家公司就能完成的。对于这类应用来说,现在只是开始,这种新兴的软件还有很长的路要走。智能语音真正深入到我们的生活,还需要好多个Siri级别的应用来引爆。

从语音工具到语音平台

对用户而言,每一款声音软件都有其独特的“能力标签”,如:微信能发语音信息;YY能群聊;百度语音助手会搜索……这些软件以工具的形态出现,用户有需要就使用,没需要就删除。

但是对软件开发者而言,他们最怕自己的产品永远都只是工具。奇虎360的CEO周鸿祎曾称工具类软件为“侏儒项目”。因为工具是没什么技术门槛的,内容继承性差,大多只能离线使用,所以用户忠诚度低,容易被大公司模仿。

在移动互联时代,靠几个好点子就能扬名立万的软件开发商已经不存在了——当年的TalkBox被米聊模仿,后来米聊又被微信模仿。小鱼吃虾米,大鱼吃小鱼,著名段子“防火防盗防腾讯”由此诞生。

面对这种情况,那些有着先进的技术和优秀的体验,而且用户基础已成规模的语音工具,该咋办?目前最理想的道路,似乎是“平台化”,PC端语音软件“YY语音”就是平台化的典型案例。

YY语音:让别人也能赚钱

常去网吧的朋友都能看见这样一群人:一边玩游戏一边叽哩哇啦说个不停,他们亢奋起来无所顾忌,严肃起来又条理清晰。他们就是把YY语音当成游戏内通讯工具的网游玩家。

作为一种跨平台的实时语音工具,YY语音能满足游戏玩家在游戏中实时交流的需求。多年来,YY语音平台吸引了大批网游玩家,特别是游戏公会的玩家。在YY作为游戏语音工具的同时,大量的游戏用户基础也使YY成为了一个将用户导入游戏联运平台的渠道。
[nextpage]
除了游戏,YY语音在音乐和教育也有所动作:YY音乐向用户开放自建频道,频道所有者可以自己活组织他人唱歌表演;YY语音的教育频道向任何第三方个人或者教育机构开放,他们可以在欢聚时代的YY语音开设自己的教育频道。

2012年11月,YY语音在美国纳斯达克正式上市。YY在2009年总注册用户才3700万,到2012年9月已经增长到了4.01亿。

YY语音搭建了一个“让别人能赚钱的语音平台”。随着进入该平台的行业越来越多,YY语音的立足之处也越来越大,这也是YY能够叫板腾讯的底气。

讯飞语点:对其他软件提供技术支持

除了YY语音这样的社交语音软件,智能语音助手也在搭建平台。像科大讯飞就推出了“语音云”平台。根据去年的数据,基于讯飞“语音云”的应用开发合作伙伴超过3100家,终端用户达3000万。讯飞的平台化策略是“对其他软件开发者提供语音技术支持”。

微信:既是媒体平台也是技术平台

腾讯的微信也推出了微信公众平台。个人和企业都可以打造一个微信的公众号,并实现和特定群体的语音的全方位互动。此外,微信还开放了API接口,支持多种第三方插件,未来可能引入更多语音功能。

小结:

自己技术再牛,闷着头单干也躲不过被“模仿、超越、替代”的结局。只有建立平台,接纳更多的企业使用自己的功能才能真正生生不息。对于“语音”这种普适性极强的交互方式来说,这并不是多大问题。还是那句话——“自己吃独食是傻事,能给其他人饭吃的才是本事”。

语音工具,不平台不成活!

“语音不是万能的!”

对于语音软件的未来,每个人都有不同的理解。比尔盖茨的理解就很霸道——“语音输入必将取代键盘!”他的底气来自哪里?来自微软的语音识别技术——用户对 着微软语音识别系统说几句英语,几秒钟后,计算机就能用原声原调译成标准普通话。微软公司曾骄傲地说:“五年后微软将打破人与人之间的语言障碍。”

但是:

你能用语音输入连续打字8小时么?

你能用语音输入打Dota么?

你能“一耳十行”地听文章么?

语音对于环境有较大要求,我们不可能在一个非常嘈杂的环境中使用语音软件;语音的可视性也很差,我们很难在微信聊天记录中找到某句说过的话,也很难快速浏览“啪啪”用户的留言。

总结:

语音只能在一定程度上取代双手,键盘仍然在精确性、连续性、可视性方面有着不可替代的优势。笔者猜测,未来的语音软件可能会在以下几个方向有较大发展潜力:

1、替代人工服务,比如同声传译、速记员,甚至包括电话客服人员等。语音技术可以帮助节约人工成本,这是在客户服务方面体现出的价值。

2、语音功能可以在无法使用双手的环境中发挥作用,比如厨房、驾驶,甚至包括使用手机时。一个好的语音助手可以帮用户快速实现操作;一个方便的通讯工具可以让用户轻松完成交流。

3、从商务模式上说,语音技术的开发者可以和其他行业建立比较稳固的合作模式:微软的语音产品将作为福特的语音导航助手;科大讯飞为很多公司提供了语音识别支持;智能家电产品急需语音技术的引入。

[1]

 
返回速录fans首页

上一篇:语音识别公司Nuance欲推会说话的..
下一篇:什么是ACR语音识别
相关标签:语音识别系统
相关文章

图文报道