语音识别技术缓慢发展的昨天:
1962年,在美国西雅图的世界博览会上,IBM公司展示了人类历史上第一台语音识别机器--鞋盒(ShoeBox)。
鞋盒可辨识16个单词,包括从数字0到9,及运算指令,+,-,等。鞋盒能做的很简单,就是根据语音指令做算术题。
语音识别最早能做的事情,同马戏团小狗狗所做的一模一样,唯一不同的是,鞋盒可以打印出计算结果。
上世纪七十年代,美国国防部高级研究计划局赞助了一个内容庞大的语音识别项目。该项目可识别单词达到了一千个,但距离将研究技术转为实际应用,仍有很大距离。
八十年代,美国卡内基·梅隆大学的詹姆斯·贝克教授,在自己语音识别研究基础上,携手他人共同开发了一个龙系统。
1990年,商品化的龙系统语音录入产品售价高达9千美元,但效果却令消费者沮丧气馁。
直到1998年,IBM 的语音识别技术仍无法达到日常使用的水平。
1990年前后,北京信息工程学院(北京信息科技大学)的本科生侯文达,也开始了他自己的语音识别开发。
为了采集语音素材,侯文达同学经常游荡在北京科技馆,找人搭讪。因而录下了不少原始材料。
语音识别技术突飞猛进的今天:
自2007年开始,因为移动设备和云计算的广泛使用,使得那些拥有巨大数据处理中心的巨无霸们,如谷歌亚马逊等,有了从亿万对话中学习人类语言的机会。
换言之,当我们每天用手机说话的时候,系统就会听我们的声音学习我们的话语。
基于软件系统的自我学习能力,海量的各类口音俗谚俚语都不再需要人工输入,语音识别系统技术正以非凡的速度在完善强大自己。
2016年,微软的语音识别技术在听懂并理解谈话方面,已经达到了与人类同步的水平,错词率仅有5.9%,比父母同熊孩子交谈还要顺畅。
目前,语音识别技术在民用方面的主要应用领域,是消费购物。
2017年8月,谷歌同美国最大的零售商沃尔玛达成合作伙伴关系,消费者可利用谷歌语音识别软件从沃尔玛直接购物。
当然,语音识别也有它的短板,那就是对极其偏僻生冷的字词容忍度很低,很可能会拒绝识别。
老话说,事有反常必为妖,连天量数据的语音识别软件都无法识别的词和字,会不会真的是妖言呢?
语音识别技术造福人类的明天:
在人类通讯习惯越来越从短信漂移向语音时,我们的购物手段也在向语音靠拢。
美国一家机构预测,到2020年,几乎一半的购物搜索,都会通过说话的语音形式完成。让消费行为更加便捷快速的语音识别技术,对购物者来说是锦上添花。
而对那些有读写障碍的文盲半文盲,语音识别,通过说话做事情,则是雪中送炭,让他们解脱文字的桎梏,具有更为完全的民事行为能力。
比如,美国人正在构想,如何通过语音识别技术,让那些有读写障碍的成年人,利用一部便宜的手机,用说话的方式,填写各种社会机构/政府部门的表格,开设银行账户。
假如中国的语音识别技术同步前进,在不远的将来,让略识文字的中国农民,手持物美价廉的国产手机,对着屏幕哇啦哇啦说几句话,就能像城市白领敲键盘一样,获得各种信息资讯,从种植养殖技术,市场行业,乡镇通知,到国家政策,国内外大事......
不仅填写各种表格找工作等事情都可以拿着手机完成,甚至春运都的火车票,也可以用说话的方式买到,那时候的农民和农民工,才真正意义上迈步走上了社会主义的康庄大道,开始了有尊严的生活。
借用基督教赞美诗《奇异恩典》中的一句歌词,作为对语音识别技术破除读写障碍的期盼:“深望那日快现!”
文章转自:
[1]科普入门:语音识别技术的昨天今天和明天[DB/OL].https://baijiahao.baidu.com/s?id=1594268659692021504&wfr=spider&for=pc2018-03-08