人工智能应用：语音识别技术的昨天今天和明天-广东工业大学-信息物理融合系统-新思路实验室

AI科普在线

AI科普在线

您当前的位置：首页 >>AI科普在线 >>正文

人工智能应用：语音识别技术的昨天今天和明天

2020-09-18 20:13 (点击： )

语音识别技术缓慢发展的昨天：

1962年，在美国西雅图的世界博览会上,IBM公司展示了人类历史上第一台语音识别机器--鞋盒（ShoeBox）。

鞋盒可辨识16个单词，包括从数字0到9，及运算指令，+，-，等。鞋盒能做的很简单，就是根据语音指令做算术题。

语音识别最早能做的事情，同马戏团小狗狗所做的一模一样，唯一不同的是，鞋盒可以打印出计算结果。

上世纪七十年代，美国国防部高级研究计划局赞助了一个内容庞大的语音识别项目。该项目可识别单词达到了一千个，但距离将研究技术转为实际应用，仍有很大距离。

八十年代，美国卡内基·梅隆大学的詹姆斯·贝克教授，在自己语音识别研究基础上，携手他人共同开发了一个龙系统。

1990年，商品化的龙系统语音录入产品售价高达9千美元，但效果却令消费者沮丧气馁。

直到1998年，IBM 的语音识别技术仍无法达到日常使用的水平。

1990年前后，北京信息工程学院（北京信息科技大学）的本科生侯文达，也开始了他自己的语音识别开发。

为了采集语音素材，侯文达同学经常游荡在北京科技馆，找人搭讪。因而录下了不少原始材料。

语音识别技术突飞猛进的今天：

自2007年开始，因为移动设备和云计算的广泛使用，使得那些拥有巨大数据处理中心的巨无霸们，如谷歌亚马逊等，有了从亿万对话中学习人类语言的机会。

换言之，当我们每天用手机说话的时候，系统就会听我们的声音学习我们的话语。

基于软件系统的自我学习能力，海量的各类口音俗谚俚语都不再需要人工输入，语音识别系统技术正以非凡的速度在完善强大自己。

2016年，微软的语音识别技术在听懂并理解谈话方面，已经达到了与人类同步的水平，错词率仅有5.9%，比父母同熊孩子交谈还要顺畅。

目前，语音识别技术在民用方面的主要应用领域，是消费购物。

2017年8月，谷歌同美国最大的零售商沃尔玛达成合作伙伴关系，消费者可利用谷歌语音识别软件从沃尔玛直接购物。

当然，语音识别也有它的短板，那就是对极其偏僻生冷的字词容忍度很低，很可能会拒绝识别。

老话说，事有反常必为妖，连天量数据的语音识别软件都无法识别的词和字，会不会真的是妖言呢？

语音识别技术造福人类的明天：

在人类通讯习惯越来越从短信漂移向语音时，我们的购物手段也在向语音靠拢。

美国一家机构预测，到2020年，几乎一半的购物搜索，都会通过说话的语音形式完成。让消费行为更加便捷快速的语音识别技术，对购物者来说是锦上添花。

而对那些有读写障碍的文盲半文盲，语音识别，通过说话做事情，则是雪中送炭，让他们解脱文字的桎梏，具有更为完全的民事行为能力。

比如，美国人正在构想，如何通过语音识别技术，让那些有读写障碍的成年人，利用一部便宜的手机，用说话的方式，填写各种社会机构/政府部门的表格，开设银行账户。

假如中国的语音识别技术同步前进，在不远的将来，让略识文字的中国农民，手持物美价廉的国产手机，对着屏幕哇啦哇啦说几句话，就能像城市白领敲键盘一样，获得各种信息资讯，从种植养殖技术，市场行业，乡镇通知，到国家政策，国内外大事......

不仅填写各种表格找工作等事情都可以拿着手机完成，甚至春运都的火车票，也可以用说话的方式买到，那时候的农民和农民工，才真正意义上迈步走上了社会主义的康庄大道，开始了有尊严的生活。

借用基督教赞美诗《奇异恩典》中的一句歌词，作为对语音识别技术破除读写障碍的期盼：“深望那日快现！”

文章转自：

【关闭窗口】