会说话的仓库二-仓库语音的解密
我们都曾通过语音识别系统与计算器进行对话
坦白说,这种「人机对话」的经历并非总是那么令人满意。例如,我们打电话到客户服务中心,电子「接线员」会让我们从一系列选项中选择我们打来电话的原因。在我们做出回答之后,系统往往无法完全识别出我们所说的意思。因此我们不得不重复整个过程,差不多是对着电话喊叫,尽可能让我们的发音准确清楚,直到系统最终明白我们的意思。这让我们许多人都灰心丧气,对这种技术大失所望。
那么,许多供应链经理担心语音导向工作流程系统也会出现类似的情况就不足为奇了。如果他们在使用消费性语音识别系统时都曾遇到上述情况,他们便可能不会对利用语音技术 ─以「人机对话」的方式实现高效的配送业务抱有很高的期望。但他们所不了解的是,其实并非所有语音识别系统都是千篇一律的。
在本章中,我们将揭开「语音」的神秘面纱,并重点介绍语音技术在配送环境中提高生产效率和准确性方面的独特设计。到底有多少种不同的语音识别系统,它们在信息处理能力和准确度方面又是多么得千差万别,对此我们将为您一一道来。我们将分析为何某些语音识别系统相对其他语音识别系统有着极高的识别率,以及它们是如何识别出各种不同大小的词汇量、不同的使用者以及不同的环境(例如嘈杂的环境和安静的环境)的。我们将探讨某些语音识别系统如何以单词中的音素为识别单元,而还有一些则是以单词本身作为识别 单元。
此外,我们还将探讨为什么在仓库语音系统中使用的语音识别技术与我们在消费市场曾遇到过的语音技术是两个完全不同的概念。我们将具体研究仓库语音系统的设计人员在打造准确性极高的语音识别器时改采用的技术。
语音系统工作的环境会对其性能产生极大的影响。我们将了解各家公司是如何针对工业仓库环境的要求来设计产品的。在本章中,我们还将探讨硬件、软件和计算器平台对语音识别程序的性能会有怎样的影响。
最后,由于本书的目标读者是供应链专业人士,我们将剖析语音技术中各个组成部分是如何在配送环境中「化零为整」,成为一个能够极其准确地识别出用户语音的系统,利用语音互动的特点实现高效的工作流程,进而推动经营业绩提升的。
本章的重点是计算器如何理解人类语音。而要进行对话,计算器无疑还必须能够与人进行交谈。我们将在《会说话的仓库》第六章中了解计算器语音输出。
挑战
计算器语音识别系统面临一大难题。当人们通过屏幕和键盘在计算器前操作时,我们都知道我们面对的是一台不会说话的机器,因此我们至少不会过于在意人机互动中的一些缺陷。此外我们还能够快速获得视觉反馈,这解决了很多麻烦,例如我们常常会说:「噢,那个词我拼错了—— 但文字处理软件中的拼写检查功能帮我纠正了。」
而对于口头沟通,人们就不那么有耐心了。在我们的印象中总会认为现场对话是在人与人之间进行的,因此我们总是希望对方能够做出智能的响应,即使是我们说错了,也往往期待对方能够明白我们的意思。而且我们还希望在各种环境下实现这种智能反应—— 无论是在安静的室内、嘈杂的咖啡馆,抑或是在一场震撼的音乐会中。
然而,不足为奇的是,即使基于计算器的识别系统能够近乎完美地理解使用者所说的意思,人们有时也会感到不尽如人意。这种情况在配送环境下显得更为突出—— 因为在配送过程中,每一个误解或是迟钝的反应都会对生产效率造成影响。因此,仓库语音系统的设计人员不仅需要尽最大努力提高语音识别的准确度,同时还应注意需要尽可能地让系统与用户之间的对话显得自然和「智能化」。
「耳」闻即知
我们设计任何类型的语音识别系统都是为了让其能够准确、及时地解读使用者所说的意思。在理想状态下,系统将能够理解用户想要它听到的每一个细节,同时也能忽略一切不希望它听到的声音,例如可能引起理解错误的外界噪声。此外,识别系统还应当能够支持任何语言,并能够在各种声音环境下工作—— 无论是喧哗叫嚷、悦耳柔和,抑或是在二者之间快速变换的环境。
即使我们通常还会利用一些非言语性的线索来帮助我们进行理解,例如通过眼睛观察可以掌握一些信息,我们也知道正在讨论什么话题。但要做到以上所说的这些,对我们人类而言仍然可能有些困难。而对于不具备这种优势的计算器,要做到这些就具有相当大的挑战性。语音识别器是否能够很好地满足上述这些目标则取决于语音技术的选择及其应用方式,以及使用者要求的高低。
现在,就让我们简要地审视一下目前应用最普遍的三种语音识别技术。然后,我们将进一步深入探讨语音识别技术所面临的挑战,以及如何解决这些难题。
听写 (DICTATION)
利用听写识别器,你能够让计算器为你「做笔记」,并立即将语音转换为文本。一些听写识别系统适合用于某些专业领域,例如医生或律师可用它来口授专业材料;而还有一些则只是简单地用于取代键盘,任何人都可以用它在计算器上输入文档。
鉴于其自身特点,听写软件需要大量的词汇——为每种语言都需要配备成千上万的词汇量。由于听写软件程序中词汇量非常庞大,如此的复杂度很容易导致混淆。就仅仅拿英语来说:只要改变元音发音或是某个音节的重读方式就能够创造多少英语单词?英语中又有多少同音异义词—— 读音相同,但拼写却不同,意思更是大相径庭,例如「to」、「two」和「too」?而一旦将这些不同的单词组合成句子,问题就变得更加错综复杂。此外,和那些要求使用者提供某些具体信息的系统不同,听写系统(几乎)无法预知使用者可能会说些什么。
幸运的是,这一技术的使用特性稍稍降低了听写系统的复杂程度。它们通常在安静的环境中进行工作。你在操作时可以使用质量极高的麦克风,并与语音识别器互相配合,另外使用者还可以「提前」花一些时间让语音识别器「熟悉」自身的说话方式(稍后将详细介绍这一过程)。最后,听写系统往往以壁式电源供电,因此可以运用需要强大处理能力和内存的算法。
电话语音 (OVER-THE-PHONE)
我们大多数人都曾碰到过电话语音识别器。这种语音识别器是为了完全或在一定程度上取代客服代表的工作。电话语音识别器通常需要识别数百至一千个不同的词语,例如航空公司信息系统中的城市名称,这比听写系统中的词汇量要少得多。但电话语音识别器必须面对数千(有时甚至是数百万)口音差异很大的不同客户。此外,由于用户不知道这些系统中的词汇量有限,也不清楚其中的其他规则,他们会说出一些预料之外的词语。最后,这种系统接收到的语音信号质量可能非常差,你或许正在机场停机坪或火车站等嘈杂的环境中进行通话,麦克风摆放位置欠佳并且电话网络连接可能也很差。经过对各种不同类别的语音识别器总体难易程度进行对比之后,我们将会发现,电话语音识别器有时不尽如人意也并不令人惊讶。
仓库语音 (WAREHOUSE)
仓库语音识别器无需识别大量不同的词语—— 通常不超过100 个。但仓库语音识别器必须在极其嘈杂的环境中工作。不管使用者的口音语调如何,它们都必须能够非常快速地识别词语,并能够有效处理因不同噪音级别所造成的声音模式的变化(即所谓的「伦巴效应(Lombard effect)」)。此外,它们还必须能够可靠地在极端温度条件下(例如在冷藏库中)进行工作。
难易度比较
现在,你或许已经开始明白为什么我们有理由期望并且要求仓库语音识别器的性能明显高于电话语音识别器或是听写系统。现在就让我们总结一下各种语音识别器最重要的一些「难易度指标」。然后我们将更深入地剖析其中一些问题。我们改采用的衡量标准包括:
词汇量大小 — 语音识别器必须理解多少不同的词语?
语法限制 — 用户能够以多少种不同的方式输入信息?
熟悉度 — 语音识别器对用户的熟悉程度,以及用户对语音识别器的熟悉程度。
信号质量 — 语音识别器接收到的声音信号质量如何?
以下是相对难易程度对比的其中一种图表:
以下是另一种图表:
虽然上侧的图表未按比例制作,但它无疑表明,如果我们在设计仓库语音识别器时做到以下几点:
• 发挥其需要较小量词汇的优势;
• 充分利用语法受到限制的特点;
• 有效发挥其对使用者熟悉度高的优点;
• 尽可能减少高噪声环境的影响;
那么和听写识别器或电话语音识别器相比,我们便能够更加轻而易举地解决仓库语音识别器所面临的难题。现在就让我们来看一看仓库语音识别器的设计人员是如何「驾驭」这些应用特点的。
音素 (PHONEMES) 还是单词 (WORDS) ?
语音识别器的工作原理是将其所存储的声音「模型」与所听到的使用者的声音进行对比。由于各种不同的原因,对于词汇量大的语音识别器,我们无法将它可能听到的所有词语都保存为模型,因此这种语音识别器(包括电话语音识别系统和听写系统)是利用音素模型来代替单词模型的。音素是指一种语言中最小的发音单位。例如,英语单词「cat(猫)」是由硬音c、短音a 和t 音这几个音素构成的。在语音识别中使用音素的优点是音素的数量并不多。例如,英语中的几十万单词全部都是由44个音素排列组成的。但可惜,音素发音千变万化,前音和后音都会对它产生影响。再加上使用者各种不同的音调变化、口音和说话模式,我们就不难看出为什么语音识别要比简单的倾听和解读复杂得多了。
以音素为识别单元的系统,所具有的另一个问题是它们依赖于准确的单词标音,这是很难做到的。这一特点在同样依赖于语音学的语音合成程序中非常明显。正如它们的名字一样,这些系统直接将文本信息转变为计算机合成语音。
例如,你或许使用过汽车中的GPS 系统,它能够利用语音合成(技术)提供语音路线指引。那么你或许遇到过这样一种情况:GPS 系统试图说出一个街道名称,但发音却让人不明就里,甚至有些可笑。除了既定的发音规则之外,还有其他许多各式各样的发音方式,因此以音素为单元的语音识别器必须具备庞大的语音拼写库。
和那些具备大词汇量的以音素为识别单元的系统不同,词汇量较小的语音识别器采用基于单词的模型。这些系统可对整个单词的发音建模,而不是将各个语音音段拼接在一起。单词发音中所含的信息量比音素发音多,而且单词发音并不像音素发音那样千变万化,所以当词汇量较小时,基于单词的语音识别器的性能要优于以音素为识别单元的识别器。正因为如此,几乎所有配送中心和仓库中的语音系统均采用基于单词的语音识别器。
词汇量和语法
如上所述,词汇量是指系统能够理解的全部单词。它包含用户在和系统进行正常对话过程中可能会使用的所有单词。词汇量可能相当庞大,因此为了缩小范围,并且让计算器能够更快速地做出理解和响应,系统着重于解读「主动词汇」─即使用者在任何一种情况下都有可能使用的单词。例如,一个电话语音系统提出的问题可能只需要以「是」或「否」作答,那么这个系统只需要考虑这两种可能出现的回答,这会大大提高系统的理解和快速应答能力。对于这种应用,我们就会说它的语法限制比较严格。可惜,并非所有的问题都可以用「是」、「否」抑或主动词汇中其他简短的词语来回答。这便要求语音识别系统更加全面深入地搜索词汇—— 因此,系统的语法限制越宽松,出错的几率就会大幅提高,而计算器或许需要更长的时间才能做出回应。
听写系统可利用「统计语言模型」来提高准确性。这种技术利用语法和上下文规则来帮助语音识别器在可能性较大和可能性较小的一组词之间做出选择。这样可缩小可能词汇的范围,但极少能够将候选词汇限制在可供轻松鉴别的小范围水平。相反,在所有或是大部分情况下,仓库语音识别器的语法限制都非常严格。在数量信息中只包含阿拉伯数字。是非性回答相当常见。这又是仓库语音应用的一大优势!
熟悉度 —「培训」还是不「培训」?
电话语音识别器的一大难点在于它们必须在「非受训」的模式下工作,这表示系统对用户「毫不知情」。如果有人第一次打进电话,即使关于对方没有任何历史记录加以指导,系统也必须能够理解对方所说的话。无论使用者的性别,也不管他们声音尖锐还是沙哑,电话语音识别系统都必须行使自身的「职责」。
另外,人们说话的方式千差万别,这让「非受训过的」系统变得更为复杂。例如,爱尔兰人、苏格兰人、加拿大人、南非人、美国人和澳大利亚人在说英语时口音有很大的出入。即使是在一个国家,各地的口音和方言也会大相径庭。利物浦人和伦敦人的说话方式便完全 不同。
为了更深入地说明这一点,请想象一下,即使是我们人类在与持陌生口音的人对话时也存在相当大的理解问题。起先,我们或许只能听懂几个单词。在仔细听了几分钟之后,我们的理解力将有所提高。如果用户继续谈论同一个话题,以其特有的发音方式重复着相同的词语,我们最终将明白这些词语的意思,我们的理解力也将明显提高。如果语音识别器也有机会熟悉使用者的说话方式,预先听一听对方是如何说出正式对话中将要使用的一些词语,那么情况又会怎样呢?和上述人类理解的过程一样,我们认为这也将提高计算器的识别率,并缩短响应时间。而事实正是如此。
仓库语音识别器可经过「全面的培训」,以便更好地理解使用者所说的话,这可大大提升识别率。用户只需花10-20 分钟让系统「学习」他/ 她对仓库工作中一些用语的发音方式。这个过程在实际操作系统之前完成。系统能够熟悉用户的情况对整体识别率有着非常积极的作用,同时也是对员工时间的一种明智的投资——我们稍后便会认识到这一点。
系统会提示用户如何说出词库中的单词,使用者只需对着耳机麦克风进行重复。软件会将这些单词记录下来,作为这名使用者在一般情况下的回答方式,确认其独特的音调高度、口音、音调变化以及每个单词的发音。语音识别器会利用这些记录下来的参数针对各个使用者就词库中的所有单词建立模型。显而易见,如果语音识别器能够记录并熟悉每位用户所特有的语音模式,它便可以更加容易地执行任务。「受训过的」语音识别器是当今工业语音系统实现出色性能的关键所在。而它的另一个优势在于,由于「受训过的」语音识别器非常准确地知道当前使用者的说话方式,因此将相近的声音解读成诸如「1」等词语的几率就大大降低了。在嘈杂的环境中,这种特点可以使语音识别器更有效地忽略外界噪声或是一些无关的说话声。
此外,由于「受训过的」语音识别系统是根据所记录的具体用户的语音模式进行识别的,因此它不必考虑单词应当怎样发音,而只需考虑工人实际的发音方式。它不再像听写系统那样依赖于单词通常的发音方法。就拿数字「1」来说,让我们看一看系统是如何将它识别出来的。当工人对语音识别器进行「培训」时,系统会请对方说出数字「1」。语音识别器会认定当时对方所说的便代表数字「1」,并将这个声音保存下来,以便今后与这名工人所说的话进行对比。因此,「受训过的」语音识别器无需针对任何语言或方言进行调整,都能同样出色地进行工作。
相反,「非受训过的」语音识别器必须针对所需要识别的每一种语言进行编程,同时必须提前确认用户将使用哪种语言。在仓库工作环境中,工人们说着各种不同的语言或方言已经变得越来越普遍,如果使用经过全面「培训」的语音识别器,工人们便能够以平常使用的语言或方言对系统说话。这种灵活性能够有效帮助工人们更加轻松地适应语音系统。
另外,我们也必须考虑用户对语音识别系统的熟悉程度。如果不熟悉系统,用户所说的话可能便会超出语音识别器的词汇范围。即使语音识别器识别出用户所说的话超出了其词汇范围,它所能做的也只是忽略这些词语,或是抱歉地表示无法理解对方的意思。无论如何,这对使用者而言都没有太大的帮助。对于电话语音识别系统,这是一个不可避免的问题。而对于听写系统,这种情况就好了许多,这不仅是因为听写系统设计时便考虑到要用来应对非常庞大的词汇量以及宽松的语法限制,同时(对大多数用户而言)视觉反馈可用来帮助消除出现的任何混淆。
工业语音识别系统的用户一天当中有很长时间需要利用这些系统进行工作,而他们所处理的任务相对有限。这类使用者通过课堂培训或在职培训能够很快了解在与语音识别器对话的各个阶段应当做出怎样的回答。和电话语音识别系统的大多数用户不同,由于不能按「0」选择进入人工服务,工业语音识别器的用户通常都非常希望能够成功地运用系统。
经过正式的培训和长时间的运用,用户会逐渐熟悉系统,这进一步扩大了这些专业化系统和较为通用的电话语音识别器及听写系统之间存在的性能差距。
性能提高固然很好,但有必要要问这样一个问题:我们能否通过识别准确性的提高而收回系统「培训」的成本?Vocollect 对「受训过的」系统和「非受训过的」系统相关的投资回报进行了评估对比。首先,我们计算了「培训」一台仓库语音识别器所需要的成本,这个过程耗时10-20 分钟。以一位员工30 美元/ 小时的薪资福利计算,一家仓库在「培训」这台语音识别器时需要投入的员工时间成本约为10 美元。我们将这笔费用与同样一名员工因系统未经「培训」而出现较高的识别错误率所造成的成本进行了对比。确定额外成本的标准是:为了让「非受训过的」系统能够正确识别处理,员工必须重复某些词语或是补充其他一些词语,因而增加工作的时间。
通过计算我们发现,如果语音识别器经过「培训」后错误率可减少1 个百分点(例如从2%下降至1%),那么在应用前「培训」(记录词语的参照语音)中投入的成本可在六个工作日内收回。随着系统的连续使用,在整箱拣选和散件拣选操作中每台设备每年大约可分别节省成本450 美元和2,400 美元。而在两班制运行下,每台设备每年可节省的成本额将翻番。经过对几台「非受训过的」仓库语音识别器进行逐一测试之后我们发现,实际性能差距可能达到了几个百分点。如果考虑到仓库中使用的全部语音识别器,我们很容易就会发现经过全面「培训」的基于单词的语音识别器所能够节省的成本是非常可观的。
「对不起,我说德语」
如果工人们来自世界各地,都说着不同的语言,那么经过全面「培训」的语音识别器还具有其他一些优点。在世界许多地区,很大一部分仓库工人都不是本地人。在北美亦是如此,对这里的许多工人而言,英语是他们的第二语言。而在欧盟国家或者甚至在中国,到另外一个国家求职是非常普遍的现象—— 通常在一个仓库中,工人们或许说着五种甚至更多不同的语言。因此,「非受训过的」系统必须能够识别出带有浓重口音的回答。但口音到底会对识别准确性造成多大的影响呢?
Vocollect 对此进行了大量的研究。在最近的一项研究中,技术人员开展了一些测试,我们对比了我们自己的「受训过的」语音识别器和仓库中其他一些「非受训过的」语音识别器的性能。在研究中我们根据说英语时带有中等口音的外来工人进行分析建模。结果显示,在配送应用中,如果用「非受训过的」语音识别器来代替「受训过的」系统,则单词识别错误率可能上升百分之几甚至更高。实际上,对于带中等至浓重口音的使用者,「非受训过的」语音识别器的错误率为6% 至20% 以上,而在相同的工作中「受训过的」语音识别器的错误率仅不足1%。这是因为「受训过的」语音识别器并不受口音的影响。这种系统能够学习工人的单词发音方式,包括口音及其他一切发音特点。因此口音不再是一道障碍。
此外,不论口音如何,工人们能够自己选择一种语言和语音识别器对话,这提高了工作满意度,同时几乎可以保证仓库中的所有工人都能够充分发挥语音系统的效力。因此,在配送中心或仓库中部署「受训过的」语音识别器的另外一大好处便在于它可提高多语种环境中的工作绩效和满意度。
噪声管理:耳机「肩负重任」
在上文中我们曾说过,如何在配送中心这种嘈杂的环境下尽可能减少噪声对性能的影响是仓库语音识别器所面临的一大难题。装卸车、风扇、吵闹的音乐、公共广播系统和其他设备发出的噪声使得语音识别器很难每次都非常准确地识别出工人们所说的话。 而仓库语音识别系统必须能够在寒气逼人的冷藏库、风吹日晒的装卸码头以及两者之间的任何一个地点工作,要做到这一点,对语音设备的设计人员而言是一项更加艰难的任务。虽然语音识别器本身的设计和实施对实现噪声环境下系统性能的最大化有着很大的影响,但尽可能向语音识别器输入最优质的信息,最大化所谓的信(用户语音)噪(其他声音)比也同样至关重要。Vocollect 的所有语音识别耳机均由我们自行设计或指导设计,我们这么做当然自有理由。从市场上购买的现成耳机并未针对物料运送中的「恶劣」条件进行优化。
诸多因素都可以决定耳机性能,并最终影响语音识别的准确性。例如,麦克风必须具备出色的噪声消除功能,排除远处发出的噪声,同时捕捉用户直接对着麦克风所说的语音。消噪式麦克风对制造公差的要求极为严格,因此价格不菲,但劣质麦克风会令整个系统的性能大打折扣。可惜的是,如果将消噪式麦克风朝着用户嘴部相反的方向移动哪怕是很小的距离,它的性能就大打折扣。这意味着语音识别器必须尽可能对此做出弥补。耳机应当能够轻而易举地将麦克风始终固定在同一个位置。
麦克风同样必须在极端条件下工作,即使是在沾染了配送工作环境中非常常见的灰尘、碎片和液体也不应影响它的性能。麦克风和终端电路必须相互配合,并且必须具有足够大的动态范围,以适应在安静和嘈杂环境下高低音量的变化。再加上上文提到的「伦巴效应」 (Lombard effect) —— 即不管有没有必要,人们在嘈杂的环境中会本能地提高说话音量—— 要做到这一点就变得难上加难。因此,如果一位原本说话音量就很高的工人在嘈杂的环境中工作,那么他的说话声音就有可能让你「震耳欲聋」!而麦克风必须能够将这「震耳欲聋」的声音「安然无恙」地传送到语音识别器,不会因过载而出现任何失真。
我们还需要做些什么?
就让我们假设已经建造出世界上最好的仓库语音识别器,完全达到了前文所说的理想设计要求。即使如此,要让语音识别系统在仓库中高效地工作,我们还有很长的一段路要走。以下便是其他一些重要的标准。
适应性语音识别 (ADAPTIVE RECOGNITION)
到目前为止,我们一直在假设用户对着语音识别器说话时的方式总是一成不变的。但事实并非如此。在经过了8 小时忙碌的工作之后,使用者可能非常疲倦,又或者他恰好感冒了。这些情况都会改变一个人说话时的发音方式,进而影响系统对语音的解读。
适应性语音识别器能够在与使用者不断互动的过程中更加深入地学习对方的说话模式。例如,每次使用者说出某个具体的数字时,系统都会将它记录下来,并对这名使用者有关这个词语的语音模型进行微调。在设计适应算法时必须非常仔细。但并非使用者每一次的说话方式都是一个好「标本」—— 我们都会有念错词的时候,而且在工业生产环境下,有时说话会受到外界震耳欲聋的噪声干扰。适应算法必须考虑这些异常情况,并忽略这些因素。
相比而言,电话语音识别器一般无法利用适应性语音识别的优点,因为它通常假定同一名使用者只会打入一次电话。由于下一位打入电话的人通常有着完全不同的声音,因此系统没有机会学习或适应某一种独特的语音。一些听写软件程序具有有限的适应性语音识别能力,随着时间的推移会逐渐提高识别准确性。但相对基于单词的语音识别器而言,适应性能力本身对以音素为识别单元的系统来说作用并不是非常明显,这是因为在单词模型中,每一个音素成分都能够准确地调整为它在某个具体单词中的发音方式,而不是将这一音素调整为其在所有单词中发音方式的混合。如果使用者的单词发音方式与众不同,那么音素层面的适应性能力将不会有什么帮助。
响应能力 (RESPONSIVENESS)
一些年长的人或许会回想起通过卫星拨打越洋电话时的情景:信号传输的延迟(哪怕非常短暂)会让双方的交流变得非常不流畅。当我们人类无法通过任何视觉线索来确定对方已经听见我们说话时,我们对「对话延迟」会非常敏感。如果语音识别系统反应迟钝或者响应时间前后不一致,这对生产效率和使用者整体满意度的负面影响相对于其他因素而言有过之而无不及。响应时间哪怕只是延长几分之一秒也会让一次原本愉快的对话蒙上一层阴影。如果用户认为语音识别器没有听到自己所说的话,他/ 她可能会重复一遍。而实际上语音识别器已经听到了对方的话,只是反应比较迟钝,那么它可能会将使用者重复说的话当作新的数据项进行处理。这时,用户和语音识别器便无法保持「同步」。迟滞和失望在所难免。
出于这个原因,最好能够利用和使用者「形影不离」的可佩戴或便携式计算终端来直接进行语音处理。虽然这要求大大增强这些便携式终端的处理能力,但速度和性能的提高为这种称为「胖客户端」(Thick Client) 的架构带来了巨大的优势。在胖客户端中,语音识别器和语音合成引擎都位于终端上。每个终端的处理能力完全用于应付一名使用者的工作,且无需通过无线网络传输语音数据,因此胖客户端系统能够保证对其用户的语音做出一致而迅速的响应。
胖客户端相对应的便称为「瘦客户端」(Thin Client)。在瘦客户端中,语音识别器并不位于同一个终端上。因此,必须将数据传输至服务器进行处理和语音识别。
由于网络设计、服务器软件实施方案以及同一时间与服务器相互作用的使用者数量不同,这可能会造成不同程度的延迟。我们注意到,即使是非常短暂的延迟也会严重影响用户对产品的体验。
瘦客户端装置还会因为连接问题而变得「一团糟」。在仓库中Wi-Fi 信号弱的区域,数据无法正确交换的可能性会大幅上升。由于瘦客户端几乎要求在终端和服务器之间实现连续的高速通信,工人们或许不得不先返回仓库中信号较强的区域,然后才能继续各自的工作。瘦客户端也给IT 基础设施带来了较重的负担。只要有一台终端处于网络覆盖的边缘,都会增加数据冲突和反复尝试的次数,进而影响所有其他装置的工作。这会造成延迟从而降低生产效率。
化零为整
既然我们已经从许多方面详细介绍了各种语音识别器的工作方式,现在就让我们进一步剖析它们是如何在仓库工作流程中加以应用的。有必要注意的是,即使语音识别器能够万无一失地以超快的速度辨别不同的词语,但如果没有经过合理的设计与应用,在实际操作时也可能不尽如人意。让我们来看一看仓库语音系统是如何引导用户完成一项代表性任务的,然后我们将探讨我们还需为「语音识别器」添加哪些配套装置,从而实现理想的用户体验。
应用引擎管理着系统向用户发出的提示,并指定使用者应当做出怎样的回答。它掌握着与使用者将要做什么,以及应当以什么顺序向用户发出语音指令和做出回应有关的信息。应用引擎通过语音互动引擎与语音识别器进行「沟通」。
让我们以仓库订单拣选这种非常常见的语音任务为例。
订单拣选的过程就好比在杂货店中买东西。货品存放在仓库货架的槽板上。订单拣选工人所使用的佩戴式移动计算终端中存有一个槽板列表和货品数量,这些构成了一项「任务」。订单拣选与在杂货店中买东西唯一真正的不同在于,对于前者而言,需要拣选的货品是按照位置来界定的,例如「通道3、槽板124」,而后者是利用商品说明来界定的,例如「香蕉」。
在拣选工人完成一项分拣工作后,应用引擎会在任务列表中查找下一件货品所在的槽板。如果马上要处理的货品和刚刚那件货品位于同一个信道,那么应用引擎就会为拣选工人创建一个提示,内容简单地包括「槽板135」(仓库语音应用通常都极为简练—— 我们不希望工人们浪费时间聆听多余的话)。应用引擎会将提示发送给语音互动引擎,包括要求语音识别器准备收听一个数字(通常是三位数)的指令,以及不得打断此提示的指令。然后,使用者在做出回答之前必须听完全部的内容。系统可同时提供可打断式提示和不可打断式提示是非常必要的。我们必须保证使用者听到所有必要的信息。但有时我们或许希望使用者能够打断对话。例如,用户可能会要求系统提供类似状态报告的信息,在听的过程中认为没有必要听完全部的内容。这时,如果用户无法打断对话,告诉系统进行下一步的工作,他可能会非常焦急。
系统发出「槽板135」的指令之后,语音识别器启动以便系统可以听取用户的响应。在本例中,使用者将读出一个校验码来确认位置。校验码通常是一个两位数或三位数,它贴在各个存放位置的表面。在到达指定的位置后,工人必须读出正确的校验码来确认自己已经到达正确的方位。用户读出校验码「373」,语音识别器对用户所说的数字加以解读,并将之与系统希望用户表述的主动词汇中的单词模型进行对比。如果语音识别器确信其查找到这一单词或一系列单词,随后它便会将这个匹配结果传递给应用引擎加以处理。如果识别出的语音和正确的校验码不匹配,则系统将重复提示内容。如果语音识别器在语法库中无法找到它所听到的声音,那么它便会忽略这个声音,将之视为外界传入用户麦克风的噪声(又或者使用者或许正在和朋友谈论昨晚的比赛)。
仓库语音系统必须「始终保持开机状态」,以便在工人需要和系统进行对话(可能是要求重复提示、寻找产品说明,抑或是退出系统)时聆听他/ 她所说的内容。这样,使用者在开始说话之前无需按下「说话」按钮(其他一些语音系统则要求这样)。如果需要按下按钮才可以开始说话,那么工人们便又多了一个操作步骤,而且不能腾出双手处理必要的工作。由于软件会时刻「监控」使用者的动向,因此系统必须经过细致的设计,能够对听到的噪声做出判断,并忽略外界噪声或是使用者离题的一些话语,而不会将这些声音当作使用者的正式回答。
为了最大程度地提高生产效率和用户满意度,系统还应当尽可能减少使用者必须要说的单词数量。一些效率较低的语音系统便要求锚点词。锚点词是指使用者必须提供的用以说明后续内容的词语。例如,在说出校验码之前,使用者或许不得不先说「校验」,提醒系统接下去的回答将是和校验码相符的数字。锚点词也可能添加在一句话的结尾,例如「停」,从而告诉系统回答完毕。此外,效率较低的语音系统在提示中可能必须增加一些额外的步骤,以便提高准确性,例如确认系统自认为听到的和实际听到的是否相符,如「你说的是3,确定吗?」。
现在让我们继续讨论上面的例子。在确认用户已经到达正确的位置之后,应用引擎会收集下一个必要的命令。例如「拣选」,并根据仓库管理系统所传送的信息添加需要拣选的数量。使用者听到:「拣选3」后,对话继续。使用者会说「3」以确认拣选数量,接着语音识别器会再次将这一回答与单词模型进行对比,并查找最佳匹配结果。整个这一复杂的过程会在使用者听、说交替之间迅速完成,不会出现延迟。
一旦用户确认正确的位置和拣选数量,这个过程便会自行重复,来处理后续的拣选工作。只要采用优质的语音识别器,并利用适应性科技使其长期保持良好的性能,同时为语音识别器部署设计精良的协作系统,我们便能够极其出色地完成工作任务。工人们不必再为了应付人机对话而放慢甚至打断他们主要工作的进度。
无穷的可能
在本章中,我们试图在消费性语音识别系统和工业语音识别系统之间画上一道清晰的界线。如前文所述,仓库工作环境中语音识别技术的识别准确性令人们通常碰到的消费性语音识别系统无法望其项背。我们介绍了各种仓库语音识别器的组成和差异情况,另外还剖析了一系列直接影响语音识别质量的因素。最后,我们通过一个强有力的业务案例阐述了最大限度地提高语音系统的语音识别质量所能创造的价值。在当今世界,公司必须尽可能在供应链中避免浪费,而从具有出色识别能力的语音系统中获得最大的回报是一个增加企业收益的好机会。
No comment