谷歌开放语音识别 API，与 Nuance 展开正面较量

谷歌今天向第三方开发者开放了语音识别 API，计划与 Nuance 和其他语音识别公司展开正面竞争。为了吸引开发者，Google Cloud Speech API 一开始将免费提供，后来再进行收费。

过去几周，我们听说了大量有关这项服务新进展的传言。谷歌今天在 NEXT 云计算大会上正式宣布了这一举措，此外它还在大会上公布了其他一些与机器学习技术有关的最新动态，但最重大的则是推出了一个新的机器学习平台。

据谷歌介绍，Google Cloud Speech API包括 80 多种语言，将可以在实时流媒体或批处理模式下支持任意应用，为应用提供全套 API，让它们可以“看到、听到和进行翻译”。它是基于神经网络技术开发的，而谷歌搜索应用中的语音搜索和键盘应用中的语音键入都是基于一样技术打造的。此外，Google Cloud Speech API 还有其他一些令人感兴趣的功能，列如说可在噪音环境下工作，而且支持实时功能。

谷歌此举将会对整个行业带来巨大的影响，尤其是对 Nuance——Nuance 长期以来认为自己提供的是行业内最好的语音识别技术，也是最大的语音技术服务提供商。由于谷歌的加入，Nuance 的众多客户（包括创业公司）有可能会转而选择谷歌的技术——谷歌的技术不仅体验优于当前服务提供商，而且成本更低。

为了吸引开发者，谷歌最初将免费提供语音识别技术，后来会收费，但我们认为收费价格有可能会低于行业平均水平。按照谷歌的惯例，在占据行业主导地位后来，该公司也许会上调收费价格。

到目前为止，谷歌只是将语音技术有限地整合到旗下产品中。例如，开发者可以将 JavaScript 应用于 Chrome API，然后再导向语音识别 API。谷歌在 2015 年 I/O 开发者大会上发布了 VoiceInteraction API，让安卓开发者可以在应用中集成语音功能。但谷歌迄今尚未直接向开发者开放语音识别 API。

谷歌发布语音识别技术 API，不仅会对 Nuance 和其他语音识别服务提供商带来冲击，而且苹果也会受到冲击。一方面，苹果虚拟助手 Siri 的语音识别功能远远逊色于谷歌的同类产品。另一方面，苹果也未向开发者提供 API，让他们在自家应用集成 Siri 技术。

种种迹象表明，苹果将会进一步加强语音技术。例如，谷歌在今年 2 月份宣布，将允许 Google Docs 用户通过语音编辑文件并设计版式。

题图来源：布莱恩·杰克逊（BRIAN A JACKSON）/SHUTTERSTOCK

翻译：皓岳