场景应用成智能语音决胜关键(4)
http://www.newdu.com 2024/11/25 12:11:34 国际金融报 陈莎莎 参加讨论
语音技术目前主要包括:说话下命令、通过语音判断身份(如银行密码、保险锁、公安刑侦)、需要语音的场合(电话客服、口语考试)的自动服务、语音与文字的互相转化等。而语音识别只是其中最基本的功能。 起步阶段的语音市场,总量并不大,但《国际金融报》记者发现,该产业在国内只有五六家公司,相比于万亿规模却百舸争流的“红海市场”,该领域每家公司分到的市场空间并不小。 目前哪些公司在做语音技术?它们有什么区别? 总体而言,多数公司是整个互联网、物联网的基础技术提供商,基本都是to B(即机构用户)而不是to C(终端消费者)。科大讯飞公司体量最大,多数项目来自政府合作;思必驰、云知声目标市场最接近,都是车载后市场(即出厂后配置的)、家居物品、机器人,其基础技术散在各个垂直细分领域,随客户公司的领域而随时变化;谷歌在中国投资的“出门问问”(约占一成股份),目前产品主要是语音输入的手表。 值得注意的是,《国际金融报》记者发现,智能语音领域并不是BAT、谷歌、苹果等所谓的巨头最领先,它们针对消费者提供终端应用产品,而不代表其技术最强。“苹果公司的Siri做了这么多年,不还是个玩具吗?”阿里巴巴一位技术人员对《国际金融报》记者说。针对终端消费者的这些互联网公司,基本不对外输出技术,BAT也通过投资创业公司来获取语音技术。 其中,百度语音达到专业水平,“所有技术全都是百度自己开发。”其技术人员向《国际金融报》记者表示。记者试用了百度医生,只需对手机说“我肚子痛”,百度医生就显示了十几位相关医生的信息供选择。阿里巴巴、腾讯相对较弱,BAT基本把语音作为自己现有产品的附加功能,如阿里基于产品搜索服务电商平台,微软聊天机器人为了得到聊天数据,并没有实际功能。 如果说过去几十年,全球语音行业的关键瓶颈是识别的准确率等技术问题,那么今天,机器听打比人工速记的准确率更高,下一步语音公司的核心竞争力又在哪? 阿里云一位技术人员对《国际金融报》记者说,“如果只是语音识别,对错都一目了然,所以你可以给机器数据,反复地训练它。而语音执行命令,就涉及各个场景,需要大量知识库,只要是无法明确量化、对错标准模糊的场景,就很难训练机器,因为它不知道你想让它怎么做。” 需要特别注意的是,《国际金融报》记者发现,尽管各家公司都号称自己是以语音为切入口的人工智能公司,但语音技术本身严重同质化,若目标细分市场再继续同质化,而缺少各家自己的特色,市场发展可能不会如人们想象的乐观。 为什么不做to C?第一,不敢直接把客户变成竞争对手;第二,公司体量较小、数据不足、对终端消费者理解不深。用业内的话说,“把终端消费者交给专门做产品的公司,我们专心做to B的软件”。 科技公司正推动机器不仅能听懂语音的指令,更重要的是能理解、会思考,并帮你解决问题。比如,“帮我买明天去北京的机票”,语音识别非常简单,但要确定起降机场、航空公司、价格、选时间段,而被选择的信息可能是不标准的。机器人相当于人几岁的年龄才能独立完成买机票这项任务呢?以此为例,不少公司正在积极探索类似的应用场景。 (责任编辑:admin) |
- 上一篇:洪厚甜:不用书写的时代,谈谈书法
- 下一篇:机器人像“人”待何时?