国内AI领先技术,语音识别呈现怎样的发展趋势?
2021-11-05
音识别是发展未来人工智能(点击阅读:我国人工智能产业现状及发展前景分析)的重要组成部分之一,是达到人机交互目的第一步,简单来说,是机器或程序完成接受口令、解释声音含义、理解和执行口头指令所需的技术。
语音识别是发展未来人工智能(点击阅读:我国人工智能产业现状及发展前景分析)的重要组成部分之一,是达到人机交互目的第一步,简单来说,是机器或程序完成接受口令、解释声音含义、理解和执行口头指令所需的技术。本文将从行业政策环境、产业链、行业竞争格局、投资现状等角度来剖析语音识别产业的发展现状。近年来,随着科技的进步,人工智能这一新兴领域取得了快速发展,相关政策相继出台。
在“十四五”的大背景和智能经济形态下,目前已有多个省市响应中央号召,相继发布人工智能相关规划或专项政策,以人工智能为技术手段,发挥当地产业集群优势,促进产学研融合及协同发展。同时,语音识别技术属于中国AI领域中最为成熟落地的技术之一,预计未来能够继续加速在各垂直行业进行渗透和布局。
中国人工智能语音识别产业链主要分为上游、中游、下游。上游:基础层技术提供算力与数据方面的强力支持——包含算力与AI数据服务。语音识别模型在运行过程中训练数据量和计算量需求极大,由于传统的CPU或者单一处理器进行语音识别运算的处理时间过长,所以无法满足海量数据计算的实时性需求。目前,主流语音识别公司的模拟训练和语音识别基本都在云端采用GPU等计算芯片并行架构或异构计算方案进行。中游:技术层提供理论与技术支撑——包含基础理论技术以及算法模型相关解决方案的形成,升级为相关软硬件产品。下游:应用层提供技术落地应用场景——包含企业端、消费端、其他端场景。其中,企业端主要应用于医疗、公检法等;消费端主要应用于智能家居、智慧教育等。中国的人工智能语音识别主流厂商大致可分为互联网IT厂商、语音技术厂商两类。互联网IT厂商典型包括阿里巴巴、腾讯、搜狗、百度等。这类厂商重视以流量导向和满足庞大用户群体验和创新需求为导向去做AI开发,更多以流量和用户体验为导向,同时,会比传统的语音技术厂商更加注重创新实践。语音技术厂商典型包括科大讯飞、捷通华声等拥有自身核心语音芯片以及相关软件系统的传统语音技术厂商,还有云知声、思必驰等侧重于某些垂直领域的语音技术和产品的创业厂商。在众多厂商中,科大讯飞、腾讯、百度为典型竞争力代表。科大讯飞:科大讯飞是国内领先的智能语音技术主要提供商之一,在语音识别等智能语音技术领域拥有国际先进的成果,主要业务包含智能语音和语言技术研究、软件及芯片产品开发、语音信息服务及电子政务系统集成,为企业、政府和个人提供智能应用。科大讯飞技术优势在同行业中出众,拥有自主知识产权的智能语音技术,推出覆盖大型电信级应用到小型嵌入式应用以及满足不同应用环境的软硬件产品。科大讯飞在中文语音技术市场和语音合成产品市场都占有较大份额,应用于电信、金融、电力、社保等主流行业。科大讯飞结合自己核心的智能语音技术和人工智能的研究,已经实现AI产品化的布局。在To B端,科大讯飞面向教育、政法、医疗、汽车和客服等多个行业提供相应的解决方案。在To C端,科大讯飞提供面向消费者的家庭、汽车、翻译等个人消费品,包括硬件产品如讯飞学习机、讯飞翻译机、智能办公本等,以及软件产品如讯飞输入法、AI电视助手等。腾讯:腾讯云语音识别目前主要应用于微信、王者荣耀、腾讯视频等内部业务,外部应用布局于录音质检、会议实时转写、法庭及审讯记录、语音输入法等场景。技术提供主要功能为开放实时语音识别、一句话识别和录音文件识别,支持云端和嵌入式两种服务模式。腾讯云语音识别的主要优势在于有大量的用户基础和数据积累可应用于丰富的行业场景,收费价格较低,自准率高达97%,支持多语言识别能力,有领先的算法。百度:百度在AI开放平台上提供语音识别的技术,共享AI领域的应用场景和解决方案,产品包括短语音识别、实时语音识别、远场语音识别、音频文件转写、语音自训练平台等,应用于手机应用如语音输入、机器人对话、语音内容分析和实时语音转写等场景。百度的语音识别技术优势在于领先的语音识别技术,提供自助训练专属模型,可简单快速地接入API及多种SDK接口,提供稳定性保障,且收取费用较低。国内人工智能产业发展较国外发展较晚,直至2011年方才展露出发展苗头。语音识别作为人工智能产业中极其重要的一个组成部分,担任着人机交互应用时的输入和输出接口,也相应地受到产业风口的影响,受到一众投资机构的追捧。截至2021年2月,语音识别行业投资事件达150多件,投资金额达180亿元左右。
从投资轮次来看,A轮阶段的语音识别企业更受资本方的青睐,投资额达50.24亿元,投资事件达65次;其次,B、C、D、E轮次的投资相对平均;值得一提的是,对于早期项目,投资机构虽然单笔投资金额较少,但投资事件相对较高,达24次。按照语音识别产业分轮次投融资占比来看,行业中吸引了绝大部分资金的企业基本上都聚集在A、B、C轮。
从语音识别产业内企业产品/服务应用方向来看,主要分为技术服务、教育、汽车交通、新工业、智能硬件、医疗、金融等几个分类。其中,最为获得投资机构青睐的是技术服务方向的语音识别企业,占据了投资金额及投资事件数的绝大部分,分别为116.49亿元、89次投资。值得一提的是,语音识别技术应用于汽车交通行业所获得的投资件数虽然仅有4次,但单笔投资金额却是最高的。
我国大力推动新基建发展,其中5G、人工智能、云计算等作为辅助核心基础设施也将得到进一步加速发展,同时也会带动语音识别产业迎来更加广阔的发展空间。未来,相信在国家政策的强力扶持与供应商和开发者的共同努力下,语音识别产业会加速在垂直行业进行渗透和布局,能够更好地与其他语音交互技术及软件功能融合,为消费者提供更优质的体验。