慧聪网首页慧聪IT网首页行业资讯技术中心产品透视热点人物热点专题专家在线市场研究找供应找求购免费注册立即登录加入买卖通即时沟通网站导航

云知声梁家恩:构建语音类智能开放平台

http://www.it.hc360.com2013年04月26日13:41比特网

    4月19日,云知声CEO梁家恩作客DoNews5G白话。作为语音识别领域的重要公司之一,云知声因为去年和搜狗达成合作协议而被业内熟知。梁家恩坦言,语音识别还有很长的路要走,而它的价值显而易见。云知声希望成为一个巨大的智能运算平台,“那些开发者不但不用给我们付费,而且还能够在这个平台上获利,从而走得更长远。”

    智能语音识别的原理

    “其实它并不是一个真正的智能,只是表现的像而已,本质上还是一个搜索的问题。我说出一句话,它会在数据库里面查找、比对,找出最像你说的那句话。如果刚好猜对了,而且识别度还蛮高,那么你就会觉得它很智能。”梁家恩如此解释语音识别的本质。

    跟其他的语音识别公司相同,云知声最初的数据库是需要好几千人,甚至上万人去录制的,必须要知道每一个特殊的发音是什么样的。刚开始可能几千人的声音数据就可以把公司转起来,而有了用户开始使用之后,数据就会慢慢地积累起来,然后再把我们的数据分析加进去。

    因此,这种基于语音数据的商业模式如果碰上像中国这样的多方言国家,困难就比较大。“像北方口音相对少些,在南方口音更复杂。我们现在在一些带口音的普通话上,都有数据库去覆盖。但如果是完全另外一种语言,比如闽南语、粤语,我们现在还不能去识别,这些数据还需要去建立。”梁家恩称。

    语音识别的流程大致相同。第一个阶段就是声音的特征抽取,第二阶段就是发音模型。“我们说话的声音模式是怎么分布的,在专业领域叫声学模型。另外一个库叫做语言模型,我们说的这些话有很多词,这些词各种排列组合出现的可能性是不一样的,我们看全网抓下来看这种说法多不多,叫做语言模型。中间的还有一个叫做发音词典,发音词串是什么样的,把发音和语言模型结合起来。此外,还有一个重要环节,就是所谓的系统工程环节,我们叫做解码器或者识别引擎。”实际上语音识别就是把这几个流程给串起来,本质上就是一个比对的过程,效率和精确率的高低完全取决于这两个模型。

    如何顺势而上

    云知声的创始团队其实从2001年就开始研究语音识别,梁家恩是中国科技大学96级的毕业生,2001年进入中科院,一直在研究语音识别这个方向。2011年,他去了盛大创新语音主题院,但随着盛大退市,盛大创新院也逐渐消寂。直到2012年,整个产业环境向好,看上去到了一个爆发期,语音识别的需求也非常旺盛,梁家恩就号召同学、师兄弟一起创立了云知声。

    “去年十一我们才发布了产品,11月,搜狗就找到了我们,他们试了一下我们的系统,觉得跟科大讯飞不相上下,当时就决定跟我们合作了。”梁家恩称。不到两周,云知声便帮助搜狗做出了语音助手。“搜狗给我们打了一个非常好的广告:语音识别技术由云知声提供。这对我们的品牌帮助是非常大的。”

    但并不是所有的大公司都会重视像云知声这样的创业公司,尤其是在语音识别流域。梁家恩表示:“语音识别在这些大公司里已经成为一个非常重要的战略,他们不会愿意把这部分放给外面的公司去做,虽然他们本身可能还需要较长的时间来做。包括像百度、搜狗、腾讯这样的公司,他们都很想涉足这一块。

上一页12下一页
【征稿电话:010-82297456 邮箱:qixc@hc360.com】

关注排行

  • 今日
  • 本周
  • 本月
  • 健康指南