阿里云
双11技术峰会
发表主题 回复主题
  • 988阅读
  • 0回复

[阿里云新闻]阿里云初敏:数据将是人工智能最大挑战

级别: 论坛版主
发帖
3865
云币
7365
12月22日消息,阿里云iDST技术总监初敏近日在环球网Global Tech智能起源世界大会接受了媒体采访时,谈及未来的挑战时,表示,数据是最大的挑战,今天所有的人工智能其实多是从数据中学习,从数据中学习人看不出明显的规律,不能用语言描述起来,但是它是存在着一种隐性的影射关系,深度学习最大的能力就是把这个关系影射好,但是如果数据是偏的,就会完全被数据误导了。

  在活动现场,初敏展示了阿里云的语音实时转化技术,她表示,这种语音的转写,最开始在公司内部年会上做,后来到云栖大会上做,未来,她更关心的是能否帮助合作伙伴在任何一个场景下都能完成,真正的使用起来。

  初敏介绍说,像这种语音实时识别转化,如果从算法上讲,是做了一个双向神经网络结构,是一个序列的结构,所谓双向,从左往右看的同时还从右往左看,复杂度高,学术上有人做,没有在工业界上用,认为实时性不够好。

  “但我们也做了,比如反向看,意味着我得讲到那儿才能反向看到,这就有延迟。”初敏表示,阿里云最近做了一些新的技术,计算速度至少快了三倍,意味着在一台都要到了退役服务年龄的服务器上也能跑起来,并发度很高。“这些都是我们(阿里云)的强项。”

  但是,这种语音识别转化在某些专业行业领域还需要进一步的机器训练。初敏坦言,如果讲演的人是医疗领域,我估计肯定不行,我们今天没有用医疗语音训练它,不是做不到,而是没有训练而已。

  初敏还举例说道,“像在法院的时候也有这个问题,庭审做不准就是因为人的名字,说到的名字不知道是哪个字,这个怎么办?我们动态给了一个热词表,开庭前输入基本信息,那我就很快学会,线上就能动态加载进去,就能用上这些词,而且准确率特别准。实际上我们会花很多精力做类似这样的事情,使最后的效果比较准。”

  当被问及是否考虑将这种语音识别技术推出消费级产品时,初敏表示,最开始做确实不是to C的,不过最近也想做一个应用,可能几个月就能出来,是面向记者的。

  初敏接着说道:“但不能期望太高,语音这个和录音条件有关,和设备有关,设备上还有压缩率码率各种因素,条件可控的情况下可以做得很好。所以我们也在想给大家建议什么样的设备,得一系列条件控制好了,识别转化才能很好。如果拿个手机放中间录音然后两个人开始聊,这个难度大一点。”

  “我们甚至还和某些厂商和YunOS厂商合作,比如要做一个高端手机,手机上就是多麦克的,那可能就能做得很好。我今天比较担心媒体上看到的各种声称什么97%、98%,这是我害怕的,看我刚才的识别也是很准的,可是这不是说这个问题解决了,还有很多场景其实并不,我们要看的是怎么能在各个场景做好。”
发表主题 回复主题
« 返回列表上一主题下一主题

限100 字节
批量上传需要先选择文件,再选择上传
 
验证问题: 11 - 7 = ?
上一个 下一个