剑客
关注科技互联网

专访“讯飞”胡郁:想和美国比创新,中国还需要多谈谈哲学

10月18日,锤子新机发布会上的语音识别技术效果实在惊人,以至于罗永浩的一段即兴发挥被准确转化成文字后,现场直接的欢呼声不亚于爆炸场面。甚至当天 新浪
科技发布的另一篇科大讯飞董事长刘庆峰的演讲,被锤粉们刷了评论区。

在那场演讲里,刘庆峰谈及了人工智能技术在未来有多么广阔的场景,它将会和水电一样,成为未来的基础设施。但实际上,刘庆峰当天出席的“世界人工智能大会”,科大讯飞的轮值总裁胡郁也在, 新浪
科技对他进行了专访。

相比百度、 阿里巴巴
等公司,胡郁认为科大讯飞的“互联网”味道要稍微淡一些。他说中国的产业和媒体对人工智能的关注还是太实用,太娱乐。真正的创新是从理论出发,从哲学角度发展出来的,我们对科技的本质关注太少。

胡郁有此结论,和他另一个身份:科大讯飞研究院院长离不开。而从技术的理论出发,再循序渐进地回归到记者的问题上,也是他于其他采访对象截然不同的特点。在他的规划里,科大讯飞的战略核心是用语音解决即将到来的物联网时代里的人机交互,如此才能用人工智能发挥出更大的价值,其中“脏活累活”也必不可少。在他看来,而无论时代如何变化,中国需要更多“能爬山的公司”。

想和美国比创新,中国还需要多谈谈哲学

可以透露一下语音市场或者智能家居市场,科大讯飞的市场份额吗?

胡郁:在手机市场,问题不在市场份额。问题是这些东西没人用,它的比例很低。iPhone里面,Siri的使用比例不会超过10%。这才是限制了我们大小的因素。

其实在实际情况下,我们离真正的物联网时代里,语音交互的大爆发,还差得很远。因为在物联网时代,使用频度会增高,使用的场景也非常多。家里面不可能只有手机能语音交互,任何地方都可以用自然便捷的方式来交互,想想看,这个使用次数。

主要是它在生活中所占的时间和比例会大大增加,这样就会带来很大的机会。所以我认为我们现在看到的只是未来的百分之一到千分之一。

我相信再过五年左右的时间,语音交互的次数会从现在的几十亿次,变成几千亿次,甚至更多。这样语音市场会更大,而我们人通过语音方式和机器进行交流和接触的时间,会大大增加。这也意味着它的商业价值会大大增加。

中国在人工智能领域的情况怎么样?

胡郁:相比于传统的高新技术,中国是有优势的。

第一个是经过这么多年核心技术的发展,特别是中国863计划以后,大家会注意到,在这一次的人工智能浪潮中,国内的企业和国外企业相比一点没有落后。如果说,在5、60年代和7、80年代那两次(人工智能发展期),中国企业还没有办法和外国企业在技术上相比的话,那在这次(发展浪潮里),我们完全走在了前面。

第二个方面是在于,任何机器的交互离不开产业环境和商业生态。这个产业环境和商业生态,在7、80年代之前是什么?是电子产品。

大家都知道,中国的电子产品在7、80年代才刚刚起步,完全不具备在全球市场竞争的能力。但是在现在,我们的依赖的是什么产品?是智能手机,是互联网产品和移动互联网产品。而在这方面,整个中国不仅是从事语音技术的公司对此有依赖,相关的商业公司也是,比如网上购票,还有各种的O2O。

作为一种连接型的技术,把人和机器连接在一起之后,语音技术如果想在物联网里面占领很多市场,就必须和这些后台的服务连接起来。所以说从整个商业和技术环境上来讲,中国现在应该说也是很好,因为我们的互联网公司和美国方面来讲,已经是一个同台竞技,甚至均分天下的态势。

在这点上,我觉得这为我们在将来,在物联网时代用语音交互作为人机交互的主要手段,并引发相应的商业模式,提供了很好的基础。

而第三点,大家会注意到,无论是什么操作系统,PC的也好,手机的也好,虽然这些操作系统可能是美国的公司做的,比如说 微软
谷歌
,但是要注意到,输入法这个部分,都是中国公司占主导地位。

为什么?因为它和语言有关。一个简单的键盘输入法,就因为语言之间的差异导致这么大的差异。那么大家可以想象一下,一个包括了语音识别、语音合成、自然语言理解的语音系统,语言之间的壁垒会有多高。中国公司在这方面会完全具有优势。

所以说从这三个方面来讲,我们在将来的物联网时代里面,无论是从技术本身,还是从语言的差异化本身,还是从商业的生态和环境本身,我们现在都和国外公司完全处于同一个水平。所以在这一波浪潮中,我们有信心中国会成长出一批国际水准的公司出来。

除去这些优势,仍然有很多声音认为中国在创新型研究方面落后于美国,您怎么看待这个问题?

胡郁:不可否认,我们对人工智能的了解,不要说产业界,就是媒体,其实对人工智能更多的认识是落在应用特性和娱乐特性上。而美国的很多人,是真正从理论的角度,进行非常深入的探讨。

如果我们只谈论应用和娱乐层面上的东西的话,我们是得不了图灵奖的,也得不了诺贝尔奖,也不能创造信息论这些东西。美国所谓原创性的研究,是从理论的根基出发,建立一套完整的思维方式。而有许多理论研究的东西是不会产业化的,没有产业化价值的。它只是一种哲学化的思考,而这些东西我们没有关心。

哲学会产生真正的创新。创新有很多种,有一种是在最原始的技术上创新。而我们讲的很多其实是在应用层面上创新,或者在技术层面上创新,但不是在科学的层面上去发现和创新。

所以在这个层面上来讲,我觉得国内应该从两个方面,恰恰是我们的研究的部分,我们的研究院所,我们的高校,可能应该更加着重于在理论方面的深入。而我们的产业界,不应该仅仅去应用它,而且应该在技术方面去做大规模的整合和创新。

因为人工智能就像航空发动机一样,里面有非常非常多的零件,有视觉的,有听觉的。你要把它们综合在一起,而且每一个都要做到世界上最好。我觉得现在学术界可能因为要和产业界对接,做了很多技术层面上,和应用相关的创新。而产业界还没有能力,来做整体性、系统性创新的工作,比较少。所以我觉得这就是我们和美国相比有差异的所在。

我觉得我们在学术上,理论的深度,和愿意去花长时间研究本质的工作还是太少,还应该增强。

因为人工智能,电信诈骗损失减少了5个亿

科大讯飞目前的主要优势是语音识别领域,公司未来还有没有其他人工智能领域的计划?

胡郁:智能语音是讯飞整个人工智能战略中的一部分。而讯飞人工智能战略的核心,是基于语音和语言的认知智能。

什么是认知智能?比如在医疗的过程中,我们需要通过病例帮助医生分析病人可能会得什么病,吃什么药,这就是一种认知智能。包括在教育里面,我们通过手写的试卷来判断学生的得分,并给出改进的意见。这些都是和语言,和人的概念和推理有关的。除了交互之外,它们能给我们的生活带来更多改进。

我再举一个例子,和我们的安全有关。在7、8月份,电话诈骗非常猖獗,特别是临开学的那段时间。有很多上学的同学不是因为诈骗,做出了很多不理性的事情么?安徽省8月份电话诈骗的发生次数下降了60%,而同期全国其他地区增长了58%。为什么能做到这点?因为我们在安徽省所有的电话里面做了一个监控系统,它可以对通话内容进行分析,对那些诈骗性质行为自动作出提醒,而这个过程是完全自动化的。这样就为安徽省避免了5个亿以上的可能的损失。

我相信大家也注意到了,我们演讲的时候会有一个同步的实时显示文字的技术。就是说我在上面讲话的同时,文字出来了,对你们(记者)来说是最有用的。这个产品马上就要开发出来了,最理想的状态就是我在这边说话,你们的屏幕上就能实时显示出来我讲的内容。

在去年的发布会上,我们发布了这个功能以后。大家可以看到,今年阿里和 搜狗
都展示了同样的技术。这也代表了一个发展方向。这个方向可能和语音交互是没有关系的,但和语音(技术)有关系。

我们谈到iPhone和Android的时候,它们的语音识别系统都是封闭系统,都是系统级别的。科大讯飞怎么解决这个问题?

胡郁:首先iPhone我们是搞不定的,除非破解它。iPhone本身就是一个垂直的生态。而且这个问题不仅仅是在中国,美国也是。但是iPhone自己的语音技术很差,导致它的用户体验相对于其他公司、产品会有劣势。

但对Android来讲,情况是不一样的。因为 谷歌
也知道Android有全球不通用的地方。比如说审美、风格,比如说语言相关的部分:输入法、交互。这就造成了Android系统在设计的时候就是一个比较开放的系统。

这就造成了第三方UI其实接管了中间层的一些功能,也导致了这些领域是可以进入的。而且现在很多的智能硬件,其实用的都是Android的操作系统。

我相信在将来的发展中,世界上会存在两种公司。一种公司是垂直产品型公司,比如说做手机,就一直做手机,手机技术不可能给别人用。世界上看起来,最多有8到9家这样的手机公司,加起来产量可能到全球的90%-到95%以上。

另外还有些公司,像 谷歌
这样,就是平台型的公司。我提供一些基础性的工作,给各个厂商都能用。但是做了平台之后就要面临控制权大小的问题。有可能控制权不在自己手上,而在手机厂商手上。

所以在未来的发展过程里,讯飞要做的不仅仅是手机,而是我刚才说的各个领域。这些领域里,有的是几家大公司联合垄断了市场,有的领域会是成千上万个公司来分享市场。比如说玩具、机器人,就是后面的这种。而且我相信现在这么多机器人公司,到最后也不会合并成大的公司,因为用户需要多样性的个性化产品。而手机这种产品,虽然有差异,但还是个工具性质的产品。

所以讯飞会成为一个平台型的公司,不仅帮平台上的公司提供核心技术,甚至可以帮它们整合各种各样的资源。我觉得我们是用这样一个思路来发展的。

成为平台型的公司,需要在不同的场景下提供基础性的通用解决方案,但是不同场景的使用特性是不一样的,科大讯飞准备怎么解决这个问题?

胡郁:场景的问题其实和刚才的问题,就是内容方面是非常有关系的。我们人在处理一件事的时候,你可以想象下你在订一张票,你所要和别人交谈的内容,嘴里面发出的指令,其实相对来讲不是开放的集合,是封闭的集合。

这里最难的问题就是怎么把它丰富起来,怎么让它多覆盖(些场景)。我们现在的做法就是一个点一个点去做。每做完一个点就拿到实际里去用。越来越多的人用了之后,语言的覆盖性就会越来越好,这个场景的问题就解决了。

那在这个过程里怎么加速这个问题呢?我们怎么在做一些场景的时候,其他场景也能变快呢?这就是我们为什么要做那些高考答题机器人的原因。它能学会系统学习的方法,当我们做了一两个场景之后,就能转移到其他很多场景上。这样能使我们的覆盖快速增加。我们通过这样的方式来解决这样的问题。

担心人工智能过热没有用,还不如肯“干活”

今年人工智能的概念快速火热了起来,您怎么看待这种现象?有没有担心过这种火热对人工智能技术的发展带来负面效果?

胡郁:当然担心,但担心了也没用。

任何一个新技术出来的时候都会鱼龙混杂。人类有夸大预期的本性在里面,是人类的社会特性决定的。认识到这个规律之后就不会觉得这事是什么坏事。我们能做的就是在局部上防止过热。

所以我们应该考虑的是如何利用这种周期性的狂热来合理布局。从投资人角度来说,投资人很容易找到钱,但投资人可以利用这种环境去找最有价值的公司来投资。所以只能说改变你能改变的,接受你不能改变的。

我觉得在人工智能领域里有两个领域是有价值的。一个是人工智能核心技术研究,他们不一定有经验去进行商业化,我们可以投资他,提供经验。另外是如何利用人工智能技术来解决现实问题,这通常在大的公司里面,他们都有很大的产业基础,只要把新技术嫁接进来。

大部分的公司并不会因为人工智能出现而进行重组和重构。比如农业,人工智能只是一个改进的工具,所以在这些领域里,原有的大公司依然占有优势。所以更有价值的是去寻找哪些懂得怎么利用人工智能的人来投资。

百度这样的互联网公司也在做人工智能研究,而且和科大讯飞的领域有重合,您怎么看待这种竞争?科大讯飞有哪些优势?

胡郁:比较公司要看战略,我不是特别了解百度的战略,因为每年百度的重点不一样。但是过去三年里面我们一直在做运算智能、感知智能和认知智能,而且会定期公布进展,有清晰的商业模式。这是我们和互联网公司的不同,是专注科技创新的公司。科技创新公司更像是爬山的公司,一步一步去爬到顶峰。

但互联网有很多机会,所以很多公司都是冲浪型的,需要不停地抓住下一个浪潮,如果不是,就换了。

我们还是坚持来做人工智能,坚信交互革命那天会到来。所以一个公司要有清晰地战略,而且要把战略传达给别人。我们战略十分清晰:我们是一个技术创新性公司,解决人机交互这个问题。

在行业里面,我们用我们的人工智能技术帮助医院、学校、司法、金融机构去改善他们的问题。这里面有很多“脏活累活”,要做很多结合型的工作。互联网公司追求收益,毛利要非常高。而且有很多“脏活”不一定愿意去干。但在产业互联网阶段,和传统领域结合,是少不了这一步的。

当然不是说一味去做基础性的工作。上面要有顶天立地的东西,但是不能因为有这个就不能弯腰了,绝对不是这个概念。

所以我觉得中国需要更多爬山型的公司,无论外面怎么变化。外面无论是互联网时代也好,移动互联网时代也好,物联网时代也好,这都是外围环境的变化。但是公司征服一个领域,具有爬山的本质是必不可少的。

分享到:更多 ()

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址