剑客
关注科技互联网

CCL 2016| 中科院张钹院士:后深度学习时代的计算语言学

今天,第十五届全国计算语言学学术会议(CCL2016)与第四届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD2016)同时在鲁东大学召开。来自语智云帆的美女工程师任晓娜参与了会议,并为雷锋网 (搜索“雷锋网”公众号关注) 的读者们带来会议现场的报道,雷锋网对内容做了不修改原意的编辑。

CCL 2016| 中科院张钹院士:后深度学习时代的计算语言学

先简单介绍下两个会议的背景——

CCL(全国计算语言学学术会议)从1991年开始每两年举办一次,从2013年开始每年举办一次,着重于中国境内各类语言的计算处理,为研讨和传播计算语言学最新的学术和技术成果提供了高水平的交流平台。

NLP-NAB(基于自然标注大数据的自然语言处理国际学术研讨会)涵盖了所有自然语言处理的研究内容,尤其关注在大数据时代自然语言处理的前沿方法和技术。

从清华大学孙茂松教授的发言大致就能知道本次会议的相关情况:会议收到投稿300多篇,录用率32.9%。会议前一天加入讲习班环节,都是一线青年研究学者的报告;并且加入了自然语言处理国际前沿动态综述的,是简而精的报告;加入系统展示环节的,都是业界比较前沿的技术,特邀报告人也是业界专家。以上被录用的英文论文,都将由论文出版社Springer发表在LNAI(Lecture Notes in Artificial Intelligence)系列中。

中科院张钹院士:后深度学习时代的计算语言学

CCL 2016| 中科院张钹院士:后深度学习时代的计算语言学

(清华大学教授、中国科学院张钹院士)

清华大学教授、中国科学院张钹院士介绍了从符号主义到连接主义再到深度学习,在语言处理上遇到的困难、原因以及来源等。

  • 符号主义的认知计算模型

张钹院士提到,符号主义掀起了一场计算机(算法)应用的革命,它也是最合适的语言模型。另外,知识驱动法,提及了waston系统(以知识为基础的问答系统),指出了知识驱动法存在的局限。

  • 连接主义的崛起

20世纪以来计算语言学的两大变化,一是大数据,二是概率统计方法。跨过统计学的四个里程碑、机器学习模型的发展及文本的机器学习模型等,再到文本语义鸿沟问题,一般情况语义和底层特征之间的映射不存在,于是引出了从浅层学习到深度学习,深度学习在语言处理中的应用以及深度学习解决问题的范围。

  • 后深度学习时代的计算语言学

在后深度学习时代,计算语言遇到了困难,比如在概率统计方法和生数据所带来的——

概率统计方法带来的困难:神经网络(手写数字)识别系统只是分类问题并非“识别”。张钹院士举了个深度神经网络错误识别案例:全是噪音的图片,被识别为0-9个手写数字,置信度为99.99%。又另外分别从输入量、信息量、关系、底层特征四方面,分析了文本与图像信息之间存在的差异。

生数据(Raw Data)带来的困难:Stanford图片识别均采用正例样本,识别率比较高,而正负样本均随机选择的话,Stanford识别率只有19.2%(包括pretraining,采用9M images,10k categories)。

如何解决以上困难?张钹院士提出以下三点:

(1)知识驱动与数据驱动的结合:例蒙特卡洛树搜索+深度学习

(2)学科交叉,特别是与脑科学与认知科学的结合

(3)计算语言学与人工智能共同前进

张钹院士说,计算语言学依然任重道远,后深度学习时代,自然语言处理的发展要更依赖于学科交叉:脑科学、语言学、数学、计算机科学和认知科学等。

微软亚洲研究院 常务副院长马维英:有关Self-Teaching机器人的一些研究成果

CCL 2016| 中科院张钹院士:后深度学习时代的计算语言学

微软亚洲研究院常务副院长马维英博士在《Can We Build a Self-Teaching Machine?  A Quest for Machine Comprehension of Text》 的现场报告中,主要介绍了微软亚洲研究院有关Self-Teaching机器人的最新进展。

比如在谈及机器人从搜索引擎道聊天工具对文本的理解时,Self-Teaching机器人能够做到:

  • 闲聊和深聊的结合,使用户更有兴趣进行交流,并具有亲切感;

  • 图片或者视频的识别和评论;

  • 建立用户模型,会给出令人惊喜的回答;

  • 能够帮助订机票

  • ……

除此之外,还有机器人小冰。比如图书馆进行图书搜索的关键是排序,机器人小冰通过大量数据来颠覆搜索过程,采用了深度学习、知识挖掘等关键技术,数据结果显示,小冰的每个会话的互动要高于其他相似产品。

报告现场,马维英还提到了人工智能的四大趋势:

a. 万物电子化;b. 万物互联;c. 云计算;d. 软件工程智能化

人工智能技术还可以扩展到其他方向,其中一个重要的应用就是机器翻译。机器翻译的双向学习,用5%双语训练数据的BLEU值与100%训练数据的BLEU值相当,并且可应用于多个相关任务协同学习中(NIPS2016)。

今天会议干货很多,这里做个小小预告:明天将有4个特邀报告,自然语言处理国际前沿动态综述及录取论文poster的展示,另外还新加入了系统展示环节。我们也将展示公司(北京语智云帆科技有限公司)的最新产品,欢迎大家留言交流。

分享到:更多 ()

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址