杨敏：深耕自然语言处理架起与机器沟通的桥梁

在CCF-A类学术会议和JCR一区期刊上发表高水平学术论文80余篇，获得中国人工智能学会2018年度最佳青年科技成果奖、2019年度CCF-腾讯犀牛鸟基金优秀专利奖，是中国科学院青年创新促进会成员……拥有这份亮丽简历的是来自天府之国的“90后”杨敏，抱着对自然语言处理技术的极大热情，她在香港大学攻读计算机科学专业博士之后，进入中国科学院深圳先进技术研究院数字所开启了她的科研之路，目前是副研究员兼博士生导师。

为什么选择深耕人工智能？杨敏表示兴趣与热爱是最大驱动力，“数据挖掘研究令人非常着迷，从大数据中常常能分析出有用和令人兴奋的信息。”同时，杨敏也十分看好人工智能技术的发展前景，她认为随着人类对先进便捷生活的不断追求，人工智能必将在当中扮演重要角色。

让机器听懂人话？从模拟人类行为开始

近年来，随着智能技术的普及，机器人逐渐在各个领域代替人工成为客服的主力军。然而，人们在“人机对话”中常常会遇到程序繁琐、答非所问的情况。如何让智能客服更好地理解人类的真实需求？如何更快、更精准地反馈问题的答案？这些都是自然语言处理技术亟待解决的问题。

“要让智能问答和人类问答达到相同程度，实际上是非常困难的。”杨敏说，“目前我们还处于弱人工智能时代，需要攻克认知智能，才能让机器真正地理解问题、进行推理和解决问题，目前看来还有一定距离。”

为了让机器读懂人类的语言，杨敏团队尝试根据人类行为设计深度神经网络模型。“比如人类在做一篇文章的阅读理解时，通常会先粗略浏览整个文章的大致内容，第二遍再带着问题精读寻找答案，第三遍确保答案正确。” 杨敏团队从人类阅读认知角度出发，模拟人类阅读认知过程中预读、精读、后读三个阶段，提出基于先验知识的交互感知模型、目标感知的语义蒸馏模型、基于强化学习的语义反馈模型等，以更贴近人类阅读认知的方式解决自然语言理解问题。

光有大数据不够！知识图谱给机器“补课”

当然，人工智能也有“过人之处”，强大的算力与大量的数据让机器能够快速获得学习的资源，但只有大数据还远远不能达到人类的水平。

“尽管通过大数据的挖掘分析能够得到很多有用的信息，但只有数据驱动是不够的，人类之所以能够快速做出决策，是因为拥有丰富的经验常识和背景知识。”杨敏表示，她们团队尝试用数据驱动和知识驱动相结合的方式，通过建立完善的知识图谱，补齐人工智能背景知识的“短板”。

此外，模型压缩也是杨敏团队主攻的技术方向。当对模型训练的强度越来越大，数据量越来越多，精度越来越高时，消耗也会越来越大。特别是在线上运行时，由于模型过于复杂，反馈结果的时间会从毫秒级拖延成秒级，导致用户体验效果不佳。

“通过模型压缩能够在不影响运算精度的情况下，让参数变少，效率提高，节省训练时间的同时，降低对数据的要求，提升用户体验。”据杨敏介绍，团队目前正与腾讯、神州泰岳等企业合作进行模型压缩的攻关研究，主要应用于自然语言理解和推荐系统任务。

得理法律平台.jpg

得理法律平台

在应用落地方面，杨敏团队还与深圳市得理科技有限公司成立了“法律人工智能联合实验室”，将自然语言处理和推荐系统的核心算法应用到司法领域，开发案件判决预测、类案智能搜索、法律智能问答等系统。

为科技之城贡献力量

在杨敏加入深圳先进院之前，她曾在科技企业有过短暂的工作经历，她感到科研机构与企业最大的不同之处在于，在科研机构能够有机会深入研究一些“有难度又有研究价值的课题”，尽管短时间未必能很快看到结果，但能够投入更多时间和精力专注攻克，希望能取得突破性的进展。

不仅如此，深圳先进院对于产学研融合的大力支持，也让杨敏感到“能够真正将基础研究写在祖国大地上”，既能打破技术壁垒，又能快速找到产业界合作的落脚点，快速验证自己的算法是否实用。

来深3年，深圳带给川妹子杨敏最大的感受是“科技之城”，“科研技术公司非常多，对于我们寻找产业合作伙伴和学生寻找实习工作都非常有利。同时，深圳出台了非常多吸引高端人才的政策，使得深圳汇聚了全世界顶尖的人才，人才又反哺深圳，为深圳的发展作贡献，形成良性循环，对于我们年轻人而言，充满吸引力。”（刁雯蕙）

责任编辑：郭旭晖龚丽华

阅读

加载中...

杨敏：深耕自然语言处理架起与机器沟通的桥梁

相关新闻