您的位置:首页

详情

研发中文自然语言处理工具 满足业界智能文本分析和处理需求——复旦大学计算机科学技术学院邱锡鹏副教授

2019-05-06

邱锡鹏,1983年生,复旦大学计算机科学技术学院计算机应用专业副教授、博士生导师。现为中国中文信息学会青年工作委员会执行委员、中国中文信息学会计算语言学专委会委员、中国人工智能学会青年工作委员会常务委员、中国人工智能学会自然语言理解专业委员会委员。2006年复旦大学计算机科学与工程系计算机应用专业研究生毕业,同年进入复旦大学计算机科学技术学院工作。主要研究领域包括自然语言处理和统计机器学习等,先后在国家自然科学基金青年科学基金项目、国家自然科学基金面上项目以及上海市自然科学基金面上项目支持下,开展了“基于Markov逻辑网络的限定领域中文自动问答系统研究”“基于分布式语义表示的中文自然语言处理多任务联合模型研究”和“基于深度神经网络的端到端自动问答系统研究”等项目的研究工作。

近年来以第一作者和通信作者在国际期刊、会议上发表论文50余篇,其中,IJCAI、ACL、ICCV一区国际会议论文26篇,EMNLP、CONLL、COLING、CIKM、ICME二区国际会议论文16篇,SCI期刊(NeuroComputingPattern Recognition Letters)论文3篇。据谷歌学术搜索统计,论文引用次数1 467次,H指数为 19。部分成果已在多家单位的互联网内容分析系统中成功应用。获2013年上海市科技进步二等奖,2015年入选首届中国科协“青年人才托举工程”,2018年获钱伟长中文信息处理科学技术奖汉王青年创新奖一等奖。

在基础研究方面,邱锡鹏主要研究中文自然语言处理中的基础关键问题,包括中文分词、词性标注以及句法分析。所取得的成果创新性主要体现在三个方面:①利用分布式表示来建模字、词以及它们之间的关系,并利用基于门机制的策略来建模分布式特征之间的交互;②提出了基于双链结构的序列标注算法,既解决了常用的联合标注方法的标签集合过大的问题,也避免了分步标注方法的错误传播问题③利用多周期的长短时记忆网络来控制不同信息的传递速度。

在应用研究方面,邱锡鹏主要研究利用深度学习模型来建立统一的知识表示和自然语言理解模型,并建立端到端的自动问题系统。在递归神经网络的基础上,利用外部记忆来存储已有的知识,并根据查询的问题进行基于神经网络的推理模型。成果的创新性主要体现在以下四方面:①提出了新的外部记忆的组织结构和建立外部记忆结构与知识表示结构的有效融合手段;②提出了基于马尔可夫逻辑网络的限定领域自动问答系统的基本框架,较好地结合一阶谓词逻辑和概率图模型的方法;③基于神经网络的语义推理;④在社区问答方面,提出用基于张量的潜在语义模型以及卷积张量神经网络模型,有效地对社区问答中问句、描述和答案三者关系进行统一分析,弥补了词汇语义鸿沟问题。

邱锡鹏还研发了中文自然语言处理工具包FudanNLP,提供中文分词、词性标注、实体名识别、关键词抽取、句法分析等基础自然语言的关键功能。成果的创新性主要体现在两方面:①针对中文语法的特点,结合实际应用需求和算法效率,制定了一系列的词性标注和语法规范;②使用统一框架来处理各种自然语言处理任务,具有高度的整合性。相关成果在科研及工业领域获得成功应用。在科研领域,FudanNLP被清华大学、上海交通大学、新加坡国立大学、怀卡托大学等数十家国内外科研单位使用,并深受同行好评;在工业领域,FudanNLP已被上百家公司采用,以满足其智能文本分析和处理的需求。最近,邱锡鹏团队又开发一套基于深度学习的自然语言处理开源系统FastNLP(https://github.com/fastnlp/fastNLP),采用模块化、可扩展的设计理念,旨在进一步降低开发自然语言处理系统的难度。