php发展

首页 » 常识 » 预防 » 计算语言学研究70年一
TUhjnbcbe - 2021/4/2 7:28:00
编者按

本文是中国社会科学院语言研究所所长刘丹青研究员主编《新中国语言文字研究70年》(中国社会科学出版社,年)中的第十三章。作者是中国社会科学院语言研究所应用语言学研究室胡钦谙助理研究员、顾曰国研究员。

第十三章计算语言学研究70年第一节引言

计算语言学是利用计算机技术,从计算的角度出发,寻找自然语言的规律,以使得计算机系统能够像人类那样理解和生成自然语言的研究。计算语言学是一门交叉学科,它涉及语言学、数学以及计算机科学等。在计算机领域,被称为自然语言处理。当处理的对象为中文时,称中文信息处理。

年提出的图灵测试一般被认为是自然语言处理思想的发端。时至今日,图灵测试的场景依然是计算语言学的主要研究对象,而研究方法则几经变革。纵观计算语言学研究方法的演化,我们可以将其归纳为规则、统计,以及深度学习三类。

理性主义

经验主义

符号主义

规则方法

统计方法

联结主义

深度学习方法

表1研究方法分类

这种划分本质上反映的是人工智能从符号主义(Symbolicism)方法向联结主义(Connectionism)方法演进的过程。符号主义方法认为人工智能来源于数理逻辑。它主张使用离散的符号表示知识,将知识系统地归纳成公理体系,采用某种形式化的语言来描述推理过程。而联结主义方法则认为人工智能来源于对人脑机制的模拟。它认为知识不存在于特定的地点,而是分布在神经网络内相互联系的神经元中。当对这些神经元的刺激超过了某个阈值,这些神经元将被激活,神经元的整体活动构成了人类的认知。

与此同时,计算语言学也经历了从理性主义方法向经验主义方法的演进,知识获取的途径由语言学家通过内省获得,发展到由机器自动地从语料库里学习和提取。

本文对新中国成立70年以来我国计算语言学的研究成果进行梳理。在国际计算语言学研究方法演化的大背景下,我国计算语言学的发展历程,大致可以划分为四个时期:汉字信息处理时期、规则时期、统计时期以及深度学习时期。关于这样的划分,有几点说明。

(1)我国最早开展的计算语言学研究是机器翻译,它甚至早于汉字信息处理时期的研究,可视为我国计算语言学研究的萌芽。

(2)汉字信息处理时期解决的主要问题是如何在计算机中使用汉字,考虑汉字本身,而不考虑其承载的语言学意义。后面三个时期主要研究汉语各种语言单位的计算及其应用问题,包括词法分析(分词、词性标注)、句法分析(依存句法分析、短语结构句法分析)、语义分析(语义角色标注)、篇章分析(篇章结构分析、指代消解)、知识图谱、信息抽取(命名实体识别、关系抽取、事件抽取)、信息检索、机器翻译、文本分类与聚类、情感分析、问答、推荐、社会计算、多模态信息处理等多个领域(中国中文信息学会:《中文信息处理发展报告()》年12月,

1
查看完整版本: 计算语言学研究70年一