计算语言学厦大应用语言学.ppt
《计算语言学厦大应用语言学.ppt》由会员分享,可在线阅读,更多相关《计算语言学厦大应用语言学.ppt(41页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、计算语言学一、计算语言学的定义:是利用计算计研究和处理自然语言的学科。n狭义:指的是通过建立形式化的计算模型,用计算机分析、处理、理解并生成自然语言的学科。例:“有意见分歧”算一算怎么切分合理n是“有意 见 分歧”还是:“有 意见 分歧”?n广义:包括狭义的内容;还包括利用计算机对语言文字进行的各种定量化和精密化的研究。n例1:中国红楼梦的作者:前八十回和后四十回是不是一个人。n例2:方言亲属关系的计量:二、计算语言学的发展:n计算语言学的研究首先是从机器翻译开始的。n1、圣经创世纪中“巴比塔”的传说。n2、17世纪中叶展开的“普遍语言”的运动,旨在运用逻辑原则和图形符号的基础上,创造出一种无
2、歧义的语言。n3、20世纪30年代,法国工程师提出了用机器进行语言翻译的想法,并在1933年7月获得了一项“翻译机”的专利,叫做“机械脑”。n4、1946年,美国研制出第一台电子计算机,人们开始用计算机进行翻译的尝试,当时采用的是词对词的策略,所以翻译效果不理想。如:nI dont know the boy who is waiting outside.n5、在1960年代初期,计算语言学曾因做机器翻译的应用研究,受到各国政府的大力支持而风光一时,然而一直没有满意的成绩。于是美国政府委托国家科学院评估机器翻译的计划。1966年该评估报告指出:当时的研究是没有希望做好机器翻译的。n6、人们在失败
3、中得到启发,认为要搞好自动翻译,必须在语言理论和计算机科学两方面下足功夫,其中尤其语言处理理论的研究,人们认识到,如果计算机无法理解自然语言,机器翻译等只能是空中楼阁。n7、计算语言学的进一步发展n音字转换:语音识别n自动文摘:自动给出一篇或多篇文章的摘要n信息检索:在海量的信息准确找到你所需要的信息n信息过滤:从信息流中筛选出特定的的信息(信息安全、突发事件)三、计算语言学的学科分类:就理论研究来看,计算机语言学还可以分为计算语音学、计算词汇学、计算语法学、计算语义学、语料库语言学等不同的分支学科。n(一)、计算语音学:研究如何用计算机对语音信息进行处理,实现语音的自动识别和合成。n语音识别
4、:机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。n语音合成:将可视的文本信息转化为可听的语音信息。n一般来说,完整的语音识别要经历三个步骤:n(1)、语音特征提取:目的是从语音波形中提取随时间变化的语音特征序列。n(2)、声学模型与模式匹配(识别算法):声学模型通常将获取的语音特征通过学习算法产生。在识别时将输入的语音特征同声学模型(模式)进行匹配与比较,得到最佳的识别结果。n(3)、计算机对识别结果进行语法、语义分析。明白语言的意义以便作出相应的反应。通常是通过语言模型来实现。清华大学电子工程系,非特定人汉语连续语音识别系统的识别精度,达到948,接近实用水平语音识别特定人
5、非特定人大词汇量小词汇量孤立发音连续发音中小词汇量非特定人语音识别系统识别精度已经大于98满足通常应用的要求一些用户交换机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息,并且取得很好的结果。全球语音识别电话软件年销售收入达上亿美元。5000词邮包校核非特定人连续语音识别系统的识别率达到9873。n(二)、计算词汇学:研究如何用计算机处理自然语言的词汇。他笑了 桌子笑了 桌子搬走了。n(三)计算语法学:研究如何用计算机来分析自然语言的语法。这种研究在计算语言学中叫做自动语法分析。n花开了花钱了(四)
6、语料库语言学:语料库(corpus)亦称语库或素材,是收集并科学地组织起来的一套语言材料,这种材料是某种语言中自然出现的,可以是书面的,也可以是口头的。语料库语言学(corpus linguistics)是以语料库中的语篇(text)语料为基础对语言进行研究的一门学科。四、汉字的信息处理(一)、汉字与信息处理笔、墨、纸、砚笔、墨、纸、砚甲、骨、金、木甲、骨、金、木 泥、木印刷术;铅、打字机泥、木印刷术;铅、打字机磁、光、电子计算机磁、光、电子计算机汉 字面面 向人阅读笔画书写向人阅读笔画书写人机互动、编码输入、人机互动、编码输入、自动识别自动识别约公元1915年汉字机约公元1050年机械性质的
7、整字书写机械性质的整字书写(二)、汉字输入汉字输入汉字键盘输入汉字识别(OCR)语音识别印刷体:单体、多体联机手写脱机手写1、汉字键盘输入汉字形码输入汉字音码输入音形码|形音码输入汉字键盘输入王码五笔字型郑码 T9笔画输入法全拼,双拼,智能ABC,微软拼音,紫光拼音,智能狂拼 极点五笔五码智拼输入法大众形音输入法母字全能码字词、词组句子;普通话地方拼音输入(广东拼音)编码的优缺点(1)形码的优点形码的优点按字型编码,重码率低,最多四码(不超过1万字,理论上讲可以做到一码一字),适合专业录入员录入写好的文本;无需顾及读音,对讲不好普通话的人适用;不认识的汉字照“样”可以输入。形码的缺点形码的缺点
8、 要记忆的东西较多,难学难记;对字形不同人之间都会有不同的认识,易拆错。不同人之间都会有不同的认识,易拆错。编码的优缺点(2)音码的优点音码的优点与人的语音思维一致,边进行文章的构思边用音码输入音码的码键就在英文键盘上,不需要改造键盘。1958年以后出生的人,大多数学过汉语拼音,无需专门学音码。音码的缺点音码的缺点汉字同音字太多,重码率高,输入速度受限;不认识的汉字无法输入,甚至读不准也一样输入不了;比如:ji有109个同音字:几及急既即机鸡积记级极计挤己季寄纪系基激吉脊际汲肌嫉姬绩缉饥迹棘蓟技冀辑伎祭剂悸济籍寂期其奇忌齐妓继集给革击圾箕讥畸稽疾墼洎鲚屐齑戟鲫嵇矶稷戢虮诘笈暨笄剞叽蒺跻嵴掎跽霁
9、唧畿荠瘠玑羁丌偈芨佶赍楫髻咭蕺觊麂骥殛岌亟犄乩芰哜2、汉字识别 电脑的汉字识别功能,是指用计算机对印刷在纸上和手写在纸上汉字的自动辨识,它是中文信息处理中的一项重要功能。n一个实用的汉字识别系统由扫描器,计算机主机,显示器,识别软件和字库等部分组成。n工作过程:文稿,书刊等通过扫描器输入计算机,提取识别特征后与字库进行比较,并把识别结果显示出来。n大陆和台湾地区的汉字识别研究都已经巧妙地解决了单字印刷体汉字识别,多体印刷体汉字识别和特定手写汉字识别。打印稿识别的准确率一般可达95%。印刷汉字识别技术主要包括:n(1)扫描扫描输入文本图象。n(2)图象的预处理预处理,包括倾斜校正和滤除干扰噪声等
10、。n(3)图象版面分析和理解图象版面分析和理解。区分出文本段落及排版顺序,图象、表格的区域;对于文本区域将进行识别处理,对于表格区域进行专用的表格分析及识别处理,对于图象区域进行压缩或简单存储。n(4)行字切分:行字切分:图象的行切分和字切分。n(5)特征提取特征提取:提取单字图象统计特征或结构特征。n(6)文字识别:文字识别:基于单字图象特征的模式分类。将被分类的模式赋予识别结果。n(7)后处理:后处理:识别结果的编辑修改后处理。利用词义、词频、语法规则或语料库等语言先验知识对识别结果进行校正的过程。n其中(4)、(5)和(6),是印刷汉字识别中最为核心的技术。五、词语的信息处理n(一)、自
11、动分词的必要n自动分词:让计算机把以字为单位的书面语流串变为以词为单位的形式就叫做自动分词。n英语等西方语言的书面形式以空格作为词与词之间分隔标志,而汉语的书面形式却是连续的汉字串。n自动分词是汉语自动分析中的一项基础性工作。中文信息处理的各个领域,无论是在词频统计、情报检索、人机对话、机器翻译等方面,都是在词的基础上进行的。分词不当的例子:n在Google上输入“和服”搜索所有中文简体网页,总共结果507,000条,前20条结果中有14条与和服一点关系都没有。在第一页就有以下错误:n “通信信息报:瑞星以技术和服务开拓网络安全市场”n “使用纯HTML的通用数据管理和服务-开发者-ZDNet
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算 语言学 应用
限制150内