Python自然语言处理 课件 06-2-句法分析的数据集和评测方法.pptx

Python自然语言处理 课件 06-2-句法分析的数据集和评测方法.pptx

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

句法分析Python自然语言处理第六章

CONTENT目录01句法分析概述02句法分析的数据集与评测方法03句法分析的常用方法04使用StandfordParser的PCFG算法进行句法分析

课前回顾基本概念基本方法

02句法分析的数据集与评测方法句法分析的数据集句法分析的评测方法

句法分析的数据集统计句法分析方法自20世纪80年代提出以来,受到了众多学者的关注。由于这种方法既有规则方法的特点,又运用了概率信息,因此,可以认为是规则方法与统计方法的紧密结合。统计句法分析方法一般都离不开语料数据集和相应的评价体系的支撑。

句法分析的数据集相较于分词或词性标注,句法分析的数据集要复杂的多,其是一种树形的标注结构,因此也称为树库,如图是一个典型的语料标注。

句法分析的数据集根据所描述句子结构的不同,树库大体上可以分为两类:短语结构树库一般采用句子的结构成分描述句子的结构,短语结构树库顾名思义,可以同来提取短语,其目的是分析句子的产生过程。依存结构树库根据句子的依存结构而建立,依存结构描述的是句子中词与词之间直接的句法关系,相应的树结构也称为依存树。

句法分析的数据集目前使用最多的英文树库来自美国宾夕法尼亚大学加工的英文宾州树库(PTB)。PTB的前身为ATIS(AirTravelInformationSystem)和WSJ(WallStreetJourna)树库,具有较高的一致性和标注准确率。

句法分析的数据集近几年来,中文信息处理技术发展很快,进行中文树库句法自动标注研究的条件已基本成熟了,经过发展相继有了中文宾州树库(CTB)、清华树库(TCT)、台湾中研院树库等。中文信息处理技术发展快的原因如下:经过十几年的研究,汉语自动切分和词性标注的处理技术已达到成熟,为进一步进行句法分析研究打下了基础。近几年来对汉语句法分析方法、依存关系标注、基本句型分析等方面的探索,为进行比较系统全面的短语分析积累了丰富的经验。

句法分析的数据集中文宾州树库(CTB)、清华树库(TCT)、台湾中研院树库等是比较著名的中文树库。中文宾州树库:是宾夕法尼亚大学标注的汉语句法树库,也是目前绝大多数的中文句法分析研究的基准语料库。清华树库:经过自动句法分析和人工校对,形成的高质量的有完整句法结构的中文句法语料库。台湾中研院树库:中国台湾中研院词库小组从中研院平衡语料库中抽取句子,经过电脑自动分析成句法树,并加以人工修改、检验后所得的成果。

句法分析的数据集汉语树库的构建汉语树库构建的基础性工作是确定合适的句法标记集,不同的树库有着不同的标记体系。

句法分析的数据集

02句法分析的数据集与评测方法句法分析的数据集句法分析的评测方法

句法分析的评测方法句法分析评测的主要任务:评测句法分析器生成的树结构与手工标注的树结构之间的相似程度。其主要考虑两方面的性能:满意度:句法分析器是否适合或胜任某个特定的自然语言处理任务;效率:主要用于对比句法分析器的运行时间。目前主流的句法分析评测方法是PARSEVAL评测体系,它是一种粒度比较适中、较为理想的评价方法,评价主要指标有标记准确率、标记召回率、交叉括号数。

句法分析的评测方法--PARSEVAL评测体系标记准确率(labeledprecision,LP)表示分析正确的短语个数在句法分析结果中所占的比例,即分析结果中与标准句法树中相匹配的短语个数占分析结果中所有短语个数的比例。

标记召回率标记召回率表示分析得到的正确短语个数占标准分析树全部短语个数的比例。句法分析的评测方法--PARSEVAL评测体系

交叉括号交叉括号表示分析得到的某一个短语的覆盖范围与标准句法分析结果的某个短语的覆盖范围存在重叠又不存在包含关系,即构成了一个交叉括号,交叉括号数(CBs)表示一棵短语结构树中所包含的与标准分析树中边界相交叉的短语个数。句法分析的评测方法--PARSEVAL评测体系

本章小结句法分析的数据集和评测方法句法分析的数据集;句法分析的评测方法

谢谢观看

您可能关注的文档

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档