当前位置:首页 > 申请书大全 > 术语特征 [法律术语特征研究]
 

术语特征 [法律术语特征研究]

发布时间:2019-02-16 04:16:42 影响了:

  摘要:阐述了以三种方式快速获取候选法律术语集,并对该候选法律术语集进行人工术语标注来构造法律术语库的过程。再通过研究法律术语库,最终获得了法律术语的长度和一系列构词法特征。
  关键词:法律术语,术语长度,术语词法特征
  中图分类号:N04;D9 文献标识码:A 文章编号:1673―8578(2011)04―0022―05
  
  前言
  
  术语抽取研究不是脱离语言而独立进行的,在法律术语抽取研究中需要语言学知识,可以借助构造法律术语知识库来辅助术语抽取。通过快速建立法律术语库来挖掘法律术语的长度和一系列法律术语结构词法特征。
  该研究的语料来源于香港双语法律信息系统(Bilingual Legal Information System,BLIS),选择其中50 500个文件作为实验语料。
  
  一 快速构造法律术语库
  
  研究中以三种方式获取候选法律术语集,通过对候选法律术语集进行标注来构造法律术语库,共获得8828个法律术语。
  1.法律术语标注标准
  法律术语标注的主要标准是判断词或词组是否具有明确的科学概念,如果概念不清楚,则不作为术语。
  法律术语标注过程的判断依据有:
  (1)以法律术语部件作为过滤,比如:条、法、讼、例、约、罪、押、案、律、判、罚、诉、刑、审、证。
  (2)过滤最不可能的词尾,比如:的、在等等(虽然也存在特例,但是大部分不能作为术语的词尾)。
  (3)参照“百度知道”的解释及其与法律领域的相关性。
  2.候选法律术语集
  (1)通过标注《汉英法律词汇》的词条来获取法律术语
  本研究选择BLIS提供的《汉英法律词汇》作为研究对象,该书由香港律政司法律草拟科于1999年12月出版,当中收载约11500个词条,主要取材于1998年9月出版的《英汉法律词汇》(第三版)。
  经过再次整理,共获得8129个词条,在不考虑词性和不同含义的情况下,去掉重复项后得到7201个词形。
  通过对该7201条法律词汇进行法律术语标注后,共获得4800个法律术语。
  (2)通过提取和标注法律条文的标题来获取法律术语
  项目组对五万多个文件进行标题抽取后,共获得2151个标题,再经过标注后有2083个为法律术语。
  (3)通过提取和标注词/词组单元来获取法律术语
  为了快速建立法律术语库,节省在语料中抽取符合条件的词/词组的时间,项目组限定提取目标为加书名号和双引号的字符串。通过该步骤,得到如下结果:加书名号的字符串共2952个,其中筛选出法律术语2803个;加双引号的字符串共12 949个,其中筛选出法律术语1821个。
  
  二 法律术语的长度信息
  
  现有的统计显示,科技领域的术语70%以上主要是由2~6个字组成。法律领域术语又是什么情况呢,项目组将通过以下步骤分析给出。
  首先,对加有标号的术语词条进行如下处理:如果标号括住整个词条,则去掉标号;如果标号只括住部分词条,则保留标号。举例如表l所示:
  1.字长
  字长信息统计如图1所示:
  统计发现法律术语字长范围在1―53个之间,其中大部分法律术语字长范围集中在2~20个之间,并且2~20字长度的法律术语都出现超过100次,总数占整个法律术语库的95.6%。其中4字长的法律术语数量最多,为1843个,占整个法律术语库的21%。此外,5字术语和6字术语也较多,4字术语、5字术语和6字术语三者共占整个法律术语库的41.9%。该结论与周浪和邢红兵关于科技术语字长信息的结论很类似,共同点是4字术语数量最多,不同点是法律术语在字长的分布上不只是集中在2~6字之间,还扩展到2―20字之间,这是由法律术语的特殊性所决定的。
  2.词长
  项目组使用了汉语分词系统(Institute of Com―puting Technology,Chinese Lexical Analysis System,ICTCLAS)对法律术语库进行分词后,获得的词长信息如图2所示:
  统计发现法律术语词长分布在1~28个之间,其中单词型术语所占比例为5.5%。由2~4个单词组成的术语最多,共占整个法律术语库的55.3%。由1~12个单词组成的术语占整个法律术语库的96.2%。该结论与张蓉_8 J、李芸_9 J、周浪分析的科技领域术语词长信息统计结果很接近,共同点是由2~4个单词组成的术语最多,不同点是法律术语的词长分布较宽,分布在1―12个词之间,而科技术语一般词长分布在2~6个词之间。对于法律术语库中术语词长分布的举例见表2。
  法律术语字长和词长的这些分析结果与科技领域术语各项已有的研究成果相近。
  总结如下:
  (1)法律术语也是以词组型术语为主;
  (2)2―4个单词组成的法律术语数目最多;
  (3)由于法律术语在标点符号使用上的频繁等特点导致法律术语的单词构成宽度较大,一般为2~10个单词。
  
  三 法律术语结构的词法规则
  
  根据上面总结出的法律术语词长分布特征,我们把法律术语分为三类:(1)单词型法律术语;(2)词长为2~4的词组型法律术语;(3)词长大于4的词组型法律术语。如图3所示:
  传统的术语研究将名词短语视为术语的唯一候选,虽然这种限制保证了一定的正确率,但是牺牲了召回率。笔者通过对法律术语库进行分析标注后发现,法律术语也可以是其他类型的词/词组,应该以较宽松的语法规则从语料库中抽取术语候选项。
  1.单词型法律术语的词性分布特征
  从表3的分布特征来看,单词型法律术语的主要词性是动词和名词,其他词性所占比率较少。这一结果与科技领域单词型术语有差异,科技领域术语主要是以名词性术语为主。
  2.2―4词法律术语的词法模式
  (1)2词术语的词法模式
  法律术语库中有1995条2词法律术语,共有105种词法模式,其中出现20次以上的模式有16种,这16种词法模式共涵盖了1753条2词术语,总体覆盖率是87.9%,其中前5种词法模式如表4。
  (2)3词术语的词法模式
  法律术语库中有1791条3词法律术语,共有363种词法模式,其中出现20次以上的模式有18种,这18种词法模式共涵盖了914条3词术语,总体覆盖率是51%,其中出现次数超过100次的4种词法模式如表5。
  (3)4词术语的词法模式
  法律术语库中有1097条4词法律术语,共有565种词法模式,其中出现20次以上的模式有5种,这5种词法模式共涵盖了116条4词术语,总体覆盖率是10.6%,其中出现次数超过20的5种词法模式如表6。
  (4)4词以上法律术语的词法模式
  法律术语库中有3458条4词以上法律术语,共有2694种词法模式,其中出现20次以上的模式有4种,这4种词法模式共涵盖了134条4词以上术语,总体覆盖率是3.9%,其中出现次数超过20的4种词法模式如表7。
  从法律术语词法特征的分析结果来看,词法种类越来越多,单词型和词数较少的法律术语词法特征还有典型性,词数较多的法律术语词法特征太过分散,法律术语库规模和收集手段的片面性导致不可能涵盖所有单词/词组型法律术语的词法特征,但是这些特征都与科技领域术语的词法特征相近。
  根据以上统计数据总结出词组型法律术语如下特点:
  特点一:词组型法律术语候选项中至少有一个词属于“n”“v”或“a”;
  特点二:63%的词组型法律术语都包含法律术语部件,该法律术语部件是前面项目组标注法律术语候选库时使用的部件,只是简单的单字部件,如果项目组完善法律术语部件,词组型法律术语包含法律部件的百分率会更高;
  特点三:2~4词构成的词组型法律术语的词法模式可以应用于词组型法律术语自动抽取研究中,但是4词以上的词法模式还有待总结和分析。
  
  
  
  

猜你想看
相关文章

Copyright © 2008 - 2022 版权所有 职场范文网

工业和信息化部 备案号:沪ICP备18009755号-3