文本特征和复合统计量的领域术语抽取方法
董洋溢, 李伟华, 于会     
西北工业大学 计算机学院, 陕西 西安 710072
摘要: 中文领域术语的抽取,是文本知识挖掘的重要内容。传统的中文领域术语抽取方法以人工方法为主,显然这种方法费时费力。目前,处于研究阶段的中文领域术语自动化抽取方法主要有:基于字典的方法、基于规则的方法以及基于统计的方法。但由于中文自然语言的复杂性,这些自动化抽取方法都存在一定的局限性,比如对特定领域的用户字典及规则存在更新速度慢、文本特征考虑不足等,从而导致抽取的效果不佳。针对这一问题,提出了一种基于文本特征和复合统计量的中文领域术语抽取方法,该方法在对中文文档中的词语进行粗粒度筛选后,再综合考虑候选术语的词性、长度、边界词语等文本特征,构造出信息熵和TFIDF等统计量,计算其综合权值,并将综合权值大于设定阈值的候选术语抽取出来,作为最终的领域术语。实验结果表明,该方法在测试语料下,获得了较好的正确率、召回率和F值。
关键词: 中文领域术语     文本挖掘     自然语言处理     文本特征    

众所周知, 大部分中文领域知识都以自然语言文档的形式加以保存, 但这种非结构化的知识形式对于计算机及其应用系统来讲, 理解却是比较困难的。通过对文本的知识发现和挖掘, 将非结构化的中文文本转化为一种计算机能够理解和统一管理的数据形式, 就成为了一个重要的研究课题。而其中最为关键的一步, 是如何进行领域术语的抽取。领域术语是描述特定领域知识的词语或短语, 也是表示领域定义、观点、范畴及特有含义的实体或词汇集合。传统的领域术语人工抽取方法费时费力, 目前处于研究阶段的自动化抽取方法主要有:基于字典的方法、基于规则的方法以及基于统计的方法[1]。由于中文自然语言的丰富性所导致的自动化处理时的复杂性, 使得这3种方法在进行中文领域术语抽取时, 都存在一定程度的局限性, 比如基于字典的方法过于依赖领域词典, 但词典的更新速度慢, 因此效率低下; 基于规则的方法很难穷尽全部的中文句法语义规则, 导致查全率和正确率较低; 基于统计的方法对特定领域术语的文本特征及语义考虑不足, 比如TFIDF(term frequency-inverse document frequency, 词频-逆文件频率)方法[2]、C-Value/NC-value函数方法[3]及Pantel[4]提出的互信息和对数似然比方法等, 这类方法虽然提高了术语抽取的自动化处理效率, 但对于特定中文领域术语抽取的正确率及召回率也有待提高。

为此, 本文提出了一种基于文本特征和复合统计量的抽取方法(text character and statistic, TCS方法)。该方法的特点是沿字典、规则与统计量相结合的思路, 首先根据术语所在的领域引入专业用户词典, 制定模板规则进行粗粒度的候选术语过滤, 最后再使用文本特征和复合统计量(TFIDF及信息熵)计算综合权值, 进行细粒度的领域术语筛选, 进而抽取出权值大于给定阈值的候选术语作为最终的领域术语。

1 术语的文本特征权值 1.1 相关定义

定义1  设Di为测试语料文档集中的第i个文档, D为全体文档集。

定义2  设Wi为文档Di进行分词后得到的词语集, Wi={wij|j=1, 2, …, m}, m为文档Di的词语个数[5], |wij|表示词语wij的长度。

定义3  设CWij为词语wij在文档Di中出现的次数, CWi为文档Di包含的总词语数。

1.2 术语的总体分布特征及权值

领域术语是指在一个或若干个特定的学科领域中使用, 且表示该特定学科领域内概念或关系的词语或短语[6]。领域术语集中体现和承载了特定学科领域的核心知识, 表征了一个领域所涵盖的主要内容。因此, 不同类型的领域术语, 除了具有共同特点以外, 也具有各自的不同特征。

通过对测试语料领域文档集D的分析, 可以发现, 领域术语wijD中的总体分布具有以下特征:

1) 领域术语wij在该领域内文档中的分布具有均匀性。即候选术语wij一般只在同一类领域文档集{Di, Di+1, …, Dj}中使用, 具有特定的使用领域, 而且在这些领域中的总体分布特征呈现出均匀性。这恰好说明领域术语具有较好的领域归属度。

2) 领域术语wij在领域外文档中的分布具有参差性。通过对语料库文档集D的人工分析, 同样也可发现, wij在其所属领域中的分布总体趋于均匀, 而在其他领域文档集中, 却较少出现, 即在不同类型的领域文献中的分布呈现明显的差异性, 表现为参差不齐。这种特点也印证了领域术语的领域相关度, 反映出领域术语在与其无关的领域中分布的无规律性。

3) 通用词语在所有类型领域文档中分布的均匀性。词语集合Wi中包含的通用词语, 在所有领域中都可以使用, 所以其在全部文档集D中的分布, 几乎全部呈现均匀分布。

1.3 术语的语言特征及权值

对测试语料文档集D进行人工分析可以发现, 领域术语wij的语言特征主要有以下几种:

1) 词性特征POS(wij)。通过对选取的测试语料文档集D进行分析后发现, 89%以上的领域术语wij为名词或名词性短语。在进行术语抽取时, 可以首先根据词性进行粗粒度的过滤, 即将动词、形容词、虚词、助词及语气词等干扰词去掉, 仅保留名词性的词语或短语。术语wij的词性特征权值POS(wij)的设定, 如表 1所示。

表 1 词性特征权值POS(wij)分配表
序号wij词性权值
1名词1
2名词+名词+…1
3形容词+名词0.8
4名词单字+名词单字0.5
5动词、助词等其他词性0

2) 长度特征LEN(wij)。文献[7]指出, 中文领域术语的长度为2~6个字的占大多数, 约为76.9%。文献[8-9]在对包含328 150条术语的术语数据库分析后, 结果也表明, 领域术语的长度一般以2、3、4居多, 占总数的71.723%, 大部分术语的长度在1~6之间, 大于6的仅有0.572%。这个统计结果和本文对测试语料文档集D的人工分析基本相符。

因此, 本文在对文档Di进行自动化抽取候选术语时, 根据词语wij的长度为其指定了不同的权值, 以体现其长度特征LEN(wij)的重要性, 如表 2所示。

表 2 长度特征权值LEN(wij)分配表
序号wij长度权值
110.8
22~61
36~100.7
4>10或<10

3) 边界搭配词语特征BRD(wij)。根据对词语集合Wi={wij|j=1, 2, …, m}的分析发现, 在进行分词处理时, 可能会存在误差, 将原本具有特定含义的一个领域术语进行了错误的切分, 导致分词后的wij前后割裂, 含义不完整或者不准确。这时, 只要根据wij在句子中所处的位置, 判定其前后邻接的词语变化情况, 即可判定wij是否完整。将wij在句子中左边邻接的词语称为左词语wlij; 将其右边邻接的词语称为右词语wrij

对于领域术语wij的某个左词语(或右词语)如果出现概率很高, 说明wij应该和左词语(或右词语)进行合并, 生成一个新的术语。反之, 如果其某一个左词语(或右词语)的出现概率较低, 则说明了wij的完整度较高, 也说明wij成为一个领域术语的概率越大。wij的边界搭配词语特征权值BRD(wij)的设定, 见表 3

表 3 边界搭配词语特征权值BRD(wij)分配表
序号wijwlij
同时出现概率
wijwrij
同时出现概率
权值
1>0.8>0.80
20.5~0.80.5~0.80.5
30.3~0.50.3~0.50.8
4<0.3<0.31
2 统计量的设定 2.1 TFIDF统计量

TFIDF[10]表示特征项(领域术语wij)频率及反文档频率。其中, TF是指领域术语wij在文档中出现的次数; IDF是指领域术语wij在全体文档集中分布情况的量化。TFIDF的主要思想是:如果某个词语或短语, 在某一个领域文档集中出现的频率TF高, 并且在领域外文档集中很少出现, 则认为此词语或者短语具有很好的领域区分能力, 适合作为领域术语。领域术语wij的TFIDF统计量可以用下式进行计算

(1)

式中, , 表示wij在文档Di中的出现次数, 即词频。分子CWij表示wij在文档Di中出现的次数, 分母CWi则表示文档Di中所包含的总词语数; IDF(, 表示反文档频率, 分子|D|表示测试语料全体文档集D的数目, 分母|{i:wijDi}|表示所有包含候选术语wij的文档数目, 再将得到的商取对数得到IDF(wij)。

通过对领域术语总体分布特征的分析可以发现, 术语wijTFIDF(wij)值可以较好地表示候选术语wij在文档集中的总体分布特性, TFIDF(wij)权值越大, 说明wij成为领域术语的概率越大。

2.2 信息熵统计量

信息论的创始人香农[11]将信息熵定义为离散随机事件出现的概率,即表示某种特定信息(词语)出现的概率, 表示的是不确定性的量度。一个词语的自信息熵表示了该词语的重要性, 其值越大, 则该词语越可能是一个领域术语。可将词语wij在领域内文档Di的自信息熵H(wij)定义为

(2)

式中, 为词语wij在文档Di中出现的频率; lb表示以2为底的对数, n表示文档的个数。

类似于公式(2), H′(wij)表示wij在领域外文档中的自信息熵, 可按下式计算

(3)

词语wij在文档集D中的总信息熵SH(wij)由下式定义

(4)

H(wij)的值代表词语wij在领域内文档集中的重要程度; H'(wij)的值代表词语wij在领域外文档集中的重要程度; SH(wij)的值代表词语wij在全体领域文档集(即全体测试语料集)中的重要程度。可以看出, 如果词语wij在领域内文档中的分布频率较高, 而在领域外文档中的分布频率较低, 则其SH(wij)值较高, 因此SH(wij)的值可较好地衡量词语wij的领域权值。

3 文本特征和复合统计量的术语抽取模型 3.1 术语抽取模型

文本特征和复合统计量权值的术语自动抽取模型如图 1所示。

图 1 领域术语抽取模型

该模型的主要处理过程如下:

1) 文档预处理(分词及词性标注)。对测试语料文档Di逐个进行预处理。首先导入预先定义的领域用户字典, 以“军事”领域为例, 用户字典包括科学技术叙词表、科技名词大典、武器领域词汇表等; 然后使用中科院ICTCLAS工具进行分词及词性标注。分词时将专有名词或名词短语当作一个词语, 进行分词处理; 其余词语按照ICTCLAS的默认规则, 进行通用的分词处理。

2) 抽取候选术语。分词及词性标注完成后, 得到全部的词语列表。使用制定的语义模板规则(详见3.2), 从词语列表中进行粗粒度过滤, 去掉干扰词语, 得到候选术语集;

3) 获取最终领域术语集。计算候选术语集中所有词语的文本特征和复合统计量的综合权值(详见3.3), 按照给定的阈值, 过滤掉小于给定阈值的候选术语, 选取权值大于阈值的候选术语成为最终的领域术语。

3.2 模板规则

根据预处理分词后的词语集合W的词性标注, 对测试语料文档集的中文文本特征进行分析及参考周浪等[12]的研究, 制定出专门的粗粒度过滤语义模板规则, 用于去除干扰词及后续候选领域术语的自动抽取。

粗粒度过滤语义模板规则如下:

1) Rule1需要过滤掉的干扰词包括语气词、虚词、连词、量词、助词、标点符号及状态词;

2) Rule2候选术语的词性可以是名词、名词+名词+…+名词, 即候选术语可能是名词或名词短语;

3) Rule3候选术语也可以是“名词|形容词+名词”的形式;

4) Rule4名词词性的连续单个字进行相邻合并。

3.3 文本特征和复合统计量权重计算

对候选领域术语计算综合权值WT(wij), 即计算候选术语的文本特征和复合统计量综合权值, 根据所设定的阈值确定最终的领域术语。候选领域术语wij的综合权值WT(wij)主要包括:文本特征权值和复合统计量权值2项。其中, 文本特征权值包括:词性权值POS(wij)、长度特征权值LEN(wij)及边界词语特征权值BRD(wij); 复合统计量权值包括TFIDF(wij)和总信息熵SH(wij)。用下式计算WT(wij)

(5)

式中, αβγλρ∈[0,1], 均为相关系数, 且α+β+γ+λ+ρ=1, 可在实验中进行调节。

通过公式(5) 可以看出, 术语的综合权值WT(wij)越大, 则候选术语wij成为领域术语的概率越大。

3.4 术语自动抽取模型算法

通过算法1来进行领域术语的自动抽取工作。

算法1自动抽取算法

输入:文档集合D

Step1  i=1, 读入文档Di;

Step2  对Di进行分词, 使用3.2的模板规则去干扰词, 得到候选术语集Wi;

Step3  使用公式(5) 逐个计算全部候选术语wij′的综合权值WT(wij′), 选出WT(wij′)>阈值的wij′并入领域术语集合Wi;

Step4  i++, 转向Step1, 直到i=n

输出:领域术语集合W={Wi|i=1, 2, …, n}

4 实验数据及分析 4.1 实验数据

本次实验主要是针对“军事”领域的术语进行自动化抽取。为了提高领域术语抽取的准确度, 在实验时共选取了农业、金融、卫生、法律及军事等5种大类文档集各100篇, 作为原始语料文档集D进行对比测试。原始语料集中的测试数据基本情况如表 4所示。

表 4 原始语料数据基本情况分布
领域文档总数总词语数候选词语数术语数
农业10037 8455 332653
金融10047 8565 621408
卫生10036 8914 210396
法律10042 6723 964352
军事10038 9454 018367

在进行“军事”领域术语抽取测试时, 部分候选术语的文本特征权值及统计量权值WT(wij)的设置情况如表 5表 6所示。在设置完WT(wij)的各项权值后, 将相关系数αβγλρ的值分别设置为0.1、0.1、0.1、0.4及0.3, 如表 7的第2列到第6列所示。随后根据公式(5) 计算每个候选领域术语的综合权值WT(wij)。

表 5 部分军事领域术语的文本特征权值
术语POS(wij)LEN(wij)BRD(wij)
武器装备110.8
弹道导弹110.8
加油机111
轰炸机111
直升飞机110.8
表 6 部分军事领域术语的统计量权值
术语TFIDF(wij)SH(wij)
武器装备0.60.4
弹道导弹0.70.5
加油机0.60.5
轰炸机0.40.5
直升飞机0.50.5

表 7的最后一列给出了部分军事领域术语在测试文档集D中计算出的综合权值。若设置阈值为0.6, 则表 7WT(wij)值>0.6的候选术语都将被筛选出来确定为最终的领域术语。

表 7 部分军事领域术语的综合权值
术语αβγλρWT(wij)
武器装备0.10.10.10.40.30.7
弹道导弹0.10.10.10.40.30.68
加油机0.10.10.10.40.30.57
轰炸机0.10.10.10.40.30.72
直升飞机0.10.10.10.40.30.56
4.2 实验结果分析

当综合权值WT(wij)的阈值设置为0.6时, 测试文档集中抽取出来的军事领域术语数为324个; 当阈值设置为0.5时, 则抽取出来的领域术语为367个, 如表 4所示。

正确率(precision, P)、召回率(recall, R)及F值是用于评价领域术语抽取质量的3个重要度量值。其中, P可用公式(6) 进行计算, 衡量的是抽取结果的正确率; R可用公式(7) 计算, 衡量的是抽取结果的查全率; F可用公式(8) 进行计算, 即为PR的调和平均值, 用于综合反映整体抽取结果的质量。

(6)
(7)
(8)

PRF的取值均在0~1之间, 其数值越接近1, 则抽取的正确率或召回率就越高。

经过人工判定军事领域术语抽取的正确性, 图 2给出了当综合权值WT(wij)的阈值设为0.5及0.6时该方法的正确率P、召回率RF值的对比数据。可以看出, 当阈值从0.5变为0.6时, 正确率P从74%上升到78%, 召回率R则从81%下降到79%, F值略有上升。这说明阈值的设置对抽取结果有着重要的影响。通过对阈值的设定不断进行调整, 使得F值最高的阈值应该是最为合理的。在测试文档集中, 当阈值设为0.6时, F值最高, 即为78.4%。

图 2 阈值设为0.5和0.6时PRF值对比图
5 结论

针对中文自然语言的丰富性, 本文提出了一种基于文本特征和复合统计量权值的领域术语抽取方法。该方法首先使用用户字典和语义模板规则, 进行粗粒度过滤后, 抽取出候选术语。然后, 综合考虑候选术语的文本特征和复合统计量, 即对候选术语wij的词性权值POS(wij)、长度特征权值LEN(wij)、边界词语特征权值BRD(wij)、TFIDF(wij)值及总信息熵SH(wij)计算其综合权值WT(wij), WT(wij)大于设定阈值的即被选为最终的领域术语。实验结果表明, 该方法能有效地将用户字典、文本特征及统计规则相结合, 获得较好的正确率、召回率和F值。当然, 该方法的实验结果与测试语料、相关系数及阈值的设定有很大关系, 如何减少这些因素对该方法的影响, 将该方法推广到更大规模的领域术语抽取工作中, 是今后进一步研究和改善的方向。

参考文献
[1] 林源, 陈志泊, 孙俏. 计算机领域术语的自动获取与层次构建[J]. 计算机工程, 2011(2): 172-174.
Lin Yuan, Chen Zhibo, Sun Qiao. Automatic Extraction and Hierarchical Construction of Computer Domain Terms[J]. Computer Engineering, 2011(2): 172-174. (in Chinese)
[2] Maedche A, Staab S. Ontology Learning Handbook on Ontologies in Information System[M]. Heidelberg, Springer-Verlag, 2004: 173-190.
[3] Frantzi K, Ananiadou S, Tsujii J. The C-Value/NC-Value Method of Automatic Recognition for Multi-Word Terms[J]. Journal of Natural Language Processing, 1999, 6(3): 115-130.
[4] Pantel P, Lin D. A Statistical Corpus-Based Term Extractor[C]//Conference of the Canadian Society for Computational Studies of Intelligence, 2001:36-46
[5] 贺海涛, 郑山红, 李万龙, 等. 基于关联规则和语义规则的本体概念提取研究[J]. 吉林大学学报:信息科学版, 2014, 9(6): 657-663.
He Haitao, Zheng Shanhong, Li Wanlong, et al. Research on Ontology Concept Extraction Based on Association Rules and Semantic Rules[J]. Journal of Jilin University(Information Science Edition), 2014, 9(6): 657-663. (in Chinese)
[6] 向音, 李苏鸣. 领域术语特征分析——以军语为例[J]. 中国科技术语, 2012, 14(5): 5-9.
Xiang Yin, Li Suming. Characteristic Analysis of Domain Terms——Case Study of Military Terms[J]. Chinese Terminology, 2012, 14(5): 5-9. (in Chinese)
[7] 贾文娟, 何丰. 基于HowNet的中文本体学习方法研究[J]. 计算机技术与发展, 2011, 6(6): 77-84.
Jia Wenjuan, He Feng. Study on the Method for Chinese Ontology Learning Based on HowNet[J]. Computer Technology and Development, 2011, 6(6): 77-84. (in Chinese)
[8] 袁劲松, 张小明, 李舟军. 术语自动抽取方法研究综述[J]. 计算机科学, 2015, 42(8): 7-12.
Yuan Jinsong, Zhang Xiaoming, Li Zhoujun. Research on Automatic Term Extraction Method[J]. Computer Science, 2015, 42(8): 7-12. (in Chinese)
[9] 邢红兵. 信息领域汉英术语的特征及其在语料中的分布规律[J]. 术语标准化与信息技术, 2000(3): 17-21.
Xing Hongbing. The Characteristics of the Field of Information and Englishterims in the Corpus Distribution[J]. Technology Standardization and Information Technology, 2000(3): 17-21. (in Chinese)
[10] 张榕. 术语定义抽取、聚类与术语识别研究[D]. 北京: 北京语言大学, 2006
Zhang Rong. Study on the Clustering of Term Definition Extraction and Term Recognition[D]. Beijing, Beijing Language and Culture University, 2006 (in Chinese) http://cdmd.cnki.com.cn/Article/CDMD-10032-2006136817.htm
[11] 李丽双. 领域本体学习中术语及关系抽取方法的研究[D]. 大连: 大连理工大学, 2013
Li Lishuang. Study on Domain Ontology Terms and Relational Learning Methods[D]. Dalian, Dalian University of Technology, 2013 (in Chinese) http://cdmd.cnki.com.cn/Article/CDMD-10141-1013197353.htm
[12] 周浪, 张亮, 冯冲, 黄河燕. 基于词频分布变化统计的术语抽取方法[J]. 计算机科学, 2009, 36(5): 177-180.
Zhou Lang, Zhang Liang, Feng Chong, Huang Heyan. Term Extraction Method Based on Statistical Word Frequency Distribution Variety[J]. Computer Science, 2009, 36(5): 177-180. (in Chinese)
Domain Term Extraction Method Based on Hierarchical Combination Strategy for Chinese Web Documents
Dong Yangyi, Li Weihua, Yu Hui     
School of Computer Science, Northwestern Polytechnical University, Xi'an 710072, China
Abstract: Chinese domain term extraction is an important content of text knowledge mining. Chinese domain term extraction method with the traditional manual method, this method is time-consuming and laborious. It is currently in Chinese domain term extraction method of automation stage are: dictionary based method, rule-based method and statistical based method. Due to the complexity of Chinese natural language, the automatic extraction method has some limitations, such as the specific areas of the user dictionary and rule updating speed is slow, lack of consideration of text feature, which leads to the extraction performance is poor. To solve these problems, this paper presents Chinese domain term extraction methods that compound the text feature and statistics. After coarse grain screening of Chinese words in a document, the method considering the part of speech, word length, boundary text features of the candidate terms, construct information entropy and TFIDF statistics, calculate the comprehensive weight, and the weights are bigger than the set threshold extracted as the final domain terms. The experimental results show that the method gets the good correct rate, recall rate and F-measure under the test corpus.
Key words: Chinese domain term     text mining     natural language processing     text feature    
西北工业大学主办。
0

文章信息

董洋溢, 李伟华, 于会
Dong Yangyi, Li Weihua, Yu Hui
文本特征和复合统计量的领域术语抽取方法
Domain Term Extraction Method Based on Hierarchical Combination Strategy for Chinese Web Documents
西北工业大学学报, 2017, 35(4): 729-735.
Journal of Northwestern Polytechnical University, 2017, 35(4): 729-735.

文章历史

收稿日期: 2016-09-25

相关文章

工作空间