您现在的位置:核心技术 > 中文信息处理

1. 中文分词与词性标注技术

中文不同于英语,词语之间没有天然的分割,计算机无法自动处理中文分词及词性标注是对中文信息处理的核心。分词就是将连续的字符按照一定的规范组合成词序列的过程;词性标注就是用特定的符号标示词的词性过程。

现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于统计的分词方法以及基于理解的分词方法。

我们的分词采用的是基于统计的方法,该方法速度快,准确率高达99%,新词识别能力强,同时集成了很多规则可以进行命名实体的识别与抽取;同时采用基于隐马尔科夫模型的中文词语的词性标注算法进行词性标注。

2. 相似度计算技术

(1)句子相似度计算

在计算句子或短文本的相似度是综合考虑了词形(词汇按照词性加权)、句子长度、词序以及相同关键词在句子间的距离等因素综合考虑,,然后加权计算,权重系数采用最优化原理获得。句子相似度计算技术是短文本分析处理的基础。

(2)文档相似度计算

基于向量空间模型的向量余弦来计算文档的相似度,除此之外还充分考虑了文档长度、语义约束之间的关系。

3. 文本分类

(1) 类别特征提取算法

在进行类别特征提取时,我们测试了多种方法如:TFIDF方法、信息增益法、互信息方法、期望交叉熵法、Chi-2统计量方法、文本证据权、优势率等方法,通过比较发现Chi-2统计量方法得到的特征效果最好。

(2) 分类算法的选择

在分类器构造方面,我们构造了基于距离测度函数分类算法、朴素贝叶斯分类算法、KNN分类算法、支持向量机分类算法等分类器,可以根据实际情况择优选用。

(3) 类别距离的计算

在类别距离的计算上,我们采用欧式距离来测量,辅助以语义计算的方式来实现。

(4) 性能指标

分类准确率在92%以上。

4. /小文本分类

/小文本由于内容少,特征稀疏,应用经典文本分类算法得到的效果都很差,准确率和召回率都很差。为此,我们提出了语义范式的概念,采用语义范式进行短/小文本的分类。

(1) 类别特征提取算法选择

通过对几种常用的类别特征提取方法的比较发现Chi-2统计量方法得到的特征效果最好。

(2) 语义范式的自动生成

在类别特征提取后,将类别特征反馈到文本中去,根据约束关系得到语义范式用来进行小文本的分类。

(3) 基于范式的小文本分类

在上面的基础上,应用各类的语义范式对小文本文档进行分类,结果表明分类的准确率基本可以达到95%以上。

(4) 将基于距离的分类方法应用到小文本分类中实现二次分类

对用范式无法分出类别的文档进行二次分类。

5. 文本聚类

(1) 数据预处理技术

数据预处理包括格式转换,把非文本格式转换为文本格式,中文分词,词性标注,以及去除停用词、停用词性等处理操作。

(2) 基于KNN的文本聚类实现技术

本项目在实施过程中测试了多种文本聚类算法,比如:层次聚类算法、分割聚类算法、基于密度的聚类算法、KNN聚类算法,经实验结果验证,KNN聚类算法取得的结果最优。

(3)特征计算与选择

通过对文档分词、统计等预处理操作,采取TFIDF方法计算词的权重,对特征进行选择。

(4) 文档相似度计算方法

(5) 聚类过程中聚类中心自动调整方法实现KNN聚类算法

6. 文本摘要

从一篇文档中抽取其摘要,或从一类文档中抽取其中心思想。

(1) 基于启发式规则的文档摘要提取技术

此方法将文档内容与一些启发式信息如指示性短语语句长度首句、尾句相结合,进行句子权重的计算,最后按照句子的权重排序,然后提取权重最大的一些句子按照其在原文中的顺序依次输出,即为文章的摘要。

(2) 基于统计的文档摘要提取技术

由于在大规模的文档中,词的权重在计算句子的权重时起着非常重要的作用,而且往往起着决定性的作用,我们在实现时采用TFIDF方法计算词的权重。

(3) 单文档摘要与多文档摘要提取技术

(4) 句子相似度计算技术

于多文档摘要,要通过句子相似度的计算来去除摘要中相似的句子,而句子的相似度由词形、词序、关键词之间的距离以及句子长度等因素来决定。