专注于本体数据开发,帮助客户快速实现智能化
" 本体论" (Ontology)的概念来源于哲学,研究客观事物存在的本质,是研究事务的本质和起源一种" 方法论" 。其思想引入到信息论中与" 人工智能" 和" 知识工程" 相结合,已经发展为研究智能机制和知识共享重要思想和方法。近几年来,由于信息的海量性和业务逻辑和问题的复杂性,导致各种信息系统的描述、扩展、维护、升级越来越困难。而本体论思想的引入,是对现有信息系统的设计理念的颠覆,将极大提升信息系统的业务支持能力、降低维护和升级代价,改善系统服务模式,可视化的交互将显著增加系统的便捷性和易用性。
一个本体对应一个实体,实体可以是现实世界中客观存在的物体,如有形实体" 人、部门、设备" 等;无形实体" 说明书、操作手册、合同" 等;实体还可以是可以用语言描述的概念、语句等抽象实体,如" 管理、供应、买卖、查询" 等。因此业务信息系统中的所有对象和操作都可以对应一个不同粒度上的实体。
网状数据库就是基于网状模型的而开发设计的数据库,是一种基于图模型的数据结构。图中的节点可以与任意其它节点关联,构成复杂的网状结构。网状数据库是对现有关系数据库的扩展,不仅能描述简答的" 线性关系" ,更适合描述现实中的复杂逻辑,是最接近模拟描述现实世界的工具。
本体数据库是本体论与网状数据库的结合,网状图中的节点对应一个实体,实体之间的关联通过抽象实体来联接,描述不同实体之间的关系。可以将企业、事业单位所关心的业务构建成网状结构,以支持不同的应用。
业务系统中的各种数据和信息,将作为网状图中节点属性加以保存,并且可以随着环境的变化,随时调整属性种类和属性值。所有业务节点的属性集合构成了业务系统的基础信息库。
网状图中的节点包含了业务中的各种知识文档等不同的知识形式,并且与相关的有形的业务实体节点进行了关联,一方面在业务过程中随时提供知识支持,另一方面使用中不断积累和调整知识结构和内容,更好增加对业务的支撑能力。因此,本体数据库库实际上也是一种知识库存在形式。
在下载里你可以找到下面这些文件和内容,按类型分了组,提供了编译之后和最小化两个版本。
知识表示作为知识工程最为核心的内容,它直接决定存储的模式和管理方式,还决定了知识应用的形式,而且也决定了知识处理的效率和实现的域空间规模的大小,其成功与否直接关系到智能设计专家系统的水平。,一个好的知识表示方法应具备以下性质: (1)表达充分性。具备确切表达有关领域中各种知识的能力。 (2)推理有效性。能够与高效率的推理机制密切结合,支持系统的控制策略。 (3)操作维护性。便于实现模块化,并检测出矛盾的及冗余的知识;便于知识更新和知识库的维护。 (4)理解透明性。知识表示便于人类理解,易读、 易懂,便于知识的获取。 基于以上知识表示方法具备的性质,目前普遍应用的传统知识表示方法主要有一阶谓词逻辑表示法、 产生式表示法、 框架表示法、 脚本表示法、 语义网络表示法等。
该技术主要由两大部分组成,一部分是领域或者行业语义网络知识库,一部分是求解问题的推理方法,求解过程如下: (1)根据求解的要求构造一个网络片断; (2)依次网络到语义网络知识库中去寻找可匹配的网络,当匹配不完全时,解决不确定的匹配问题; (3)如果问题得语义片断与知识库中的若干语义片断匹配,则按照语义统计学原理,输出" 峰值" 最高的节点。
全文检索是一种将文件中所有文本与检索项匹配的文字资料检索方法。全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。 全文检索是计算机程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置。当用户查询时根据建立的索引查找,类似于通过字典的检索字表查字的过程。 全文检索系统在功能上具有建立索引,处理查询返回结果集,增加索引,优化索引结构等功能;结构上具有索引引擎,查询引擎,文本分析引擎和对外接口等。
词典规模在10万条以上 。 查全率和查准率高达95%以上。 全文检索速度百万级记录的响应时间在亚秒级。
想要使用 Bootstrap,可以基于这个简单的 HTML 模板,这里面包含了我们在 文件结构 里提到的所有东西。
处理以记录类型为结点的网状数据模型的数据库。处理方法是将网状结构分解成若干棵二级树结构,称为系。系类型是二个或二个以上的记录类型之间联系的一种描述。在一个系类型中,有一个记录类型处于主导地位,称为系主记录类型,其它称为成员记录类型。系主和成员之间的联系是一对多的联系。网状数据库的代表是DBTG系统。1969年美国的CODASYL组织提出了一份" DBTG报告" ,以后,根据DBTG报告实现的系统一般称 为DBTG系统。现有的网状数据库系统大都是采用DBTG方案的。DBTG系统是典型的三级结构体系:子模式、模式、存储模式。相应的数据定义语言分别称为子模式定义语言SSDDL,模式定义语言SDDL,设备介质控制语言DMCL。另外还有数据操纵语言DML。 网状数据库系统采用网状模型作为数据的组织方式。网状数据模型的典型代表是DBTG系统,亦称CODASYL系统。这是20世纪70年代数据系统语言研究会CODASYL( Conference On Data System Language)下属的数据库任务组(Data Base Task Group,简称DBTG)提出的一个系统方案。DBTG系统虽然不是实际的软件系绞,但是它提出的基本概念、方法和技术具有普遍意义。它对于网状数据库系统的研制和发展起了重大的影响。后来不少的系统都采用DBTG模型或者简化的DBTG模型。例如,Cullient Software公司的IDMS、UniVac公司的DMS1100、Honeywell公司的IDS/2、HP公司的IMAGE等。 Database Task Group,数据库任务组。指能够处理模糊数据的数据库。一般的数据库都是以二直逻辑和精确的数据工具为基础的,不能表示许多模糊不清的事情。随着模糊数学理论体系的建立,人们可以用数量来描述模糊事件并能进行模糊运算。这样就可以把不完全性、不确定性、模糊性引入数据库系统中,从而形成模糊数据库。模糊数据库研究主要有两方面,首先是如何在数据库中存放模糊数据;其次是定义各种运算建立模糊数据上的函数。模糊数的表示主要有模糊区间数、模糊中心数、模糊集合数和隶属函数等。 网状数据库 处理以记录类型为结点的网状数据模型的数据库。处理方法是将网状结构分解成若干棵二级树结构,称为系。系类型 是二个或二个以上的记录类型之间联系的一种描述。在一个系类型中,有一个记录类型处于主导地位,称为系主记录类 型,其它称为成员记录类型。系主和成员之间的联系是一对多的联系。网状数据库的代表是DBTG系统。1969年美国的 CODASYL组织提出了一份" DBTG报告" ,以后,根据DBTG报告实现的系统一般称 为DBTG系统。现有的网状数据库系统大都是采用DBTG方案的。DBTG系统是典型的三级结构体系:子模式、模式、存储模式。相应的数据定义语言分别称为子模式定义语言SSDDL,模式定义语言SDDL,设备介质控制语言DMCL。另外还有数据操纵语言DML。 20世纪70年代数据库系统语言协会(CODASYL)下属的数据库任务组(DBTG)提出的DBTG系统代表网状数据模型
来看几个示范布局,最好别直接就用,可以加上点自己的想法。
中文不同于英语,词语之间没有天然的分割,计算机无法自动处理中文分词及词性标注是对中文信息处理的核心。分词就是将连续的字符按照一定的规范组合成词序列的过程;词性标注就是用特定的符号标示词的词性过程。 现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于统计的分词方法以及基于理解的分词方法。 我们的分词采用的是基于统计的方法,该方法速度快,准确率高达99%,新词识别能力强,同时集成了很多规则可以进行命名实体的识别与抽取;同时采用基于隐马尔科夫模型的中文词语的词性标注算法进行词性标注。
(1)句子相似度计算 在计算句子或短文本的相似度是综合考虑了词形(词汇按照词性加权)、句子长度、词序以及相同关键词在句子间的距离等因素综合考虑,,然后加权计算,权重系数采用最优化原理获得。句子相似度计算技术是短文本分析处理的基础。
(2)文档相似度计算 基于向量空间模型的向量余弦来计算文档的相似度,除此之外还充分考虑了文档长度、语义约束之间的关系。
(1) 类别特征提取算法 在进行类别特征提取时,我们测试了多种方法如:TFIDF方法、信息增益法、互信息方法、期望交叉熵法、Chi-2统计量方法、文本证据权、优势率等方法,通过比较发现Chi-2统计量方法得到的特征效果最好。
(2) 分类算法的选择 在分类器构造方面,我们构造了基于距离测度函数分类算法、朴素贝叶斯分类算法、KNN分类算法、支持向量机分类算法等分类器,可以根据实际情况择优选用。
(3) 类别距离的计算 在类别距离的计算上,我们采用欧式距离来测量,辅助以语义计算的方式来实现。
(4) 性能指标 分类准确率在92%以上。
短/小文本由于内容少,特征稀疏,应用经典文本分类算法得到的效果都很差,准确率和召回率都很差。为此,我们提出了语义范式的概念,采用语义范式进行短/小文本的分类。
(1) 类别特征提取算法选择 通过对几种常用的类别特征提取方法的比较发现Chi-2统计量方法得到的特征效果最好。
(2) 语义范式的自动生成 在类别特征提取后,将类别特征反馈到文本中去,根据约束关系得到语义范式用来进行小文本的分类。
(3) 基于范式的小文本分类 在上面的基础上,应用各类的语义范式对小文本文档进行分类,结果表明分类的准确率基本可以达到95%以上。
(4) 将基于距离的分类方法应用到小文本分类中实现二次分类 对用范式无法分出类别的文档进行二次分类。
(1) 数据预处理技术 数据预处理包括格式转换,把非文本格式转换为文本格式,中文分词,词性标注,以及去除停用词、停用词性等处理操作。 (2) 基于KNN的文本聚类实现技术 本项目在实施过程中测试了多种文本聚类算法,比如:层次聚类算法、分割聚类算法、基于密度的聚类算法、KNN聚类算法,经实验结果验证,KNN聚类算法取得的结果最优。 (3)特征计算与选择 通过对文档分词、统计等预处理操作,采取TFIDF方法计算词的权重,对特征进行选择。 (4) 文档相似度计算方法 (5) 聚类过程中聚类中心自动调整方法实现KNN聚类算法
从一篇文档中抽取其摘要,或从一类文档中抽取其中心思想。 (1) 基于启发式规则的文档摘要提取技术 此方法将文档内容与一些启发式信息如" 指示性短语" 、" 语句长度" 和" 首句、尾句" 相结合,进行句子权重的计算,最后按照句子的权重排序,然后提取权重最大的一些句子按照其在原文中的顺序依次输出,即为文章的摘要。 (2) 基于统计的文档摘要提取技术 由于在大规模的文档中,词的权重在计算句子的权重时起着非常重要的作用,而且往往起着决定性的作用,我们在实现时采用TFIDF方法计算词的权重。 (3) 单文档摘要与多文档摘要提取技术 (4) 句子相似度计算技术 对于多文档摘要,要通过句子相似度的计算来去除摘要中相似的句子,而句子的相似度由词形、词序、关键词之间的距离以及句子长度等因素来决定。
来看几个示范布局,最好别直接就用,可以加上点自己的想法。
知识表示作为知识工程最为核心的内容,它直接决定存储的模式和管理方式,还决定了知识应用的形式,而且也决定了知识处理的效率和实现的域空间规模的大小,其成功与否直接关系到智能设计专家系统的水平。,一个好的知识表示方法应具备以下性质: (1)表达充分性。具备确切表达有关领域中各种知识的能力。 (2)推理有效性。能够与高效率的推理机制密切结合,支持系统的控制策略。 (3)操作维护性。便于实现模块化,并检测出矛盾的及冗余的知识;便于知识更新和知识库的维护。 (4)理解透明性。知识表示便于人类理解,易读、 易懂,便于知识的获取。 基于以上知识表示方法具备的性质,目前普遍应用的传统知识表示方法主要有一阶谓词逻辑表示法、 产生式表示法、 框架表示法、 脚本表示法、 语义网络表示法等。
该技术主要由两大部分组成,一部分是领域或者行业语义网络知识库,一部分是求解问题的推理方法,求解过程如下: (1)根据求解的要求构造一个网络片断; (2)依次网络到语义网络知识库中去寻找可匹配的网络,当匹配不完全时,解决不确定的匹配问题; (3)如果问题得语义片断与知识库中的若干语义片断匹配,则按照语义统计学原理,输出" 峰值" 最高的节点。