安徽工程大学学报

2016, v.31;No.102(05) 88-94

[打印本页] [关闭]
本期目录(Current Issue) | 过刊浏览(Past Issue) | 高级检索(Advanced Search)

一种基于领域本体的Deep Web实体信息提取的后处理方法
A Post-processing of Deep Web Entity Information Extraction Based on Domain Ontology

余伟;陶皖;

摘要(Abstract):

目前大多数的Deep Web信息抽取方法依赖Web页面结构,忽略了页面中包含的语义信息及关系,导致抽取结果不理想.针对此问题,提出一种基于领域本体的Deep Web实体信息后处理方法.首先,根据DOM树节点相似性原理和VSM(Vector Space Model)的余弦值方法确定数据区域和实体区域;然后,依据数据区域和实体区域的概念和实例构建领域本体,在领域本体的指导下对实体进行语义标注,将量化的标注结果添加到实体与本体的相似度计算中;最后,提出基于领域本体的实体信息抽取算法,获得实体中与本体相似度最大的子树.选取天气、图书、购物网站数据进行测试,实验结果表明,与已有方法相比,所提方法的F值提高了3.6%~4.9%.该方法不仅能减少抽取信息时对Web页面结构的依赖,而且能充分利用页面中的语义信息和关系,使得抽取结果更精确.

关键词(KeyWords): Deep Web;信息抽取;实体区域定位;领域本体;后处理

Abstract:

Keywords:

基金项目(Foundation): 安徽省教育厅基金资助项目(2013B020)

作者(Author): 余伟;陶皖;

Email:

DOI:

扩展功能
本文信息
服务与反馈
本文关键词相关文章
本文作者相关文章
中国知网
分享