关键词:动态信息采集;;网络爬虫;;Prefixspan;;序列模式挖掘
摘 要:随着网络上海量油气资源信息的增长,如何从纷繁复杂的海量信息中精准的提取出满足用户需求的信息显得尤为重要。采集、提取网络上各大石油类门户网站的油气资源信息,并对这些信息进行存储和分析,最后按用户的需求兴趣以个性化定制的方式及时高效的呈现给用户,是油气行业发展的需要。针对油气资源网络信息采集过程中,用户对采集的信息具有深度聚焦、信息完备的要求,本文在以下三方面分别进行了研究:1)本文从时间精确性、内容抽取精准性与获取信息完备性三个方面分别进行分析,通过对开源爬虫Heritrix进行扩展性研究,并结合jsoup和Lucene,提出了一套关于行业动态信息采集中个性化定制的策略和方法;2)为了能按用户的需求,聚焦提供用户感兴趣的信息,采取构建完善的油气资源信息专业词库,辅助分词提高用户检索信息聚焦度的策略;3)为了构建更新油气资源信息专业词库,需要能够发现识别行业信息中不断涌现的领域新词,本文就此展开了基于改进的Prefixspan算法进行中文文本新词提取的方法研究。尝试将序列模式挖掘相关算法Prefixspan应用于中文文本的新词提取中,针对Prefixspan算法挖掘出的序列模式不连续、挖掘出的序列模式项相互间存在包含关系等问题,对算法进行改进,采用语义特征与统计相结合的方法,实现了从中文语料中有效提取新词。本文将以上研究成果应用到了国土资源部的油气网络信息动态采集系统建设项目中,应用结果表明:1)本文改进的中文文本新词提取方法对于专业领域新词的识别具有较高的准确性;2)本文提出的行业动态信息采集策略与分析方法能够较好满足用户对个性化定制行业动态信息采集的要求,既能保证采集网站上指定时间区间内的兴趣信息能够全部抓取,又能按用户的需求,聚焦提供用户感兴趣的信息,提高了行业动态信息采集系统的效能;节省了行业人员获取信息的时间。本文提出的行业动态信息采集策略和分析方法具有普适性,能够用于其它行业网络信息动态采集系统的构建。
内 容:原文可通过湖北省科技信息共享服务平台(http://www.hbstl.org.cn)获取