欢迎访问行业研究报告数据库

行业分类

当前位置:首页 > 报告详细信息

找到报告 1 篇 当前为第 1 页 共 1

基于LDA主题模型的web文本自动文摘系统的研究与实现
作者:孙国超 加工时间:2017-03-18 信息来源:山东科技大学
关键词:LDA主题模型;句子排序;相似度;自动文摘
摘 要:互联网时代的到来导致了 web信息爆炸式增长,人们对于快速获取web文本主旨信息的需求已非常迫切,因此,自动提取文本摘要的自动文摘算法和自动文摘软件成为了中文信息处理领域研究的热点问题。本文在分析总结现有自动文摘算法和软件存在的问题基础上,针对现有相似度算法和句子排序算法的主要问题,基于LDA主题模型,提出了一种新的相似度算法和LDA-TDTI句子排序算法,并结合进出口纺织原料质量安全风险监测系统开发了一套自动文摘系统。具体研究内容和成果介绍如下:(1)总结现有的相似度计算方法,比较各种相似度算法的优缺点,在此基础上,提出了一种新的相似度计算方法;该算法在潜在狄利克雷分布(LDA)的理论基础上,构建主题空间模型,将字、词、句子、文档、语料库表示成空间模型中的向量;通过实验验证,证明该算法在一定程度上起到降维作用,避免了外部字典的使用,消除了未登录词的语义问题。(2)分析总结了常见句子排序算法的优缺点,针对LDA模型存在的文档主题分布未被反应的问题,提出了 LDA-TDTI句子排序算法;LDA-TDTI算法将句子的主题分布和句子主题重要度间的相似度作为计算句子重要度的标准,相似度越高,表明句子越能代表文章主题;通过理论分析和实验验证,证明该算法提高了文摘的主题覆盖度,提升了文摘句的质量。(3)基于句子排序算法的研究成果,采用OO和UML技术,分析并设计实现了一套自动文摘系统。给出了系统的用例图、E-R图、架构设计、数据库物理结构、类图、应用界面、交互图等主要软件系统模型,阐述了主要模块的实现方案。系统能够较快地提取web文本的文摘,且文摘质量较高。将自动文摘系统应用到进出口纺织原料质量安全风险监测系统中,应用结果表明,该系统能自动提取web文本摘要,用户体验较好,与同种类型的系统相对比,提取的文摘句质量得到了明显的提高。
内 容:原文可通过湖北省科技信息共享服务平台(http://www.hbstl.org.cn)获取
© 2016 武汉世讯达文化传播有限责任公司 版权所有
客服中心

QQ咨询


点击这里给我发消息 客服员


电话咨询


027-87841330


微信公众号




展开客服