基于Storm分布式食品安全网络舆情监测方法研究
关键词:网络舆情;食品安全;Storm分布式框架;自编码神经网络
摘 要:近十年,食品安全问题俨然成为了社会关注的热门话题,频繁发生的食品安全话题具有传播速度快、影响极其深远的特点。因此,话题检测的时效性要求变高,但是当前世界已经进入大数据的时代,数据量呈指数增长,数据量的爆炸导致传统的框架已经无法做到实时处理,食品安全网络舆情监测研究迫在眉睫。本文的主要研究内容包括基于Storm分布式框架的话题提取、基于自编码神经网络的文本数据特征提取和分布式食品安全网络舆情检测系统的改进。主要工作如下:1、当前话题检测的时效性要求高,因此,本文将Single-Pass话题检测算法在Storm分布式框架上进行了改进,有效地提高了话题的检测速度,且随着集群中机器节点数量的增加,在保证聚类精度的同时,算法运算速度相应增加,从而有效提高了话题检测的时效性。2、因为传统的Single-Pass算法的聚类精度不高,所以本课题基于自编码神经网络对Single-Pass进行改进。该算法在特征提取时拥有多个隐藏层,可以对原始数据实现重构,因而可以更好提取特征,从而降低误检率,使得聚类精度得到提高;并通过边缘文本再处理来解决传统算法聚类结果受数据顺序影响的问题,聚类精度进一步提高。3、针对食品安全领域文本数据的特点,对Storm分布式话题检测算法进行改进,通过建立食品类别决策树,对文本数据进行分类后再聚类,进一步提高了话题检测的时效性,有效提高了系统的时效性。
内 容:原文可通过湖北省科技信息共享服务平台(http://www.hbstl.org.cn)获取