基于MapReduce的SVM改进算法及在邮件过滤中的实现
作者:杨鹤标;黄文青;陈锦富;
作者单位:江苏大学计算机学院;
加工时间:2013-12-20
信息来源:无线通信技术
关键词:邮件过滤;;MapReduce;;SVM算法;;Hadoop;;文本分类
摘 要:针对海量文本邮件的挖掘过滤需要更大的存储空间、以及更强的计算能力,提出一种基于Hadoop云计算平台的垃圾邮件过滤方法。其思想:把相对孤立的数据集合并成易于云平台处理的大文件集合;依据评估函数构建文本向量,将邮件转换为结构化的描述;基于MapReduce分布式编程模型改进SVM算法,利用集群整体的计算能力求解最优平面。实验表明:该方法能利用廉价的计算机集群代替昂贵的高性能机器实现海量邮件数据的挖掘过滤;并且,分类效率能随着集群规模的扩增而提升较快。
内 容:原文可通过湖北省科技信息共享服务平台(http://www.hbstl.org.cn)获取