关键词:频繁模式;分类;特征选择;信息增益
摘 要:频繁模式挖掘在分类问题中得到了广泛的应用,大量的工作利用频繁模式挖掘对分类问题进行特征选择,但对于为什么频繁模式挖掘可以在分类问题中进行有效的特征选择则缺乏系统的研究.为了为频繁模式挖掘在分类问题中的特征选择应用提供理论基础,需要确立特征的支持度与特征分类能力之间的关系,本文以特征的信息增益作为分类能力的评价准则,讨论其与特征支持度之间的联系.首先证明了信息增益是特征支持度的上凸函数;然后,在二类问题和多类问题情况下,分别证明了具有低支持度或高支持度的特征具有有限的信息增益,即具有低支持度或高支持度的特征具有有限的分类能力.最后,通过仿真实验验证了支持度与信息增益之间的关系,为频繁模式挖掘在分类问题中的应用提供了理论基础.