一种近似Markov Blanket最优特征选择算法

崔自峰[1] 徐宝文[1] 张卫丰[2] 徐峻岭[1]

[1]东南大学计算机科学与技术学院,南京211189 [2]南京邮电大学计算机学院,南京210003

摘  要:

特征选择可以有效改善分类效率和精度,传统方法通常只评价单个特征,较少评价特征子集.在研究特征相关性基础上,进一步划分特征为强相关、弱相关、无关和冗余四种特征,建立起Markov Blanket理论和特征相关性之间的联系,结合Chi-Square检验统计方法,提出了一种基于前向选择的近似Markov Blanket特征选择算法,获得近似最优的特征子集.实验结果证明文中方法选取的特征子集与原始特征子集相比,以远小于原始特征数的特征子集获得了高于或接近于原始特征集的分类结果.同时,在高维特征空间的文本分类领域,与其它的特征选择方法OCFS,DF,CHI,IG等方法的分类结果进行了比较,在20 Newsgroup文本数据集上的分类实验结果表明文中提出的方法获得的特征子集在分类时优于其它方法. (共8页)

相关文章:

主题相关 参考文献(17篇) 
参考文献+更多
相关期刊+更多
    中国业务群个人门户,免费下载!
    征稿启事
    社区热帖+更多
    天元数据 维普资讯 版权所有 Copyright © 2001-2008 cqvip.com Inc. All rights reserved.
    渝ICP证 B2-20050021  违法和不良信息举报中心
    建议使用:1024x768分辨率,16位以上颜色