非数值化特征经常出现在数据中,对其有效编码是采用机器学习模型解决问题的关键。针对目前被广泛使用的one-hot编码方法的编码结果具有较大的稀疏性,并且编码出的数值仍然没有明确的物理意义等问题,提出一种基于条件概率的区域划分编码...非数值化特征经常出现在数据中,对其有效编码是采用机器学习模型解决问题的关键。针对目前被广泛使用的one-hot编码方法的编码结果具有较大的稀疏性,并且编码出的数值仍然没有明确的物理意义等问题,提出一种基于条件概率的区域划分编码算法CZT(conditional-probability-based zone transformation coding)。该方法首先对特征进行条件概率计算,并依据条件概率划分特征区域,按照区域内的联合条件概率进行编码;然后将CZT编码算法与one-hot算法进行对比分析,从理论上推导并证明CZT编码对特征的压缩率至少为每个特征取值空间的平均大小,同时证明经过CZT编码后的问题具有更简单的优化目标形式,有利于设计后续机器学习算法;最后通过采用相同结构的神经网络进行分类,在Titanic数据集下对比CZT算法和one-hot算法编码数据后对分类器性能的影响,结果表明CZT编码的数据的分类准确率和稳定性均有提升。展开更多
针对传统特征工程中需要大量专家经验和人力的不足,研究了基于特征生成方法的Android恶意软件检测方法。基于UC Berkeley的ExploreKit自动特征生成方法,通过对原始特征计算获得大量候选特征,根据候选特征的元特征预测其性能并进行评估排...针对传统特征工程中需要大量专家经验和人力的不足,研究了基于特征生成方法的Android恶意软件检测方法。基于UC Berkeley的ExploreKit自动特征生成方法,通过对原始特征计算获得大量候选特征,根据候选特征的元特征预测其性能并进行评估排序,使用贪心算法从中选出能够提升模型性能的新特征。从APK中提取了敏感API、危险权限等多种特征,在根据信息增益对特征进行筛选后,输入到特征生成框架中,使用C4.5、SVM和随机森林等作为分类模型。实验证明,该方法使错误率平均降低了24.6%,准确率达到了96.5%,曲线下面积(Area Under Curve,AUC)达到了0.99。展开更多
文摘非数值化特征经常出现在数据中,对其有效编码是采用机器学习模型解决问题的关键。针对目前被广泛使用的one-hot编码方法的编码结果具有较大的稀疏性,并且编码出的数值仍然没有明确的物理意义等问题,提出一种基于条件概率的区域划分编码算法CZT(conditional-probability-based zone transformation coding)。该方法首先对特征进行条件概率计算,并依据条件概率划分特征区域,按照区域内的联合条件概率进行编码;然后将CZT编码算法与one-hot算法进行对比分析,从理论上推导并证明CZT编码对特征的压缩率至少为每个特征取值空间的平均大小,同时证明经过CZT编码后的问题具有更简单的优化目标形式,有利于设计后续机器学习算法;最后通过采用相同结构的神经网络进行分类,在Titanic数据集下对比CZT算法和one-hot算法编码数据后对分类器性能的影响,结果表明CZT编码的数据的分类准确率和稳定性均有提升。
文摘针对传统特征工程中需要大量专家经验和人力的不足,研究了基于特征生成方法的Android恶意软件检测方法。基于UC Berkeley的ExploreKit自动特征生成方法,通过对原始特征计算获得大量候选特征,根据候选特征的元特征预测其性能并进行评估排序,使用贪心算法从中选出能够提升模型性能的新特征。从APK中提取了敏感API、危险权限等多种特征,在根据信息增益对特征进行筛选后,输入到特征生成框架中,使用C4.5、SVM和随机森林等作为分类模型。实验证明,该方法使错误率平均降低了24.6%,准确率达到了96.5%,曲线下面积(Area Under Curve,AUC)达到了0.99。