您当前的位置:首页>论文资料>基于改进稀疏自编码神经网络的软件缺陷预测

基于改进稀疏自编码神经网络的软件缺陷预测

资料类别:论文资料

文档格式:PDF电子版

文件大小:1.06 MB

资料语言:中文

更新时间:2025-01-14 14:31:00



推荐标签:

内容简介

基于改进稀疏自编码神经网络的软件缺陷预测 2019年第38卷第2期
传感器与微系统(Transducer and Microsystem Technologies)
49
DOI:10.13873/J.10009787(2019)02004903
基于改进稀疏自编码神经网络的软件缺陷预测
徐海涛,高莹,苏娜
(杭州电子科技大学计算机学院,浙江杭州310018)
摘要:针对软件缺陷预测时普遍存在的样本缺陷数据不平衡、特征完余等问题,引进稀疏自编码(SAE)神经网络并加以改进,提出了一种新的分类模型。模型结合了SAE神经网络和少数样本合成过采样技术(SMOTE)的优点,可弥补传统分类方法在软件缺陷预测时忽视少数类分类效果、不能很好地保留数据内部特征等不足。基于NASA软件缺陷公共数据库中多个数据集的实验结果表明:提出的模型在软件缺陷
预测方面的分类效果明显优于其他算法,尤其提高了不平衡数据集中少数类的分类精度关键词:过采样;稀疏自编码;神经网络;软件缺陷预测;不平衡
中图分类号:TP183
文献标识码:A
文章编号:1000-9787(2019)02-0049-03
Software defects prediction based onimproved sparse
auto-encoderneuralnetworks
XU Hai-tao,GAOYing,SUNa
(School of Computer,Hangzhou Dianzi University,Hangzhou 310018, China)
Abstract: In view of common problems such as data imhalance and feature redundancy in software defect prediction, the sparse auto-encoder( SAE) neural network is introduced and improved, a new classification model is proposed. Combining with advantages of SAE neural network and synthetic minority over-sampling technique( SMOTE) ,the model can make up for the shortcomings of the traditional classification methods such as ignoring minority categories effects and not able to retain inner feature of data. The result of experiments base on some databases of NASA Metrics Data repository shows that the classification effect of proposed model is superior to other traditional algorithms in software defects prediction, especially improve the minority category classification precision of imbalanced datasets.
Keywords: over-sampling;sparse auto-encoder ( SAE) ; neural network; software defect prediction; imbalanced
0引言
软件缺陷预测是从软件过去的缺陷记录文件中提取代码属性并建立适当的模型来预测下一次发布中可能存在缺陷的组件。机器学习分类算法在近年内被广泛使用,常用的有逻辑回归、支持向量机(supportvectormachine,SVM)等。Shivaji S"研究发现不同的预处理或特征选择算法与相同的分类算法结合会具有差异性的效果,单独研究分类算法的意义不大,更重要的是结合预处理、特征提取等步骤。HintonGE等人[2]于2006年提出的基于深度学习思想的自动编码器(auto-encoder,AE)深层结构[3]在机器学习领域取得了巨大的成功,可以进行有效的学习和分类。
原始的软件缺陷数据集的数据分布不平衡,其中有缺
陷模块数量远少于无缺陷模块,而对手作为少数类的有缺陷样本的分析其实更为重要4]。传统的分类方法不能很
收稿日期:2017-11-26
*基金项目:国家自然科学基金资助项目(61572165)
好地应对数据集不平衡和特征完余的情况,如SVM会偏向于学习多数类而忽略少数类。针对软件缺陷数据普遍存在数据不平衡性严重,数据特征余的特点,本文提出的分类模型将数据预处理,特征选择和分类算法结合来检测软件中具有缺陷的成分。为了弥补少数类样本在数据分布方面不足的问题,首先通过ChawlaNV等人[5]提出的SMOTE 算法均衡原始数据集,再结合稀疏自编码神经网络训练学习均衡化后的数据特征,训练完成后将提取到的特征使用分类器分类。其中神经网络的学习过程包括通过贪婪逐层训练学习算法进行前无监督训练,和反向传播(back propagation,BP)算法后向有监督微调整体网络参数。实验证明,本文组合分类模型通用性高,对于数据不平衡和特征完余的数据集可以在尽量保留原始信息的前提下有效提高预测准确率,无其改善了缺陷样本作为少数类的分类效果。
上一章:消隐点共线约束逐点畸变校正算法 下一章:石墨烯基纳米结构新材料在非酶电化学生物传感器中的应用综述

相关文章

基于稀疏自编码器的手写体数字识别 基于迁移学习的跨公司航天软件缺陷预测 利用稀疏自编码的局部谱聚类映射算法 稀疏自编码和Softmax回归的快速高效特征学习 基于改进神经网络和IOWA算子的风速组合预测 基于改进BP神经网络的路由器流量预测方法 稀疏降噪自编码算法用于近红外光谱鉴别真假药的研究 似然关系模型在航天软件缺陷预测中的应用