本软件下载地址未录入,如想要软件请评论,我们会补上!数据预处理模板是一个临时脚本文件。
#运用panda标准库导入数据集
dateset =pd.read_csv('Data.csv')#读取数据集,注意要将python文件保存进入含有数据集的文件夹中
X = dateset.iloc[:, :-1].values
#iloc表示获取数据集中某行某列.[ , ],逗号前面表示列数,后面表示行数,冒号表示取所有的行或者列,冒号-1表示最后一行或者列不取
#.values表示取其中的值
#就完成了对X的矩阵的创建
Y = dateset.iloc[:,3].values
#缺失数据处理,用这一列的平均值放入缺失的航或者列
from sklearn.preprocessing import Imputer
#sklearn是一个基于数据挖掘的标注库,.preprocessing是其中的一部分,表示数据的预处理
#然后从其中导入了Imputer这个类,其专门进行缺失数据的处理,包含了处理缺失数据的基本策略
imputer =Imputer(missing_values='NaN',strategy='mean',axis=0)
#使用NaN辨识其中的缺失值;
#推算方法:如果是“mean”,平均值;“median”,中位数,“most_frequent”,最频繁值替换缺失。
#axis为0时沿列计算,为1延行计算
imputer=imputer.fit(X[:,1:3])
#用上行代码代码对X矩阵中的第1和第二列数据进行拟合(注意矩阵在这是从0开始的)
X[:,1:3]=imputer.transform(X[:,1:3])
#在X[:,1:3]这个范围中,对缺失值进行计算,转义.