数学小白问个数据问题,请大侠指教数据归一化处理概念,定义两个阈值A和B,A>B,把数据进行处理,对大于等于A的数据规整为A,对大于等于B但小于A的数据规整为B,这个算不算是归一化处理?
来源:学生作业帮助网 编辑:作业帮 时间:2024/11/16 17:40:50
数学小白问个数据问题,请大侠指教数据归一化处理概念,定义两个阈值A和B,A>B,把数据进行处理,对大于等于A的数据规整为A,对大于等于B但小于A的数据规整为B,这个算不算是归一化处理?
数学小白问个数据问题,请大侠指教数据归一化处理概念,
定义两个阈值A和B,A>B,把数据进行处理,对大于等于A的数据规整为A,对大于等于B但小于A的数据规整为B,这个算不算是归一化处理?
数学小白问个数据问题,请大侠指教数据归一化处理概念,定义两个阈值A和B,A>B,把数据进行处理,对大于等于A的数据规整为A,对大于等于B但小于A的数据规整为B,这个算不算是归一化处理?
归一化:
以归一化的方法将有量纲的数据转换成无量纲的数据表达.
简单点说,例如考虑人的身高和体重,如果身高以米为单位,则比以厘米为单位的方差要小得多,这样与体重的方差进行对比时,由于取的单位不同,所以无法进行对比.数据归一化后,例如归一化到(0,1)区间,则身高和体重的取值都在这个区间内,则身高和体重的均值、方差等量才可以比较.常用的方法有基于线性映射的最小最大值归一化(min-max normalization)以及基于统计特性的Z-score等方法.
你说的这个是数据离散化(data discretization),是数据规约(data reduction)的一种方式.例如要对一个数据库中的人的收入进行统计,由于收入可能精确到分,所以导致这个维度的取值过于离散,这样计算该属性的统计量就变得计算复杂了,数据离散化可以在不影响精度的情形下极大减少复杂度.最常用的方法是分箱(binning),即把一个取值区间看成一个箱子,例如(100,150)看成一个箱子的话,则所有收入在(100,150)里的都会落入这个箱子.数据转换的方法可以有最小值法、中值法等等,例如你说的就是最小值法,此时所有落入箱子的值会被转换为100,若是平均值法,则所有(100,150)间的值都会被转换为125了.
希望对你有所帮助.