Datapreprocess1
都有什么?
- 标准化与归一化
- 数据离散化
- 独热编码
- 数据映射
一、标准化与归一化
- 为什么?
多指标评价体系中,由于各个评价指标的性质不同,通常有不同的量纲和数量级。当各指标的水平相差很大时,如果直接使用原始指标值进行分析,会突出数值较高的指标在综合分析中的作用,相对削弱了数值水平较低指标的作用。因此,为了保证结果的可靠性,需要对原始指标数据进行标准化处理。
这种处理方式得到的信息不会发生变化。只改变了量纲。
比如,房价和看房人数,房价数量级在W级别,但人在个位数,这样则导致了房价对某量影响更大,但显然不合理。标准化 归一化
二、离散化
- 分类
- 分段离散化:人为确定类别,然后让数据入座
- 等频离散化:不人为指定,只告诉分为多少组,自动分类。
三、独热编码
- 是什么?
- One-Hot码,一位有效码;该方法是用N位状态寄存器表达N个状态,且只有一位有效。
- 将文字变为编码