都有什么?

  • 标准化与归一化
  • 数据离散化
  • 独热编码
  • 数据映射

一、标准化与归一化

  1. 为什么?
    多指标评价体系中,由于各个评价指标的性质不同,通常有不同的量纲和数量级。当各指标的水平相差很大时,如果直接使用原始指标值进行分析,会突出数值较高的指标在综合分析中的作用,相对削弱了数值水平较低指标的作用。因此,为了保证结果的可靠性,需要对原始指标数据进行标准化处理。
    这种处理方式得到的信息不会发生变化。只改变了量纲。
    比如,房价和看房人数,房价数量级在W级别,但人在个位数,这样则导致了房价对某量影响更大,但显然不合理。
    <center>标准化
    标准化
    <center>归一化
    归一化

二、离散化

  1. 分类
    • 分段离散化:人为确定类别,然后让数据入座
    • 等频离散化:不人为指定,只告诉分为多少组,自动分类。

三、独热编码

  1. 是什么?
    • One-Hot码,一位有效码;该方法是用N位状态寄存器表达N个状态,且只有一位有效。
    • 将文字变为编码