机器学习基本概念

一、机器学习是什么?

  1. 机器学习:研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的组织结构使之不断改善自身的性能。

    比如认识“猫”,见得多了就知道是什么了

  2. 理论:统计学、信息论、决策论、最优化、矩阵论、数据结构、分布式理论等。工具:python包:numpy、pandas、sklearn、matplotlib等、spark(分布式,多台机子计算一个问题)、mlib、hive等。

二、解决的问题

  1. 数据挖掘,记录一个页面中用户的操作,判断是否为潜在客户。
  2. 计算机视觉,识别事物,图像处理。
  3. 自然语言处理,给一句中文,判断表达的情感,根据评论找出产品缺陷。
  4. 语音处理,小爱同学,语音导航。
  5. 推荐系统,电商平台推荐商品。

    以数据挖掘为例:
    医院中:病人数据→预测患病可能。
    电商网站:用户浏览记录→推荐商品。
    餐馆:往日点餐→未来食材准备。

    <center>机器学习举例
    机器学习举例

    难度越高,需要的f越复杂

三、思路与基本步骤

  1. 机器学习示意

    <center>机器学习示意图
    机器学习示意图

    通过训练集训练f,用验证集进行检验,最后用测试集进行测试。

  2. 基本步骤
    2.1 分析问题→获取数据→清洗数据(数据探索)→特征工程(筛选那些数据对训练有帮助,根据已有特征构造想新特征等)→构建模型→模型调参→模型上线

  3. 分析问题
    3.1 将数据结构化,二维表结构,行列式,包含feature特征列(属性)、label标签列、sample样本列。有feature、label为监督学习,只通过feature来学习模型是无监督学习。
    无监督学习,比如通过数据区分玩家类型(频率高、金额大和频率低、金额小),以类聚,发现数据本身的特点。
    3.2 监督学习问题一:回归问题
    label是连续值,线性回归是最简单的机器学习。

    <center>回归问题
    回归问题

    3.3 监督学习问题二:分类问题

     3.3.1 二分类问题,判断yes or no.  
     3.3.2 多分类问题,判断图片中的数字是几。  
     3.3.3 多标签的二分类、多分类。  
     3.3.4 从图像角度  
    
    <center>从图像角度
    从图像角度

    3.4 无监督学习:

     3.4.1 数据没有标签怎么办?`聚类`。可能会有一些离群点,可以检测出来。  
     3.4.2 `降维问题`将1000组数据生成500组新的数据,1000维降到500维但仍然保持完整的信息,可以提高计算效率  
    
    <center>降维
    降维
     3.4.3 更多的时候,非监督学习用于数据预处理阶段,让建模过程更流畅。
    

四、对应的岗位

BI分析师(做图表等,做一些决断)、ETL工程师(清洗数据)、数据挖掘工程师、数据分析师、AI算法工程师(优化算法,加速)