机器学习简介

发表于2025-03-17|更新于2025-03-17|辉夜の生活碎片

|字数总计:776|阅读时长:2分钟|阅读量:

机器学习基本概念

一、机器学习是什么？

机器学习：研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的组织结构使之不断改善自身的性能。

比如认识“猫”，见得多了就知道是什么了
理论：统计学、信息论、决策论、最优化、矩阵论、数据结构、分布式理论等。工具：python包：numpy、pandas、sklearn、matplotlib等、spark（分布式，多台机子计算一个问题）、mlib、hive等。

二、解决的问题

数据挖掘，记录一个页面中用户的操作，判断是否为潜在客户。
计算机视觉，识别事物，图像处理。
自然语言处理，给一句中文，判断表达的情感，根据评论找出产品缺陷。
语音处理，小爱同学，语音导航。
推荐系统，电商平台推荐商品。

以数据挖掘为例：
医院中：病人数据→预测患病可能。
电商网站：用户浏览记录→推荐商品。
餐馆：往日点餐→未来食材准备。

机器学习举例

难度越高，需要的f越复杂

三、思路与基本步骤

机器学习示意

机器学习示意图

通过训练集训练f，用验证集进行检验，最后用测试集进行测试。
基本步骤
2.1 分析问题→获取数据→清洗数据（数据探索）→特征工程（筛选那些数据对训练有帮助，根据已有特征构造想新特征等）→构建模型→模型调参→模型上线
分析问题
3.1 将数据结构化，二维表结构，行列式，包含feature特征列(属性)、label标签列、sample样本列。有feature、label为监督学习，只通过feature来学习模型是无监督学习。
无监督学习，比如通过数据区分玩家类型（频率高、金额大和频率低、金额小），以类聚，发现数据本身的特点。
3.2 监督学习问题一：回归问题
label是连续值，线性回归是最简单的机器学习。

回归问题

3.3 监督学习问题二：分类问题
```
 3.3.1 二分类问题，判断yes or no.  
 3.3.2 多分类问题，判断图片中的数字是几。  
 3.3.3 多标签的二分类、多分类。  
 3.3.4 从图像角度  
```
从图像角度

3.4 无监督学习：
```
 3.4.1 数据没有标签怎么办？`聚类`。可能会有一些离群点，可以检测出来。  
 3.4.2 `降维问题`将1000组数据生成500组新的数据，1000维降到500维但仍然保持完整的信息，可以提高计算效率  
```
降维
```
 3.4.3 更多的时候，非监督学习用于数据预处理阶段，让建模过程更流畅。
```

四、对应的岗位

BI分析师（做图表等，做一些决断）、ETL工程师（清洗数据）、数据挖掘工程师、数据分析师、AI算法工程师（优化算法，加速）

机器学习简介

https://www.noctuna.cc/2025/03/17/IntroductiontoMachineLearning/

作者

Noctuna

发布于

2025-03-17

更新于

2025-03-17

许可协议

CC BY-NC-SA 4.0

机器学习科研

相关推荐

正则化线性回归1

数据库加载中