R语言机器学习算法实战系列(二十六)基于tidymodels的XGBoost二分类器全流程实战
禁止商业或二改转载,仅供自学使用,侵权必究,如需截取部分内容请后台联系作者!
文章目录
- 介绍
- 加载R包
- 数据准备
- 数据探索
- 转换因子
- 查看属性
- 相关性配对图
- PCA 可视化
- 缺失值、异常值处理 & 特征标准
- 数据分割
- 构建模型与调参
- 模型评估
- 模型可解释性(变量重要性、SHAP、DALEX)
- 变量重要性
- SHAP 值解释
- DALEX 全局模型解释
- 交互式图
- 总结
- 系统信息
介绍
本教程《基于 tidymodels 的 XGBoost 全流程实战》旨在为初学者及有一定 R 编程基础的中级用户提供一套完整、系统、可执行的机器学习建模流程。所使用的数据集为 mlbench 包中著名的 PimaIndiansDiabetes,该数据集源自美国国家糖尿病研究所,包含了768名 Pima 印第安女性的8个医学指标和其是否患有糖尿病的二分类标签,常用于医学领域的分类建模演示。
教程围绕 R 语言中现代建模核心包 tidymodels 生态系统(包括 recipes、parsnip、workflows、tune、yardstick 等)展开,结合可解释性分析工具(如 vip、shapviz、DALEX)以及可视化分析(如 GGally、plotly)构建了一个从数据清洗、EDA、建模调参到模型评估与解释的完整闭环。
首先,在数据准备与探索(EDA)阶段,使用 skimr 快速查看数据分布与缺失&