前言:本文总结来自 HKUST MSBD 5001 课程学习后的总结与回顾,关于 12 个 topics 的总结还在陆续补充中
Topic
Big Data Introduction
Basic Statistic Analysis
Data Preprocessing
String Similarity
Min-hashing and Locality-sensitive Hashing
Machine Learning
Data Integration
Schema Alignment
Record Linkage
Evaluation of Matching Quality and Complexity
Data Fusion
Data Privacy: 大数据隐私保护
实战:使用 Python 进行数据分析
1. 运行和开发环境
- Anaconda: 用于管理多环境开发
- Vscode:做本地开发调试使用,安装插件 Jupyter, Python, Code Runner, 同时 VsCode 也支持选择配置 Python Interpreter Path
- Jupyter Notebook
- JupyterLab: 使用上基本和 Jupyter Notebook 没有区别,但添加了更多组件支持,UI 上最显著的区别是添加了目录
- CoLab: Google 提供,使用上类似于 Jupyter Notebook, 可以挂载 Google Disk 做输入和输出源,特别适合需要高级 GPU/TPU 的项目运行时使用,有一定的免费使用额度,超过可付费使用。
2. 重要基础库
- Numpy:Python 中数值计算最重要的包,底层使用 C++ 实现,因而在做数值运算时速度更快且占用内存更小
- Pandas:用来处理表格型或者异质性数据,采用了很多 Numpy 风格 API
- Matplotlib:用来做数据可视化
- Seaborn:简化了很多 Matplotlib 可视化类型的生成,使用简洁,可提高图标的美观性
- scikit-learn:一个通用Python机器学习库。它包含广泛的标准监督的和无监督的机器学习方法,包括用于模型选择和评估、数据转换、数据加载和模型持久化的工具。这些模型可用于分类、聚类、预测和其他常见任务。
3. 数据分析和挖掘过程
- 建立目标和了解数据集:在这个过程中了解需求背景,建立项目目标,初步了解已有数据集(如需要还要再收集数据),明确算法目标。
- 数据探索和清洗:数据解读,在这个阶段中尽可能多地做数据探索,快速了解数据集的基本情况(数据正确性和质量),快速了解各个字段的基本情况(是否字段缺失和不一致等问题),并做相对应的数据清洗(调整缺失值、异常值、one-hot 编码等)。
- 特征工程:创建对模型有正面影响的特征,尝试特征组合或者特征转换。
- 算法模型:根据目标选择对应的机器学习或者深度学习算法,例如分类的话可以选用随机森林或者 XGB 等,同时可根据目标选用评估方法,用网格调参或者设置超参数调参等,如有多个合适模型,尝试模型融合。
同时也在掘金看到一篇详细过程的分享可供参考:Elo 用户忠诚度预测
本文由 ellila 创作,采用 知识共享署名4.0 国际许可协议进行许可
本站文章除注明转载/出处外,均为本站原创或翻译,转载前请务必署名
最后编辑时间为: Jan 13, 2023 at 01:46 am