HKUST 大数据分析基础

Published on Jan 10, 2023 in 大数据 with 0 comment

前言：本文总结来自 HKUST MSBD 5001 课程学习后的总结与回顾，关于 12 个 topics 的总结还在陆续补充中

Topic

Big Data Introduction

Basic Statistic Analysis

Data Preprocessing

String Similarity

Min-hashing and Locality-sensitive Hashing

Machine Learning

Data Integration

Schema Alignment

Record Linkage

Evaluation of Matching Quality and Complexity

Data Fusion

Data Privacy: 大数据隐私保护

实战：使用 Python 进行数据分析

1. 运行和开发环境

Anaconda：用于管理多环境开发
Vscode：做本地开发调试使用，安装插件 Jupyter, Python, Code Runner, 同时 VsCode 也支持选择配置 Python Interpreter Path
Jupyter Notebook
JupyterLab: 使用上基本和 Jupyter Notebook 没有区别，但添加了更多组件支持，UI 上最显著的区别是添加了目录
CoLab: Google 提供，使用上类似于 Jupyter Notebook, 可以挂载 Google Disk 做输入和输出源，特别适合需要高级 GPU/TPU 的项目运行时使用，有一定的免费使用额度，超过可付费使用。

2. 重要基础库

Numpy：Python 中数值计算最重要的包，底层使用 C++ 实现，因而在做数值运算时速度更快且占用内存更小
Pandas：用来处理表格型或者异质性数据，采用了很多 Numpy 风格 API
Matplotlib：用来做数据可视化
Seaborn：简化了很多 Matplotlib 可视化类型的生成，使用简洁，可提高图标的美观性
scikit-learn：一个通用Python机器学习库。它包含广泛的标准监督的和无监督的机器学习方法，包括用于模型选择和评估、数据转换、数据加载和模型持久化的工具。这些模型可用于分类、聚类、预测和其他常见任务。

3. 数据分析和挖掘过程

建立目标和了解数据集：在这个过程中了解需求背景，建立项目目标，初步了解已有数据集（如需要还要再收集数据），明确算法目标。
数据探索和清洗：数据解读，在这个阶段中尽可能多地做数据探索，快速了解数据集的基本情况（数据正确性和质量），快速了解各个字段的基本情况（是否字段缺失和不一致等问题），并做相对应的数据清洗（调整缺失值、异常值、one-hot 编码等）。
特征工程：创建对模型有正面影响的特征，尝试特征组合或者特征转换。
算法模型：根据目标选择对应的机器学习或者深度学习算法，例如分类的话可以选用随机森林或者 XGB 等，同时可根据目标选用评估方法，用网格调参或者设置超参数调参等，如有多个合适模型，尝试模型融合。
同时也在掘金看到一篇详细过程的分享可供参考：Elo 用户忠诚度预测

本文由 ellila 创作，采用知识共享署名4.0 国际许可协议进行许可
本站文章除注明转载/出处外，均为本站原创或翻译，转载前请务必署名
最后编辑时间为: Jan 13, 2023 at 01:46 am

← → ↓ ↑

Responses