HKUST 大数据分析基础

in 大数据 with 0 comment

前言:本文总结来自 HKUST MSBD 5001 课程学习后的总结与回顾,关于 12 个 topics 的总结还在陆续补充中

Topic

Big Data Introduction

Basic Statistic Analysis

Data Preprocessing

String Similarity

Min-hashing and Locality-sensitive Hashing

Machine Learning

Data Integration

Schema Alignment

Record Linkage

Evaluation of Matching Quality and Complexity

Data Fusion

Data Privacy: 大数据隐私保护

实战:使用 Python 进行数据分析

1. 运行和开发环境

2. 重要基础库

3. 数据分析和挖掘过程

  1. 建立目标和了解数据集:在这个过程中了解需求背景,建立项目目标,初步了解已有数据集(如需要还要再收集数据),明确算法目标。
  2. 数据探索和清洗:数据解读,在这个阶段中尽可能多地做数据探索,快速了解数据集的基本情况(数据正确性和质量),快速了解各个字段的基本情况(是否字段缺失和不一致等问题),并做相对应的数据清洗(调整缺失值、异常值、one-hot 编码等)。
  3. 特征工程:创建对模型有正面影响的特征,尝试特征组合或者特征转换。
  4. 算法模型:根据目标选择对应的机器学习或者深度学习算法,例如分类的话可以选用随机森林或者 XGB 等,同时可根据目标选用评估方法,用网格调参或者设置超参数调参等,如有多个合适模型,尝试模型融合。
    同时也在掘金看到一篇详细过程的分享可供参考:Elo 用户忠诚度预测
Responses