摘要: 本书系统介绍了数据预处理、数据仓库和数据挖掘的原理、方法及应用技术,以及使用目前在数据分析与挖掘领域非常热门的Python语言对数据进行分析处理及挖掘建模。本书一共有11章,分为2篇。一为理论篇,第1章绪论介绍了数据分析与挖掘领域中的一些基本理论、研究方法等,也简单介绍Python数据分析与挖掘相关的知识;第2-6章按照数据分析与挖掘的过程安排各章节,介绍数据预处理的方法技术、数据仓库的构建与OLAP技术、数据挖掘原理及算法(包括关联规则挖掘方法、聚类分析方法、分类规则挖掘方法,在每章中,采用小数据集为例详细介绍各种挖掘算法)。二为实验篇,第7章介绍采用python进行数据预处理的各种常见方法、技术;第8章介绍基于SQL Server 2022构建数据仓库及OLAP的过程;第9-11章为使用Python进行关联规则、聚类、分类挖掘算法的实践,在内容的安排上,先采用小数据集进行初步实践,然后再采用大数据集进行综合实践,对于综合实践,按照:挖掘目标数据的探索分析、数据预处理及数据抽取、挖掘模型的构建及可视化、分析挖掘结果的顺序进行,通过完整的案例,加深对数据挖掘算法的理解,最终让读者由易到难、很好地掌握用Python进行数据分析与挖掘的完整过程。本书采用理论与实践相结合的方式,以小数据集为例详细介绍各种挖掘算法,使读者更易掌握挖掘算法的基本原理及过程;使用热门实用的Python语言实践数据预处理及各种挖掘算法,实战性强,也符合目前数据分析与挖掘的发展趋势。既适合Python数据分析与数据挖掘初学者、大数据从业人员阅读,也适合高等院校和培训机构大数据与人工智能相关专业的师生教学参考。
简介:
第1章绪论
1.1KDD与数据挖掘
1.2数据挖掘的对象
1.3数据挖掘的任务
1.4Python数据分析与挖掘简介
第2章数据预处理
2.1数据概述
2.2数据预处理
第3章数据仓库
3.1数据仓库的概述
3.2数据仓库的ETL
3.3元数据
3.4数据仓库模型及建立
3.5联机分析处理(OLAP)技术
第4章关联规则挖掘
4.1问题定义
4.2频繁项集的产生
4.3规则产生
4.4FPGrowth算法
4.5多层关联规则和多维关联规则
4.6非二元属性的关联规则
4.7关联规则的评估
4.8序列模式挖掘算法
第5章聚类分析方法
5.1概述
5.2基于划分的聚类算法
5.3层次聚类算法
5.4基于密度的聚类算法
5.5聚类算法评价
5.6离群点挖掘
第6章分类规则挖掘
6.1分类问题概述
6.2最近邻分类法
6.3决策树分类方法
6.4贝叶斯分类方法
6.5神经网络算法
第7章基于SQL Server 2022构建数据仓库及OLAP
7.1需求分析
7.2数据仓库的设计
7.3数据仓库的构建
7.4数据仓库的OLAP应用
7.5实验内容
第8章实践关联规则挖掘
8.1EfficientApriori实践关联规则
8.2mlxtend实践关联规则
8.3实验内容
第9章实践聚类分析
9.1kmeans聚类算法
9.2DBSCAN聚类算法
9.3实验内容
第10章实践分类规则挖掘
10.1KNN分类算法
10.2决策树算法
10.3朴素贝叶斯分类算法
10.4分类算法综合应用:泰坦尼克号乘客幸存情况预测
10.5实验内容
参考文献
课 件