大数据分析的方法和技巧分享

目录
一、大数据分析的定义
二、大数据分析的特征
三、大数据分析的步骤
1.数据挖掘
2.数据预处理
2.1 概念
2.2 数据抽样方法
2.3 数据标准化及归一化
2.4 数据质量与清洗
四.大数据分析的方法
1.关联规则分析方法
1.1 概念
1.2关联规则挖掘常用算法
1.2.1 Apriori算法
1.2.2 Partition算法
1.2.3 DHP算法
1.2.4 MS-Apriori算法
1.2.5 FP-Growth算法
2.分类分析方法
2.1 概念
2.2 常见的分类算法
2.3 实例演示
3.回归分析方法
3.1 概念
3.2 回归分析的类型
3.3 实例演示
4.聚类分析方法
4.1 概念
4.2 聚类算法的分类
4.3 聚类算法实例
一、大数据分析的定义
数据分析是基于商业等目的,有目的的进行收集、整理、加工和分析数据,提炼有价值信息的过程。
大数据分析即针对海量的、多样化的数据集合的分析
二、大数据分析的特征
1.体量巨大
2.种类繁多
3.价值密度低
4.处理速度快
三、大数据分析的步骤
1.数据挖掘
数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。
只要有数据的地方就有可能进行数据挖掘,尤其是在云计算、互联网、大数据技术发展的今天,海量数据被收集、处理、存储,为数据挖掘提供了可能。
2.数据预处理
2.1 概念
在工程实践中,我们得到的数据会存在有缺失值、重复值等,在使用之前需要进行数据预处理。数据预处理没有标准的流程,通常针对不同的任务和数据集属性的不同而处理不同。
以下是我们通常认为的数据预处理的样子,但它还远不够系统化
另外,数据预处理还往往包括数据抽样、数据标准化及归一化、数据质量提升与数据清洗等环节与任务。
2.2 数据抽样方法
随机抽样、系统抽样、分层抽样、加权抽样、整群抽样
2.3 数据标准化及归一化
线性归一化、非线性归一化
2.4 数据质量与清洗
缺失值填充、格式内容清洗、逻辑错误清洗
实例:
先导入用到的库和数据
查看数据情况
数据处理
处理结果
四.大数据分析的方法
1.关联规则分析方法
1.1 概念
1.2关联规则挖掘常用算法
1.2.1 Apriori算法
Apriori算法是第一个关联规则挖掘算法,也是最经典的算法。它利用逐层搜索的迭代方法找出数据库中项集的关系,以形成规则,其过程由连接(类矩阵运算)与剪枝(去掉那些没必要的中间结果)组成。
实例演示:(分析超市商品关联情况)
首先在vscode中引入apriori算法模型
from mlxtend.frequent_patterns import apriori
其次导入需要用到的数据(以超市销售数据为例)
数据预处理,把数据整理成apriori算法能够接受的独热编码形式
数据替换
最后使用apriori算法模型进行频繁项集的算法查找
最后分析结果
提出有效建议
1.2.2 Partition算法
Partition算法是一种分类算法,主要用于将一个序列分成前后两部分,前一部分都是满足某一条件的元素,后一部分都是不满足该条件的元素。Partition算法最著名的应用是快速排序(Quick Sort)。
1.2.3 DHP算法
DHP算法是一种用于频繁模式挖掘的算法,主要用于优化Apriori算法的剪枝步骤。DHP算法通过使用哈希函数来减少候选项集Ck+1的个数。在每次扫描时,生成每个事务的k+1项集,并代入一个哈希函数生成哈希表。通过对Lk*Lk自连接产生的结果进行哈希处理,如果某个桶中的元素个数小于最小支持阈值,则该元素必定不为频繁项集,从而可以过滤掉这些元素。
1.2.4 MS-Apriori算法
MS-Apriori算法是Apriori算法的改进版本,主要针对Apriori算法在处理不同频繁项集时的局限性进行了优化。MS-Apriori引入了最小项目支持度(MIS),为不同种类的项设置不同的支持度阈值,从而解决了单一支持度值的问题。
1.2.5 FP-Growth算法
FP-Growth算法是韩嘉炜等人在2000年提出的关联分析算法,它采取分治策略,将提供频繁项集的数据库压缩到一棵频繁模式树(FP-tree),但仍保留项集关联信息。FP-tree是一种特殊的前缀树,由频繁项头表和项前缀树构成。FP-Growth算法基于这种数据结构加快整个挖掘过程。
2.分类分析方法
2.1 概念
2.2 常见的分类算法
2.3 实例演示
我们抽取决策树的分类方法进行实例演示:
首先引入需要用到的库
import numpy as np
import pandas as pd
from sklearn import preprocessing
from sklearn.model_selection import train_test_split
from sklearn import tree
from sklearn.metrics import classification_report
接着按照正常步骤去读取数据并且查看数据特征
接着切分X和Y
因为决策树只能处理离散型数据,需要对文本型数据进行编码处理之后再给模型使用
编码需要先建一个编码模型
encoder=preprocessing.OrdinalEncoder()
把X丢进去编码
encoder.fit(x)
把编码结构按照之前x的格式之后再存为x
切割训练集和测试集,并使用决策树模型
评价模型并查看分类报告
最后,就可以用模型预测其他概率啦。
3.回归分析方法
3.1 概念
3.2 回归分析的类型
3.3 实例演示
引入要用到的库
import math
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
导入数据查看统计情况
数据分析处理过程
最后画出图像
4.聚类分析方法
4.1 概念
4.2 聚类算法的分类
4.3 聚类算法实例
步骤1:生成示例数据 首先,我们生成一个示例数据集,以便进行聚类分析。
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
# 生成示例数据
data, labels = make_blobs(n_samples=300, centers=4, cluster_std=1.0, random_state=42)
plt.scatter(data[:, 0], data[:, 1], c=labels, cmap='viridis')
plt.title("示例数据集")
plt.show()
步骤2:应用K均值聚类 接下来,我们使用K均值聚类将数据分成预定数量的簇。
from sklearn.cluster import KMeans
创建K均值聚类对象,指定簇的数量
n_clusters = 4
kmeans = KMeans(n_clusters=n_clusters)
kmeans.fit(data)
获得聚类结果
cluster_labels = kmeans.labels_
绘制聚类结果
plt.scatter(data[:, 0], data[:, 1], c=cluster_labels, cmap='viridis')
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], marker='X', s=200, color='red')
plt.title("K均值聚类结果")
plt.show()
在这个示例中,我们使用K均值聚类将数据分成了4个簇,并绘制了聚类结果。红色的“X”表示每个簇的中心。
以上就是对各种分析方法的简单介绍啦。