365bet安卓手机客户端

大数据分析的方法和技巧分享

2025-06-27 18:21:04 作者 admin 阅读 4767

一、大数据分析的定义

二、大数据分析的特征

三、大数据分析的步骤

1.数据挖掘

2.数据预处理

2.1 概念

2.2 数据抽样方法

2.3 数据标准化及归一化

2.4 数据质量与清洗

四.大数据分析的方法

1.关联规则分析方法

1.1 概念

1.2关联规则挖掘常用算法

1.2.1 Apriori算法

1.2.2 Partition算法

1.2.3 DHP算法

1.2.4 MS-Apriori算法

1.2.5 FP-Growth算法

2.分类分析方法

2.1 概念

2.2 常见的分类算法

2.3 实例演示

3.回归分析方法

3.1 概念

3.2 回归分析的类型

3.3 实例演示

4.聚类分析方法

4.1 概念

4.2 聚类算法的分类

4.3 聚类算法实例

一、大数据分析的定义

数据分析是基于商业等目的，有目的的进行收集、整理、加工和分析数据，提炼有价值信息的过程。

大数据分析即针对海量的、多样化的数据集合的分析

二、大数据分析的特征

1.体量巨大

2.种类繁多

3.价值密度低

4.处理速度快

三、大数据分析的步骤

1.数据挖掘

数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。

只要有数据的地方就有可能进行数据挖掘，尤其是在云计算、互联网、大数据技术发展的今天，海量数据被收集、处理、存储，为数据挖掘提供了可能。

2.数据预处理

2.1 概念

在工程实践中，我们得到的数据会存在有缺失值、重复值等，在使用之前需要进行数据预处理。数据预处理没有标准的流程，通常针对不同的任务和数据集属性的不同而处理不同。

以下是我们通常认为的数据预处理的样子，但它还远不够系统化

另外，数据预处理还往往包括数据抽样、数据标准化及归一化、数据质量提升与数据清洗等环节与任务。

2.2 数据抽样方法

随机抽样、系统抽样、分层抽样、加权抽样、整群抽样

2.3 数据标准化及归一化

线性归一化、非线性归一化

2.4 数据质量与清洗

缺失值填充、格式内容清洗、逻辑错误清洗

实例：

先导入用到的库和数据

查看数据情况

数据处理

处理结果

四.大数据分析的方法

1.关联规则分析方法

1.1 概念

1.2关联规则挖掘常用算法

1.2.1 Apriori算法

Apriori算法是第一个关联规则挖掘算法，也是最经典的算法。它利用逐层搜索的迭代方法找出数据库中项集的关系，以形成规则，其过程由连接（类矩阵运算）与剪枝（去掉那些没必要的中间结果）组成。

实例演示：（分析超市商品关联情况）

首先在vscode中引入apriori算法模型

from mlxtend.frequent_patterns import apriori

其次导入需要用到的数据（以超市销售数据为例）

数据预处理，把数据整理成apriori算法能够接受的独热编码形式

数据替换

最后使用apriori算法模型进行频繁项集的算法查找

最后分析结果

提出有效建议

1.2.2 Partition算法

‌Partition算法‌是一种分类算法，主要用于将一个序列分成前后两部分，前一部分都是满足某一条件的元素，后一部分都是不满足该条件的元素。Partition算法最著名的应用是快速排序（Quick Sort）‌。

1.2.3 DHP算法

DHP算法是一种用于频繁模式挖掘的算法，主要用于优化‌Apriori算法的剪枝步骤。DHP算法通过使用‌哈希函数来减少候选项集Ck+1的个数。在每次扫描时，生成每个事务的k+1项集，并代入一个哈希函数生成哈希表。通过对Lk*Lk自连接产生的结果进行哈希处理，如果某个桶中的元素个数小于最小支持阈值，则该元素必定不为频繁项集，从而可以过滤掉这些元素。

1.2.4 MS-Apriori算法

‌MS-Apriori算法‌是Apriori算法的改进版本，主要针对Apriori算法在处理不同频繁项集时的局限性进行了优化。MS-Apriori引入了最小项目支持度（MIS），为不同种类的项设置不同的支持度阈值，从而解决了单一支持度值的问题‌。

1.2.5 FP-Growth算法

FP-Growth算法是‌韩嘉炜等人在2000年提出的关联分析算法，它采取分治策略，将提供频繁项集的数据库压缩到一棵频繁模式树（FP-tree），但仍保留项集关联信息。FP-tree是一种特殊的前缀树，由频繁项头表和项前缀树构成。FP-Growth算法基于这种数据结构加快整个挖掘过程。

2.分类分析方法

2.1 概念

2.2 常见的分类算法

2.3 实例演示

我们抽取决策树的分类方法进行实例演示：

首先引入需要用到的库

import numpy as np

import pandas as pd

from sklearn import preprocessing

from sklearn.model_selection import train_test_split

from sklearn import tree

from sklearn.metrics import classification_report

接着按照正常步骤去读取数据并且查看数据特征

接着切分X和Y

因为决策树只能处理离散型数据，需要对文本型数据进行编码处理之后再给模型使用

编码需要先建一个编码模型

encoder=preprocessing.OrdinalEncoder()

把X丢进去编码

encoder.fit(x)

把编码结构按照之前x的格式之后再存为x

切割训练集和测试集，并使用决策树模型

评价模型并查看分类报告

最后，就可以用模型预测其他概率啦。

3.回归分析方法

3.1 概念

3.2 回归分析的类型

3.3 实例演示

引入要用到的库

import math

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split

from sklearn.linear_model import LinearRegression

from sklearn.metrics import mean_squared_error

导入数据查看统计情况

数据分析处理过程

最后画出图像

4.聚类分析方法

4.1 概念

4.2 聚类算法的分类

4.3 聚类算法实例

步骤1：生成示例数据首先，我们生成一个示例数据集，以便进行聚类分析。

import numpy as np

import matplotlib.pyplot as plt

from sklearn.datasets import make_blobs

# 生成示例数据

data, labels = make_blobs(n_samples=300, centers=4, cluster_std=1.0, random_state=42)

plt.scatter(data[:, 0], data[:, 1], c=labels, cmap='viridis')

plt.title("示例数据集")

plt.show()

步骤2：应用K均值聚类接下来，我们使用K均值聚类将数据分成预定数量的簇。

from sklearn.cluster import KMeans

创建K均值聚类对象，指定簇的数量

n_clusters = 4

kmeans = KMeans(n_clusters=n_clusters)

kmeans.fit(data)

获得聚类结果

cluster_labels = kmeans.labels_

绘制聚类结果

plt.scatter(data[:, 0], data[:, 1], c=cluster_labels, cmap='viridis')

plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], marker='X', s=200, color='red')

plt.title("K均值聚类结果")

plt.show()

在这个示例中，我们使用K均值聚类将数据分成了4个簇，并绘制了聚类结果。红色的“X”表示每个簇的中心。

以上就是对各种分析方法的简单介绍啦。

← 赛马娘：赛道详解，马娘加速力全攻略梦想舞台！青岛少年成世界杯护旗手与偶像并肩 →

手机版365bet网址-365bet安卓手机客户端-365bet软件下载

大数据分析的方法和技巧分享

相关文章

汽车之家

小米4跑分多少？小米4手机配置体验评测图文介绍

历届世界杯冠军，世界杯夺冠次数排行巴西5次德国4次法国2次

友情链接