文档详情

Python数据分析与实战(微课版)课件 第1、2章 Python数据分析概述; NumPy数值计算基础.pptx

发布:2025-04-19约1.54万字共99页下载文档
文本预览下载声明

Python数据分析概述;;数据分析是指用适当的分析方法对收集来的大量数据进行分析,提取有用信息并形成结论,对数据加以详细研究和概括总结的过程。

随着计算机技术的全面发展,企业生产、收集、存储和处理数据的能力大大提高,数据量与日俱增。而在现实生活中,需要将这些繁多、复杂的数据通过统计分析进行提炼,以此研究出数据的发展规律,进而帮助企业管理层做出决策,增强行业、社会稳步前行的信心,提升锐意创新、奋勇超越的不屈精神,为未来科学发展取得卓越建树打下基础。

;广义的数据分析包括狭义数据分析和数据挖掘。

狭义数据分析是指根据分析目的,采用对比分析、分组分析、交叉分析和回归分析等分析方法,对收集的数据进行处理与分析,提取有价值的信息,发挥数据的作用,得到一个特征统计量结果的过程。;数据分析的流程;需求分析一词来源于产品设计,主要是指从用户提出的需求出发,挖掘用户内心的真实意图,并转化为产品需求的过程。产品设计的第一步就是需求分析,也是非常关键的一步,因为需求分析决定了产品方向。

错误的需求分析可能导致产品在实现过程中走入错误方向,甚至对企业造成损失。

数据分析中的需求分析是数据分析环节的第一步,也是非常重要的一步,决定了后续的分析方向和方法。

数据分析中的需求分析的主要内容是根据业务、生产和财务等部门的需要,结合现有的数据情况,提出数据分析需求的整体分析方向、分析内容,最终和需求方达成一致意见。

;数据获取是数据分析工作的基础,是指根据需求分析的结果提取、收集数据。

数据获取主要有两种方式:网络数据与本地数据。网络数据是指存储在互联网中的各类视频、图片、语音和文字等信息。本地数据则是指存储在本地数据库中的生产、营销和财务等系统的数据。

本地数据按照数据产生的时间又可以划分为两部分,分别是历史数据与实时数据。

历史数据是指系统在运行过程中遗存下来的数据,其数据量随系统运行时间的增加而增长;实时数据是指最近一个单位时间周期(月、周、日、小时等)内产生的数据。

在数据分析过程中,具体使用哪种数据获取方式,需要依据需求分析的结果而定。;数据预处理是指对数据进行数据合并、数据清洗、数据标准化和数据变换等操作,并将数据用于分析建模的这一过程的总称。

其中,数据合并可以将多张互相关联的表格合并为一张;

数据清洗可以去除重复、缺失、异常、不一致的数据;

数据标准化可以去除特征间的量纲差异;

数据变换则可以通过离散化、哑变量处理等技术满足后期分析与建模的数据要求。

在数据分析的过程中,数据预处理的各个过程互相交叉,并没有明确的先后顺序。;分析与建模是指通过对比分析、分组分析、交叉分析、回归分析等分析方法,以及聚类模型、分类模型、关联规则、智能推荐等模型与算法,发现数据中有价值的信息,并得出结论的过程。

在数据分析过程中,具体使用哪种数据获取方式,需要依据需求分析的结果而定。

分析与建模的方法按照目标不同可以分为几大类。如果分析目标是描述客户行为模式的,那么可以采用描述型数据分析方法,同时还可以考虑关联规则、序列规则和聚类模型等。

如果分析目标是量化未来一段时间内某个事件发生概率的,那么可以使用两大预测分析模型,即分类预测模型和回归预测模型。

在常见的分类预测模型中,目标特征通常为二元数据,如欺诈与否、流失与否、信用好坏等。在回归预测模型中,目标特征通常为连续型数据,常见的有股票价格预测等。

;模型评价是指对于已经建立的一个或多个模型,根据其模型的类别,使用不同的指标评价模型性能优劣的过程。

常用的聚类模型评价指标有ARI评价法(兰德系数)、AMI评价法(互信息)、V-measure评分、FMI评价法和轮廓系数等。常用的分类模型评价指标有准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1值(F1Value)、ROC和AUC等。

常用的回归模型评价指标有平均绝对误差、均方误差、中值绝对误差和可解释方差值等。

模型优化则是指模型性能在经过模型评价后已经达到了要求,但在实际生产环境应用过程中,发现模型的性能并不理想,继而对模型进行重构与优化的过程。

多数情况下,模型优化和分析与建模的过程基本一致。;部署是指将数据分析结果与结论应用至实际生产系统的过程。

根据需求的不同,部署阶段可以是一份包含了现状具体整改措施的数据分析报告,也可以是将模型部署在整个生产系统的解决方案。

在多数项目中,数据分析师提供的是一份数据分析报告或一套解决方案,实际执行与部署的是需求方。;企业使用数据分析解决不同的问题,实际应用的数据分析场景主要分为客户分析、营销分析、社交媒体分析、网络安全、设备管理、交通物流分析和欺诈行为检测7类。

客户分析主要是根据客户的基本数据信息进行商业行为分析,首先界定目标客户,根据客户的需求、目标客户的性质、所

显示全部
相似文档