数据科学交流群,QQ群号:189158789 ,欢迎各位对数据科学感兴趣的小伙伴的加入!
此文章的目的旨在统一各种分析过程中的术语以及流程,并试图构建更为完整、更为详尽的处理流程,针对不同场景下不同规模的数据集,此框架应该根据实际情况进行适当的裁剪!!!
注意:此版本只是一个粗糙的版本,随着学习的深入,后续可能会不断更新,如果有什么问题,请在评论区留言,或者进入我新建的数据科学群一起讨论!
本节内容内容照搬CRISP-DM1.0中的内容,不过该阶段更多时候是一个仁者见仁、智者见智的状态,毕竟商业上很多知识都来自于各行业从业者或者管理者们的实践而得,没有一个统一的标准。
更多细节内容可以参照这份文档进行学习:
CRISP-DM1.0循序渐进数据挖掘指南
点击以上链接即可下载!!!
关于数据采集的方式和方法,可以参照我之前写的一篇文档:
常用的数据采集方法有哪些? - PurStar - 博客园
https://www.cnblogs.com/purstar/p/14224062.html
可以在收集数据的时候写出一份原始数据收集报告,大概内容如下:
列出获得的数据集(或多个数据集),包括它们在项目中的位置,获得的方法及遇到的问题。记录遇到的问题和解决方案有助于迁移到将来项目或者推进类似项目。 ……
描述数据可以采用如下相关的一些概念,当然根据实际情况,可能还有其他更多数据的属性可以用作描述:
数据来源(一手数据、二手数据)
数据存储(文件系统、数据库、云存储……)
数据格式(CSV、TXT、PDF、……)
数据字符编码(ASCII、UTF-8、GBK 和 GB2312、Unicode、……)
数据规模(数据规模的大小可能会决定后面数据处理或分析的工具):
数据结构类型:结构化、半结构化、非结构化(一般流程是将半结构化或者非结构化的数据转换为结构化数据再进行处理,详细概念可以参考这篇内容 数据类型的多样性:结构化数据、半结构化数据、非结构化数据 - PurStar - 博客园)
数据粒度:细化程度越高,粒度越小;细化程度越低,粒度越大。例如具体城市比省份或者国家更精细等等……
数据的精确含义:查看列或者行所代表的含义,一般数据比较大的情况下,会查看前几行或后几行等等,如果有数据字典那就更好了!
数据字典:数据字典是指对数据的数据项、数据结构、数据流、数据存储、处理逻辑等进行定义和描述。
变量类型:
数据等级的总结:
下表总结里 每个等级上可行与不可行的操作:
下表展示了每个等级上可行与不可行的统计类型:
下表显示了每个等级上可以或不可以绘制的图表:
当你拿到一个新的数据集时,下面是针对变量理解和处理的基工作流程:
(1)数据有没有组织?数据是以表格形式存在、有不同的行列,还是以非结构化的文本格式存在?
(2)每列的数据是定量的还是定性的?单元格中的数代表的是数值还是字符串?
(3)每列处于哪个等级?是定类、定序、定距,还是定比?
(4)我们可以用什么图表?条形图、饼图、茎叶图、箱型图、直方图,还是其他?
下图是对以上逻辑的可视化:
冗余变量:一般指重复或者多余的变量
完整性:取值范围、取值的一致性、异常值、整体完整性
缺省值、默认值:指一个属性、参数在被修改前的初始值。
关键字:
……
传统的多元分析方法采用的是“假定—模拟—检验”的证实性数据分析策略(confirmatory data analysis,CDA),即首先需要假设数据总体服从某种分布(如正态分布)。然而,在实际问题中有许多数据并不满足这一前提假设,因而需要使用稳健的或非参数的方法去解决。但是,但数据维数很高时,这些方法都将面临一些困难。
为了克服CDA这种分析策略所具有的一些困难,需要对数据不做假设或者只做很少的假设,进而“直观审视数据——通过计算机模拟数据结构——检验”这样一种探索性数据分析策略(exploratory data analysis,EDA)。
探索性数据分析是在尽量少的先验假定下对数据进行处理,通过作图、制表等形式以及方程拟合、计算某些特征量等手段,探索数据的结构和规律的一种数据分析方法。与证实性数据分析相比,探索性数据分析具有如下特点:
(1)研究从原始数据人手,完全以实际数据为依据,而不必对数据的分布进行假设。
(2)分析方法从实际出发,不以某种理论为依据。探索性数据分析在寻求数据内在的数量特征、数量关系和数量变化时,什么方法可以达到这一目的就采用什么方法,方法的选择完全取决于数据的特点和研究目的。
(3)分析工具简单直观,更易于普及。探索性数据分析强调直观及数据可视化,使分析者能一日了然地看出数据中隐含的有价值的信息,显示出其遵循的普遍规律及与众不同的突出特点,促进发现规律,得到启迪,满足分析者的多方而要求,这也是探索性数据分析策略对于数据分析工作的主要贡献。
1)描述集中趋势的指标:
常用的有算术均数(mean)、几何均数(geometric mean)和中位数(median)等
其中算术均数适用于正态分布和对称分布的资料;
几何均数适用于经对数转换后呈对称分布的资料,它不能用本章讲解的模块直接求出;
中位数适用于各种分布类型的资料,尤其是偏态分布资料和一端或两端无确切数值的资料。
2) 描述离散趋势的指标:
常用的有极差(range)、四分位数间距(quartile range)、方差(variance)、标准差(standard deviation)等。
极差反映一组变量值最大值和最小值之差;
四分位数间距一般和中位数一起描述偏态分布资料的分布特征;
方差和标准差只适合于正态分布的资料。
3)百分位数指标(Percentile):
是一种位置指标,适合于各种分布类型的资料。
4)描述数据分布的统计量(Distribution):
偏度系数、峰度系数。用来说明数据偏离正态分布的程度。
1)频数表:频数表是数理统计中由于所观测的数据较多,为简化计算,将这些数据按等间隔分组,然后按选举唱票法数出落在每个组内观测值的个数,称为(组)频数。
2)列联表:列联表(contingency table)是观测数据按两个或更多属性(定性变量)分类时所列出的频数表。它是由两个以上的变量进行交叉分类的频数分布表。
3)独立性检验
①卡方检验。检验多个总体比率的相等性、检验两个分类变量的独立性、检验一个总体的概率分布是否服从一个历史概率分布。
②Fisher精确检验,原假设:边界固定的列联表中行和列是相互独立的,不能用于2*2列联表。
③CMH检验的原假设是两个名义变量在第三个变量的每一层中都是条件独立的。
在完成独立性检验后,如果拒绝原假设,那么两变量之间的相关性如何?使用assocstats总体来说,较大的值意味着强的相关性。
在探究中,我们最常见的行为是对两组进行比较,如果结果变量是类别型的就使用前面学过的相关性的显著性检验进行检验,如果是连续型的并且假设其称正态分布,使用t检验。
①两组的比较
Wilcoxon秩和检验是依据两总体中位数之差的一种非参数方法,还有一种是符号检验。目的是通过中位数比较两组是否相同。
②多于两组的比较
如果没有满足方差设计的假设,Kruskal是一种在各组独立的情况下的方式,Friedman是在各组不独立时的方式。也是通过中位数进行检验。
通过以上检验虽然可以拒绝原假设,但检验并没有告诉你哪些地区显著的与其他地区不同。使用U检验可以对两组间进行比较。
③组间差异的可视化
箱线图和核密度图
降维——线性方法:
降维——非线性方法:
数据巡查
发现类——各种聚类技术……
平滑散点图
……
最有价值的图表系列
深度好文 | Matplotlib可视化最有价值的 50 个图表(附完整 Python 源代码)
http://liyangbit.com/pythonvisualization/matplotlib-top-50-visualizations/
聚类可视化:
分布图形:
多元可视化:
说明:
更为详细的内容请参考国家标准:
GB T 36344-2018 信息技术 数据质量评价指标
对总体进行逐个数据采样或记录动态过程中的每一个阶段,在大多数时候是不可能的或不合实际的。正如:
他们不能因为测试而抓获所有生物或者摧毁所有产品。
由于海量数据库和功能强大的软件的帮助,金融分析师往追踪特定股票的未来表现时,可以分析某只股票过去的每一手交易,但是他们无法对还未发生的交易进行研究。
如果我们想通过一个项目对总体或全过程做概括性总结,对样本的代表性作出合理的预期是十分关键的。无论何时,当我们依赖样本信息时,都冒着样本可能无法代表总体的风险(一般来说,我们称为抽样误差)。
统计学家对抽样样本有一些标准方法,但没有一种方法可以保证某一样本可以准确代表总体,仅有一些方法可以相对减小发生抽样误差的风险。此外,某些方法可以预测抽样误差。
如果我们能够预测风险的范围,那么我们就可以从样本中概括总体。反之,则不能!
概率抽样的类型
非概率抽样的类型
数据清洗是指发现并纠正数据文件中可识别的错误的一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。
需要着重处理以下类型的数据:
该任务包括构造性的数据准备操作,如派生属性、全新记录的生成、或现有属性的值转换。
派生属性或者数据是在原有属性和数据的基础上构建出来的。例如: area=length*width。
有时把区间值转换成离散字段(例,年龄到年龄段),有时离散字段(如, “绝对正确”, “正确”, “不知道”, “错误” )转换成数值型。这取决于建模工具或算法的要求。
生成的记录是全新的记录,它引入了新知识或表示了还没有表示过的数据,例如,已聚类的数据有助于生成一条记录来表示聚类的成员模板,以做进一步的处理。
在企业中,由于开发时间或开发部门的不同,往往有多个异构的、运行在不同的软硬件平台上的信息系统同时运行,这些系统的数据源彼此独立、相互封闭,使得数据难以在系统之间交流、共享和融合,从而形成了"信息孤岛"。随着信息化应用的不断深入,企业内部、企业与外部信息交互的需求日益强烈,急切需要对已有的信息进行整合,联通“信息孤岛”,共享信息。
数据集成:数据集成通过应用间的数据交换从而达到集成,主要解决数据的分布性和异构性的问题,其前提是被集成应用必须公开数据结构,即必须公开表结构,表间关系,编码的含义等。
实体就是名词,也就是说人名、地名、物名都是实体。在计算机领域进行实体识别是一个大活,好在我们并不想弄明白里面的机理,因而只需要清楚在数据清洗的过程中我们需要怎么对待实体即可。
例如,数据分析者或计算机如何才能确信一个数据库中的 customer_id 和另一个数据库中的 cust_number 指的是同一实体?通常,数据库和数据仓库有元数据——关于数据的数据。这种元数据可以帮助避免模式集成中的错误。
大致说来,我们需要在数据清洗的时候把两个本来不是同一个东西的实体区别开,也需要把本来是一个东西的实体对的上。大致工作有如下几项:
同名异义:例如苹果既可以代表手机也可以代表水果。再譬如姓名王伟是一个很普通的名字,但是它却表示不同的实体。
异名同义:例如我们的团队中有个“涛哥”,名字叫做“张涛”,很多场合下我们得知道这是一个人。又譬如“李白”和“李太白”指的就是一个人。又譬如我们会习惯性的给某个人加上职位性的称谓,譬如说“陈主任”、“王博士”、“周院长”等等。我们需要能够将这些称谓与之真姓名对应起来。
单位统一:用于描述同一个实体的属性有的时候可能会出现单位不统一的情况,也需要能够统一起来,譬如1200cm与1.2m,要知道计算机在进行处理的时候是没有量纲的,要么统一量纲,要么去量纲化(归一化)。
ID-Mapping:ID-Mapping实际上是一个互联网领域的术语,意思是将不同数据库或者帐号系统中的人对应起来。譬如说你办了中国移动的手机卡,他们就会知道你用的是某个手机号,而如果你使用今日头条你就会留下各种浏览新闻的痕迹,如果现在中国移动要和今日头条合作,那么就得打通两边的数据,“打通”的第一步就是知道中国移动的张三就是今日头条的张三,这个过程在当下可以通过设备的IMIS号码进行比照进行,其他的ID-Mapping需要采取不同的策略。归根到底,ID-Mapping需要的是采用唯一识别号(学号,学校-年级-班级-姓名,设备号等)进行帐号的用户匹配。这在大数据强调的数据孤岛问题解决上有着重要的意义。
数据冗余可能来源于数据属性命名的不一致,在解决数据冗余的过程中对于数值属性可以利用皮尔逊积矩Ra,b来衡量,它是一个位于[-1,1]之间的数值,大于零那么属性之间呈现正相关,否则为反相关。绝对值越大表明两者之间相关性越强。对于离散数据可以利用卡方检验来检测两个属性之间的关联。
冗余可以被相关分析检测到。例如,给定两个属性,根据可用的数据,这种分析可以度量一个属性能在多大程度上蕴涵另一个。对于标称数据,我们使用卡方检验。对于数值属性,我们使用相关系数和协方差,它们都评估一个属性的值如何随另一个变化。
成的第三个重要问题是数据值冲突的检测与处理。例如,对于现实世界的同一实体,来自不同数据源的属性值可能不同。这可能是因为表示、比例或编码不同。例如,重量属性可能在一个系统中以公制单位存放,而在另一个系统中以英制单位存放。不同旅馆的价格不仅可能涉及不同的货币,而且可能涉及不同的服务(如免费早餐)和税。数据这种语义上的异种性,是数据集成的巨大挑战。
仔细将多个数据源中的数据集成起来,能够减少或避免结果数据集中数据的冗余和不一致性。这有助于提高其后挖掘的精度和速度。
去掉数据中的噪音。这种技术包括
对数据进行汇总和聚集。例如,可以聚集日销售数据,计算月和年销售额。通常,这一步用来为多粒度数据分析构造数据方。
使用概念分层,用高层次概念替换低层次“原始”数据。例如,分类的属性,如 street,可以泛化为较高层的概念,如 city 或 country。类似地,数值属性,如 age,可以映射到较高层
概念,如 young, middle-age 和 senior。
将属性数据按比例缩放,使之落入一个小的特定区间,如-1.0 到 1.0 或 0.0 到 1.0。
可以构造新的属性并添加到属性集中,以帮助挖掘过程。
属性构造是由给定的属性构造和添加新的属性,以帮助提高精度和对高维数据结构的理解。例如,我们可能根据属性 height 和 width 添加属性 area。属性结构可以帮助平缓使用判定树算法分类的分裂问题。那里,沿着导出判定树9的一条路径重复地测试一个属性。属性构造操作符的例子包括二进位属性的 and 和名字属性的 product。通过组合属性,属性构造可以发现关于数据属性间联系
的丢失信息,这对知识发现是有用的。
如改变数据排列顺序或次序
1. 数据方聚集: 聚集操作用于数据方中的数据。
2. 维归约:可以检测并删除不相关、弱相关或冗余的属性或维。
3. 数据压缩: 使用编码机制压缩数据集。
在数据压缩时,应用数据编码或变换,以便得到原数据的归约或“压缩”表示。如果原数据可以由压缩数据重新构造而不丢失任何信息,则所使用的数据压缩技术是无损的。如果我们只能重新构造原数据的近似表示,则该数据压缩技术是有损的。有一些很好的串压缩算法。尽管它们是无损的,但它们只允许有限的数据操作。
两种有效的有损数据压缩方法:
4. 数值压缩: 用替代的、较小的数据表示替换或估计数据,如参数模型(只需要存放模型参数,而不是实际数据)或非参数方法,如聚类、选样和使用直方图。
5. 离散化和概念分层产生: 属性的原始值用区间值或较高层的概念替换。概念分层允许挖掘多个抽象层上的数据,是数据挖掘的一种强有力的工具。
特征太少,不足以描述数据,造成偏差过高;特征太多,一是增大计算成本,二是造成维度灾难(方差过高导致过拟合)。
爱因斯坦:“尽量让事情简单,但不能过于简单。”机器学习算法性能的上限,取决于特征的选择。
特征选择技术可以精简掉无用的特征,以降低最终模型的复杂性,它的最终目的是得到一个简约模型,在不降低预测准确率或对预测准确率影响不大的情况下提高计算速度。
为了得到这样的模型,有些特征选择技术需要训练不止一个待选模型。换言之,特征选择不是为了减少训练时间(实际上,一些技术会增加总体训练时间),而是为了减少模型评分时间。
粗略地说,特征选择技术可以分为以下三类。
过滤技术对特征进行预处理,以除去那些不太可能对模型有用处的特征。例如,我们可以计算出每个特征与响应变量之间的相关性或互信息,然后过滤掉那些在某个阈值之下的特征。过滤技术的成本比下面描述的打包技术低廉得多,但它们没有考虑我们要使用的模型,因此,它们有可能无法为模型选择出正确的特征。我们最好谨慎地使用预过滤技术,以免在有用特征进入到模型训练阶段之前不经意地将其删除。
这些技术的成本非常高昂,但它们可以试验特征的各个子集,这意味着我们不会意外地删除那些本身不提供什么信息但和其他特征组合起来却非常有用的特征。打包方法将模型视为一个能对推荐的特征子集给出合理评分的黑盒子。它们使用另外一种方法迭代地对特征子集进行优化。
这种方法将特征选择作为模型训练过程的一部分。例如,特征选择是决策树与生俱来的一种功能,因为它在每个训练阶段都要选择一个特征来对树进行分割。另一个例子是ℓ1 正则项,它可以添加到任意线性模型的训练目标中。 ℓ1 正则项鼓励模型使用更少的特征,而不是更多的特征,所以又称为模型的稀疏性约束。嵌入式方法将特征选择整合为模型训练过程的一部分。它们不如打包方法强大,但成本也远不如打包方法那么高。与过滤技术相比,嵌入式方法可以选择出特别适合某种模型的特征。从这个意义上说,嵌入式方法在计算成本和结果质量之间实现了某种平衡。
自己生成了一张思维导图:
数据挖掘问题类型及其技术
点击即可下载
略,可参照
CRISP-DM1.0循序渐进数据挖掘指南
点击以上链接即可下载!!!
略,可参照
CRISP-DM1.0循序渐进数据挖掘指南
点击以上链接即可下载!!
略,可参照
CRISP-DM1.0循序渐进数据挖掘指南
点击以上链接即可下载!!
略,可参照
CRISP-DM1.0循序渐进数据挖掘指南
点击以上链接即可下载!!
略,可参照
CRISP-DM1.0循序渐进数据挖掘指南
点击以上链接即可下载!!
数据科学交流群,QQ群号:189158789 ,欢迎各位对数据科学感兴趣的小伙伴的加入!