数据分析流程
目录
数据分析流程
数据介绍
数据: 数据科学(英语:Data Science),又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。 它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。 数据科学通过运用各种相关的数据来帮助非专业人士理解问题。
from IPython.display import Image from IPython.core.display import HTML Image(url= "https://images.gitbook.cn/305484d0-ddb3-11e8-a810-c56af2994f6b")
项目流程
项目介绍: 开发一套能够评价学生学习情况的软件系统
项目分析: 理解商业问题 !!1 对相应的业务有所了解 从业务中梳理出与数据工程项目有关的环节,特别是将业务中某些问题转化为数据问题。 问如下几个问题: 哪些类型的数据能够支持“过程性评价”? 通过什么渠道可以获取这些数据? 所获得的数据可靠程度如何? 理解商业问题,把通常的业务人员习惯用的描述性语言,转变为具体的科学性语言,才能对某些环节作出“数据性”回复,实现“数据驱动决策”目标。 过程性评价能够对学生的成长发展提供指导,而不是一考定终身。 学生成长发展的指标是什么?是考试成绩?心理发展?身体状况? 如果是考试成绩,是周考试成绩?月考试成绩?学期末考试成绩? 如果是心理发展,用什么量表测量?还是凭借主观观察? 如果是身体状况,又要测量哪些项目? 衡量学生发展的周期是多长?学年?学期?月?周?日?小时?每次作业? 从数据层面解决上述问题,就必须把有关数据的问题提炼出来,用准确的语言表述,然后考查业务是否能够支持这些问题
数据采集: 数据收集和前述理解商业问题,两者之间是一个互动关系。研究收集数据的方法,也是对商业问题的再度理解 数据收集还包含着从某个数据集中获得数据的含义。这里所说的数据集,包括但不限于: 数据库,包括关系型和非关系型 数据接口(API) 保存数据的文件,比如 Excel、CSV 文档等 从这些数据集中读取到数据?需要的技能应该是: 熟练使用 SQL 熟练使用某种编程语言(本达人课使用的是 Python 语言)
数据清洗 + 特征 工程: 数据采集后,了解这些数据: 对数据进行简单的描述性统计 对数据实行可视化,直观地了解数据概况 “数据可视化”的技能 + “数据清洗”和“特征工程”
结果: 数据之后,根据商业问题的目标,可以从事两个方面的具体工作: 数据分析: 应用各种数据分析的方法,最终得到一份分析报告。 分析结果,除了用数字表达之外,可视化是不可避免的 机器学习: 机器学习是另外一个专门领域,目前正火热中。 通过机器学习算法,实现对数据的分类、预测和聚类等操作,在这个过程中,也难免要用“数据可视化”表达某种结论
评估: 不论是机器学习,还是数据分析,其结果都要进行评估。 对于机器学习而言,有专门的模型评估方式。即便如此,用可视化的方式把结果表达出来,也是一种重要的手段。
总结: “数据科学”的基本概念,并简述了“数据工程”项目的基本流程,
相关推荐
茄肥猫的窝 2020-10-29
kkbb 2020-10-27
gallon00 2020-10-16
yangkang 2020-11-09
lbyd0 2020-11-17
sushuanglei 2020-11-12
85477104 2020-11-17
KANSYOUKYOU 2020-11-16
wushengyong 2020-10-28
lizhengjava 2020-11-13
星月情缘 2020-11-13
huangxiaoyun00 2020-11-13
luyong0 2020-11-08
腾讯soso团队 2020-11-06
Apsaravod 2020-11-05
PeterChangyb 2020-11-05
gaobudong 2020-11-04
wwwjun 2020-11-02