三位大数据专家10年实战经验总结大数据与机器学习实践方法与案例
从数据、基础平台、分析方法、行业应用4个维度,以场景化方式讲解数据从获取、预处理、挖掘、建模、结论分析与展现到系统应用的流程,以及机器学习的重要技术。
三位金融领域的大数据专家近10年行业实战经验总结,包含大量行业解决方案和案例,并公开源代码
本篇分为三部分,共15章的内容,由于细节内容太多了,所以小编把部分知识点截图出来粗略的介绍,每个小节里面都有更加细化的内容。
第一部分,数据与平台篇对于大部分非计算机专业出身的分析人员和业务人员来说,数据库领域的专业术语简直让人抓狂,非要搞得那么高深吗?大可不必。数据科学家是数据的应用者,以最大限度来提炼数据价值为目的,不必像数据仓库开发者那样对数据的存储、结构以及数据仓库的内生技术一清二楚,但应该站在找到数据、拼接数据、使用数据的角度,大体了解数据的分布、处理逻辑,以便为分析快速地准备素材。
第1章,数据与数据平台
本章首先将从数据的基本形态人手,介绍企业中数据的来源和表现形态;然后介绍与之相关的数据平台,并简单介绍两类应用系统。在着手处理数据之前,让我们先对数据有一个清晰的认识。
第2章,数据体系
数据的流动伴随着形态的变化(回忆数据的三种形态:生产数据、原始数据、分析数据),我们知道数据最终仍然要回归于生产系统(从生产中来,到生产中去),一切离开了生产应用的数据分析和处理都是徒劳无益的。
因此,要构建一个健康的数据体系,这个体系要像货币流通系统那样能够循环和增值,这是本章将要讨论的主题。
第3章,实战:打造数据闭环
前面两章已经介绍了数据闭环的各个主要环节和涉及的技术,本章将基于前文提出的理念和技术来实现数据闭环。按照数据的流转过程以及主要负责人的职责,整个数据闭环.将由三个环节组成。
第二部分,分析篇分析方法,是大数据的价值核心,使数据变为知识。对于数据分析师来说,任何可以对数据进行计算、分析以发现规律、提炼规则、获取知识的方法和算法都可以为我所用,包括统计学、社会学、运筹学、市场营销、数据挖掘、自然语言处理及机器学习等。本文结合银行和互联网企业的实际应用场景,介绍一些最具代表性的数据分析方法。
第4章,数据预处理
数据之于数据分析,好比食材之于烹饪,砖瓦之于高楼,其质量是否可靠,处理是否得当,将直接决定数据分析的结论是否准确可靠。在整个数据分析过程中,数据的清洗处理占据相当大的工作比重。
第5章,聚类,简单易用的客户细分方法
因此,客户细分是客户洞察、精准营销以及客户关系管理的基础,而在市场营销中,市场细分( market segmentation)、 确定目标市场( market targeting) 和市场定位( marketposition) 也是其三大理论核心。聚类分析,就是将分析对象按照相似性划分归类,同一类内的对象具有更高的相似性,不同类之间的对象存在差异,将共性和个性区分开来,与客户细分的理念可谓不谋而合。聚类,为了客户细分而生。
第6章,关联规则挖掘,发现产品加载和交叉销售机会
马克思主义认为,世界万物是联系的、发展的,并且这种联系是多样的、普遍存在的。因此,人与事物都不可能孤立存在,-件事情的发生往往会引起或伴随着另一件事情的发生。当我们发现了一-件事情时,就可以由此推测另外- -件事情的发生,当然,前提条件是我们已经掌握了哪些事情之间存在联系。这就是数据挖掘经典方法之一的关联规则挖掘的核心价值。在众多业务领域中,交叉销售是应用关联规则提升销售成功率和客户价值贡献的典范,通过发现产品或客户行为之间的关联规则,例如有些产品经常被一起购买、 代发工资日开放式理财产品旺销、购买寿险的客户往往也会购买健康险等,构建交叉销售体系,实现销售额、服务效率和客户体验的综合提升。
第7章,社交网络分析,从"关系”的角度分析问题
社交网络分析是研究一组行动者关系的方法,一组行动者可以是人、社区、群体、组织、国家等,其关系模式反映出的现象或数据是网络分析的焦点。因此,社交网络分析关注的焦点是关系和关系的模式,采用的方式和方法从概念上有别于传统的统计分析和数据处理方法。十年前,IBM公司使用这种方法研究团队建设和知识管理,在当时绝无仅有。而现在,这种分析越来越时髦,其研究思路在众多业务领域中得以应用,并成为大数据分析的重要方向。
第8章,线性回归,预测客户价值
预测分析方法有很多种,根据目标变量的类型,大体可分为两种:回归分析和分类。预测的结果如果是离散选项(比如用户会1不会购买某种产品、偏好短信/电话/微信渠道等),则通常称为分类;预测的结果如果是连续数值(比如交易量、客户价值等),则通常称为回归分析。本章将介绍统计学领域最经典的线性回归方法,随着对更多预测方法的了解,你会发现其中可看到线性回归的影子。
第9章,Logistic回归,精准营销的主要支撑算法
第10章,决策树类算法,反欺诈模型“专家’
第11章,数据可视化,是分析更是设计
本章根据笔者的实际经验,介绍图表和报告制作的一些经典规则,并结合两种个性化图形的制作方法,抛砖引玉,当Excel、Tableau等可视化工具的默认功能不支持时,应该怎样充分利用免费资源,体现出自己的个性化。
第三部分,应用篇,数据由生产系统产生后,经过数据ETL、信息统一、格式规整等过程进入分析环境,这是数据经历的第一次价值提升。在分析环境中,数据工程师对数据进行分析挖掘,从数据中进一步提炼出“价值”, 这是数据脱离生产环境后的第二次价值提升。要形成完整的数据闭环,则需要数据的第三次价值提升,即数据重新应用于生产系统,“从生产中来,到生产中去”。
过去,数据应用于生产系统一般局限于周期性的、批量性的应用,比如从大量信用卡持卡人中,通过专家规则或者数学模型筛选出一部分客户,并对这些客户进行批量营销。整个过程手工操作占了绝大部分,这并不是真正意义上的数据驱动的应用系统。
真正的数据驱动的应用系统,应该是立足于数据,使用各种自动化手段,让数据“自动”流转于各个环节,并具有灵活的可配置性(通过配置满足多种应用场景)和交互性(有Web界面可供查看,而不全是后台处理)。
第12章,标签系统
从批量处理的分析环境到偏重“点”处理(逐条)的应用系统,着重要解决的是数据处理的时效问题。当数据应用系统接收到业务请求时,系统需要快速得出结果,做出反馈。因此,效率问题是数据应用于生产面临的首要问题。
第13章,数据自助营销平台
作为数据人员,总是会被问及一个现实的问题:数据如何产生价值?很多情况下,数据通过间接的方式产生价值,而公司决策层却希望看到数据产生的直接价值,这也是很多公司对数据建设缺乏热情的重要原因。
数据产生价值的最直接途径非“数据营销”莫属,数据营销的理念已经提出了很多年,几乎每个公司的领导层都曾可能在会议上提及“数据营销”的概念,但要真正实现数据营销,并不像想象中的那么轻松。
实际上,“数据营销”已经可以算是数据应用的高级形式了,首先必须有一个可靠且高效的数据基础平台,其次要有具备成熟经验的数据挖掘和数据建模团队,最后还要有系统开发应用团队。
当公司具备充分条件时,再来看数据营销,将是一件水到渠成的事情。当然,数据营销同样应该系统化、自动化,这是数据应用系统的又-一个实证。
第14章,基于Mahout的个性化推荐系统
学习本章,你不需要掌握那些“高深”的数学知识,甚至不需要知晓推荐算法的具体细节,因为这些已经被Mahout封装在各个java类中,你所要具备的是对应用场景的理解及与Mahout推荐引擎相关的知识。
第15章,图计算与社会网络
社会网络是个体之间彼此关联形成的-一个网状体系,它是-一个网状图。个体称为节点,个体之间的关联称为关系(边), 所以社会网络也可以称为关系网络。
过去,关系网络的应用范围受到很大限制。主要原因在于关系网络一般都非常庞大且复杂。传统的关系型数据库在存储多边关系时遇到了困难,同时使用传统的关系数据库范式存储关系网络,则在计算效率上出现严重缺陷,例如,要在一个存放有1000万张信用卡客户数据的数据库中,遍历所有客户的联系人网络,几乎成为一项无法完成的任务。
好在面对困难时,总会出现转机,Spark Graphx图计算引擎和Neo4j图数据库的出现,降低了关系网络的处理和应用门槛。本章使用Spark Graphx和Neo4j来处理关系网络问题,它将带给读者完全不同的畅快体验。
因文章篇幅限制,小编在这里就不做过多的介绍了。需要本【大数据与机器学习实践方法与行业案例】技术文档的小伙伴,就可以转发此文关注小编,私信小编“学习”来得到获取方式吧。
任何一家希望长久发展的公司都必须重视数据的获取、治理和运用,通过数据挖掘、机器学习、人工智能等算法从数据中攫取新的洞察力,创新商业模式、优化业务流程或打造新的核心竞争力。本书内容覆盖企业内大数据流转的主要环节,并通过翔实的案例介绍常用数据挖掘、机器学习等算法及其建模过程,对企业来说是一本最佳的实践操作指导手册。
冯炯嘉银(你我贷)副总裁,前阿里资深技术专家
“大众创业、万众创新”,经济增长点在改变,金融也在持续改革,获取更全面的客户数据,掌握从海量数据中挖掘知识宝藏、攫取洞察力的技术,是各类企业开拓金融新业态的关键。作者依托多年业务经验和专业知识,介绍了大量数据科学和分析技术的实际应用。对于那些力图将大数据转化为经营决策动力的企业,本书是最适合的操作指引。
冯超泛合金融咖啡联合创始人甲骨文(中国)大数据资深顾问