数据分析,故事

篇一:一个故事读懂数据分析的真正内涵

一个故事读懂数据分析的真正内涵】这是一个经典故事型案例,精辟展示了数据分析工作的内涵:数据分析师究竟是数羊的?分析羊的?还是帮着卖羊的?真正的数据分析师不是数羊的(发现经验,描述问题),而应该是帮着卖羊的(主动预见,解决问题,创造价值)...值得互联网行业的数据分析师深度思考(图:微软数据视界)

【牛B的数据分析师】1)精通所在领域的业务,了解容易作弊,产生问题的环节;2)适度了解主流数据分析工具,工作中交换使用,灵活自如;3)在一个好团队,有一群数据控的朋友,扯思路,聊数据;4)能对行业的发布的第三方数据,快速识别风险,并适度使用;5)有一手好的图表,演讲,撰写PPT技能。

篇二:科学史上最有名的数据分析例子

科学史上最有名的数据分析例子

开普勒三定律

数据来源:第谷?布拉赫(1546-1601,丹麦人),观察力极强的天文学家,一辈子(20年)观察记录了750颗行星资料,位置误差不超过0.67°。

观测数据可以视为实验模型。

数据处理:开普勒(1571-1630,德国人),身体瘦弱、近视又散光,不适合观天,但有一个非常聪明的数学头脑、坚韧的性格(甚至有些固执)和

坚强的信念(宇宙是一个和谐的整体),花了16年(1596-1612)研究第谷的观测数据,得到了开普勒三定律。

开普勒三定律则为唯象模型。

2.数据分析法

2.1 思想

采用数理统计方法(如回归分析、聚类分析等)或插值方法或曲线拟合方法,对已知离散数据建模。

适用范围:系统的结构性质不大清楚,无法从理论分析中得到系统的规律,也不便于类比,但有若干能表征系统规律、描述系统状态的数据可利用。

2.2 数据分析法

2.2.1 基础知识

(1)数据也称观测值,是实验、测量、观察、调查等的结果,常以数量的形式给出;

(2)数据分析(data analysis)是指分析数据的技术和理论;

(3)数据分析的目的是把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来,以找出所研究对象的内在规律;

(4)作用:在实用中,它可帮助人们作判断,以采取适当行动。

(5)实际问题所涉及的数据分为:

① 受到随机性影响(随机现象)的数据;

② 不受随机性影响(确定现象)的数据;

③ 难以确定性质的数据(如灰色数据)。

(6)数理统计学是一门以收集和分析随机数据为内容的学科,目的是对数据所来自的总体作出判断,总体有一定的概率模型,推断的结论也往往一概率的形式表达(如产品检验合格率)。

(7)探索性数据分析是在尽量少的先验假定下处理数据,以表格、摘要、图示等直观的手段,探索数据的结构及检测对于某种指定模型是否有重大偏离。它可以作为进一步分析的基础,也可以对数据作出非正式的解释。实验者常常据此扩充或修改其实验方案(作图法也该法的重要方法,如饼图、直方图、条形图、走势图或插值法、曲线(面)拟合法等)。

2.2.2 典型的数据分析工作步骤

第一步:探索性数据分析

目的:通过作图、造表、用各种形式的方程拟合、计算某些特征量等手段探索规律性的可能形式,即往什么方向和用何种方式去寻找和揭示隐含在数据中的规律性。

第二步:模型选定分析

目的:在探索性分析的基础上,提出一类或几类可能的模型(如进一步确定拟合多项式(方程)的次数和各项的系数)。

第三步:推断分析

目的:通常用数理统计或其它方法对所选定的模型或估计的可靠程度或精确程度作出推断(如统计学中的假设检验、参数估计、统计推断)。

3.建模中的概率统计方法

现实世界存在确定性现象和随机现象,研究随机现象主要由随机数学来承担,随机数学包括十几个分支,但主要有概率论、数理统计、试验设计、贝叶斯

统计、随机过程、时间序列分析、马尔可夫决策、可靠性理论等。

3.1 概率统计建模基本思想

面对实际的随机现象,有两类定量方法:

(1)方法一:概率统计方法。其思想是从对随机现象的大量观察中提出相应的数学模型(即概率空间),用随机变量来描述随机现象,然后再研究这一数学模型的性质、特点(如随机变量及其分布、随机变量的数字特征等),由此来阐述随机现象的统计规律性。

(2)方法二:数理统计方法。其思想是从对随机现象的观测所得到的资料出发(在概率论的指导下)研究怎样去有效地收集、整理和分析带有随机性的数据,以对所考察的问题作出推断或预测,直至为采取一定的决策和行动提供依据和建议。

(3)概率统计分析方法建模的步骤:

【Step1】:模型的选择与建立

即确定总体的分布类型(分布函数或密度函数如二项分布、泊松分布、正态分布、?2、t、F分布等)、回归函数等,其方法为绘制频数直方图。

【Step2】:描述性统计

? 数据的收集(全面观测、抽样观测和安排特定的实验(实验设计

法、正交实验设计、回归设计、抽样检验))

? 数据的整理(数字特征和统计量,如均值、方差等)

【Step3】:统计推断

据总体模型和由样本描述分析,作出有关总体分布的某种论断,如残次品率为正态分布,常用参数估计和假设检验,或用统计软件做概率值检验。

【Step4】:统计预测

预测随机变量在未来某个时刻的值,如预测一种产品在未来三年内市场的销售量,常用回归。

【Step5】:统计决策

就是依据所做的统计推断或预测,并考虑到行动的后果(一经济损

失的形式表示),而指定的一种行动

方案。

【注意】:Step4和Step5涉及内容包含:非参数统计、多元统计分析(相关、方差、聚类、判别、因子、主成分、多维标度法、多变量的图表示法、对应分析(列联表对应分析))、序贯分析、时间序列分析和随机过程统计等。

(4)熟悉几个重要的分布:二项分布、泊松分布、正态分布、?2分布、t分布、F分布。

在数学软件中包含很多概率分布,例如在Matlab的统计工具箱(toolbox\stats)中的概率分布共有20多种,有norm--正态分布、chi2--?2分布、t--t分布、f—F分布等。工具箱对每一种分布都提供5类函数,其命令字为:

pdf-概率密度,cdf-概率分布,inv-逆概率分布,stat-均值与方差,rnd-随机数生成(可以通过help pdf 等查询命令格式)

3.2 建模中的实用概率统计方法

简单地讲,统计的任务就是从样本推断总体。样本是统计研究的主要对象,对于一次具体的试验,样本是一组数据,但它的取值是随机的,从概率论的观点可以把样本当作随机变量,而且当每个个体都是从总体中独立抽取(即个体被抽取的结果互不影响)时,样本就是一组相互独立、同分布的随

篇三:关于大数据的几个小故事

关于大数据的几个小故事

第一个故事,搜狗热词里的商机

王建锋是某综合类网站的编辑,基于访问量的考核是这个编辑每天都要面对的事情。但在每年的评比中,他都号称是PV王。原来他的秘密就是只做热点新闻。王建锋养成了看百度搜索风云榜和搜狗热搜榜的习惯,所以,他会优先挑选热情榜上的新闻事件来编辑整理,关注的人自然多。

点评:搜狗拥有输入法,搜索引擎,那些在输入法和搜索引擎上反复出现的热词,就是搜狗热搜榜的来源。通过对海量词汇的对比,找出哪些是网民关注的。这就是大数据的应用。

第二个故事,阿里云知道谁需要贷款

这是阿里人讲述的一个故事。每天,海量的交易和数据在阿里的平台上跑着,阿里通过对商户最近100天的数据分析,就能知道哪些商户可能存在资金问题,此时的阿里贷款平台就有可能出马,同潜在的贷款对象进行沟通。

点评:通常来说,数据比文字更真实,更能反映一个公司的正常运营情况。通过海量的分析得出企业的经营情况,这就是大数据的应用。

第三个故事,中移动挽留流失客户

iPhone进入中国后,铁杆的移动用户王永铭加入了联通合约机大军。由于合约机承担了大量通话内容,王永铭将全球通换成了动感地带。三个月之后,王永铭接到了中国移动的10086电话,向他介绍中移动的优惠资费活动。一位移动的工作人员称,运营商会保管用户数据,如果话费锐减,基本上就是流失先兆。点评:给数亿用户建立一个数据库,通过跟踪用户的话费消耗情况,运营商就能知道哪些用户在流失。这就是大数据的应用。

第四个故事:工薪阶层如何省小钱

上汽通用五菱股份有限公司的肖伟,是个不折不扣的网购专家。区别于菜市场的费力砍价,肖伟的作法简单多了,登陆各种比价网站,然后选择最便宜的正规店下单。

点评:比价网站通过海量的产品信息抓取,比如抓京东、天猫、易购的数据,然后将价格由低到高进行排列,这也是大数据的应用。

第五个故事:公关公司的舆情监督

这是一个离职公关人的故事。她参与和间接参与了很多危机公关事件,比如雷士照明的创始人股东之争,比如罗永浩砸西门子冰箱事件。她说,她每天的事情都是上网搜索事件的热度,然后决定下一步的动作。

点评:实际上你的每一下搜索,都是基于海量数据进行的,这实际上也是大数据的一种应用。

第六个故事:商用社交开始决定百事可乐的营销计划

这年头,广告主越来越精,他们希望花的每一分钱都有所回报。面对五花八门的营销活动,到底哪一种才是最合适的呢?百事可乐的作法很简单,它们购买了社交信息优化推广公司SocialFlow的服务,对数据进行分析,从而知道何种营销活动的传播效果更好。

点评:广告主越来越喜欢为类似Soc(原文来自:wWw.xiaOcAofANweN.coM 小 草 范 文 网:数据分析,故事)ial Flow的服务付费,基于海量数据分析然后得出结论的企业营销行为,也是大数据应用。

第七个故事:每天,我们借助大数据完成微信上的互动

田宇是一个85后小姑娘,每天她用微信来记录心情,并且和网友分享图片,此外还有各种语音聊天。全国有数亿像田宇一样的人在使用微信,每天都有大数据在微信这个平台上跑着。

点评:可能你不知道,但你每天都在使用和大数据相关的工具。 第八个故事:大数据解救了每一个“地理白痴”

李小茗是个“地理白痴”,所以他下载了一个高德地图。没有安装导航的原因,是因为这一产品付费,且占据了超过3G的内存。只要花一点流量,李小茗就能在地图上查看自己所处的位置,以及周围的建筑。

点评:虽然李小茗不知道什么是大数据,但每个在他地图屏幕上跳出来的坐标,实际上都是由大数据堆成的。