由于此商品库存有限,请在下单后15分钟之内支付完成,手慢无哦!
100%刮中券,最高50元无敌券,券有效期7天
活动自2017年6月2日上线,敬请关注云钻刮券活动规则更新。
如活动受政府机关指令需要停止举办的,或活动遭受严重网络攻击需暂停举办的,或者系统故障导致的其它意外问题,苏宁无需为此承担赔偿或者进行补偿。
全新正版别怕统计学其实很简单9787301308752北京大学
¥ ×1
章 为什么要懂点统计学
1.1 这些统计问题,你会做吗 2
1.2 统计学可以帮到你 6
1.3 到底什么是统计学 10
第2章 描述统计基础
2.1 基本概念 14
2.2 数据预处理 17
. 绘制统计图表 21
第3章 推断统计基础
3.1 常见的几种概率分布 28
3.2 相关分析与回归分析基础 34
第4章 描述统计分析
4.1 描述统计分析基础 40
4.2 频数分布分析:用统计图解决伦敦霍乱 40
4.3 关注数据代表:统计学家改良轰炸机 44
4.4 异常值分析:1号店提升营销精准率 48
4.5 对比分析:折线图指导购房者寻找合算房价 52
4.6 描述统计分析概述:泰尼号生还数据 55
第5章 相关分析与回归分析
5.1 相关分析与回归分析概述 60
5.2 矩阵分解:价值百万美元的Netflix系统 61
5.3 一元线回归:引发金融危机的风险价值模型 64
5.4 评分系统:星巴克选址借力大数据 68
5.5 相关与回归概述:航空乘客数量预测 71
第6章 关联分析与聚类分析
6.1 关联分析与聚类分析概述 78
6.2 购物篮分析:啤酒与尿布的经典案例 79
6.3 序列模式挖掘:Web访问模式帮电商优化 83
6.4 快速聚类:通过分类降低客户退货率 87
6.5 层次聚类:为鸢尾花分类 91
6.6 关联与聚类综述:加州极客的聚类分析把妹法 95
第7章 决策树与模式识别
7.1 C4.5算法:电信客户流失预测 100
7.2 自组织神经网络:路径和旅行商问题 105
7.3 贝叶斯决策:的谷歌智能翻译 110
7.4 支持向量机:应用广泛的手写识别与语音识别 114
7.5 判别分析:电信行业构建客户流失模型 119
7.6 模式识别综述:日趋成熟的信用评分模型 124
第8章 更多的数据挖掘算法
8.1 核密度估计法:警务大数据预测犯罪 130
8.2 Flu Trends:“谷歌流感趋势”帮控制疫情 134
8.3 Apriori算法:透视美国国会投票模式 137
8.4 SVD简化数据:IBM软件自动生成新菜谱 142
8.5 文本分析:垃圾邮件过滤系统 146
8.6 AdaBoost元算法:侦测欺诈交易 150
章为什么要懂点统计学统计学是21世纪一门十分热门的学科,它早应用于记录、分析古希腊城邦发展情况,之后吸收了许多经典数学理论,发展成为一门独立学科。但与数学不同,统计学起源于应用,落地于应用。本章介绍了一些经典的统计学问题和统计学应用场景,概述了统计学的发展过程。
本章主要涉及的知识点这些统计问题,你会做吗统计学可以帮到你到底什么是统计学1.1这些统计问题,你会做吗离散型概率和连续型概率是统计学的基石。有许多经典的数学问题内含着统计知识。本节选择了3个典型问题,向读者详细介绍了概率是什么,以及如何在实际生活中应用它们。
1.1.1三门问题三门问题出自一美电视节目。在节目中,舞台上放着3扇关闭的门,其中一扇门后有一辆豪车,另外两扇门后分别是一头山羊。玩家选择一扇门后,主持人会在其余两扇门中打开一扇有山羊的门,并询问玩家更换选择。
请问玩家应该更换选择呢?不更换将有多大可能选中跑车?更换又有多大可能?
当主持人打开一扇有山羊的门后,留给玩家选择的是两扇关闭的门,似乎无论玩家更换选择,选中跑车的可能都是1/2,但只需具备基础的统计学知识,就可知道正确结果并非如此,当玩家不更换选择时,有/的概率选中跑车;反之,只有1/3的可能选中跑车。
不妨将3扇门分别标号,并设跑放在1号门后,此时玩家选择每扇门的可能是均等的。当玩家选择1号门时,无论主持人打开哪扇门,玩家更换选择时会选中山羊,不更换选择时会选中跑车;当玩家选择2号门时,主持人只能打开3号门,则玩家更换选择时会选中跑车,不更换选择时会选中山羊;玩家选择3号门时的情形与选择2号门时的情形类似。
表1.1列出了所有的情形及它们发生的概率。
表1.1 三门问题情况罗列玩家次选择主持人打开 玩家更换玩家第二次选择玩家选中豪车此情形发生概率1号门2号门是3号门否1/12否1号门是1/1号门是2号门否1/12否1号门是1/12号门号门是1号门是1/6否2号门否1/63号门2号门是1号门是1/6否2号门否1/6由于玩家选择1号门时,主持人既可打开2号门,又可打开3号门,并且打开这两扇门的概率相等,因此表1.1前4行的发生概率分别是1/12。而玩家选择2号门或3号门时,主持人只有一个选择,因此表1.1后4行的发生概率分别是1/6。
由表1.1即可汇总得出玩家更换选择与玩家选中豪车这两种情况的组合概率。结果如表1.2所示,玩家更换选择时选中豪车的概率是未选中豪车概率的两倍,即有/的概率选中豪车;未更换选择时选中豪车的概率是未选中豪车概率的一半,即有1/3的概率选中豪车。
表1.2 更换选择与选中豪车概率表玩家选中豪车玩家未选中豪车玩家更换选择1/31/6玩家未更换选择1/61/3三门问题的另一个解题关键便是主持人并不是随机打开一扇门的,而是一定打开一扇有山羊的门。如果读者懂得条件概率和全概率公式,就不需要罗列上述复杂表格,仅列出几个公式,便可得到正确。这两个统计知识也可以应用到许多问题上,可参阅7.3.2小节获得更详细的内容。
1.1.2“可靠”的医疗报告单将统据罗列成表格有利于概览一个事件的全貌,从而解决实际问题。不过在罗列数据时,有一些常见的谬误却是不为大众所知的。以下是两个典型例子。
已知有一种罕见疾病的发病率是1%,这种疾病的检测方法的准确率是99%,小明被检测出罹患这种疾病,请问他真正患有这种病的概率是多少?
不妨设做检查的一共有1万人,那么其中得病的人就有100人。9900个健康人去做检查时,将有99个人被检测出患病,而100个病人去做检查时会有一个人的检测结果是健康。
如表1.3所示,检测结果为患病的人总共有198人,其中有50%的人实际上是健康的,即小明实际上健康的概率是50%。与此类似,检测结果为健康的人总共有9802人,其中只有一人实际上患病,则对于检测结果为健康的人而言,检测错误的概率是0.01%。
表1.3 检测结果与真实情况统计表检测结果为患病检测结果为健康真实情况为患病991真实情况为健康999801读者可能对这个结果感到惊异。但在实际情况中,大多数医学检测的准确率都不能达到。因此对于罕见病来说,往往需要进一步的检测才能得知真的生病了。知道了这一点,也就无须对发生在身边的误诊感到诧异了。
另一个例子则与数据分组合并有关。医药公司对一种新药进行了双盲实验,实验组和对照组分别招募到120名志愿者,均划分为儿童组、少年组、成年组和老年组4个组别。结果发现单独对照各个组别时,对照组的痊愈率高于实验组,可是观察总体水平时,实验组的痊愈率又高于对照组。
表1.4所示是双盲实验具体数据。
表1.4 双盲实验具体数据实验组对照组参与人数治愈人数治愈率/%参与人数治愈人数治愈率/%儿童组602440201260少年组3093010440成年组204206010老年组1011030620合计1203831.71203428.3如表1.4所示,统据与上述奇怪现象吻合。仔细观察表1.4,不难发现实验组中儿童和少年的数量比对照组多,成年人和老年人的数量又比对照组少。由于儿童和少年的自愈能力较强,因此在合总时,实验组的治愈率也就不足为奇了。这个实验明显违反了基本的设计原则,即各个组别的人数应对等这一条件,结果掩盖了真实情况,即这种新药不但对患者无效,甚至可能有害。
提示:在实际生活中,类似的统计疏漏、错误比比皆是,有时数据处理人出于某种目的会故意误导读者。例如,出现在广告中的统据往往会经过美化。有时真实数据有较多的“陷阱”,稍微粗心便会得出错误的结论。读者可参阅第2章和第3章的内容,了解更多有关统据的秘密。第4~8章则列举了许多化腐朽为的案例。
入门级:本书是统计学入门级读物,只要读者会加、减、乘、除就能轻松掌握这门瞬间洞察因果的关键技能。 思维级:本书涉及日常生活,以及业、电商业、餐饮业、金融业、服务业和博彩业等多个行业,有平易近人、随处可见的典型案例,也有难得一见、使用高新技术的案例;有规模宏大、涉及多方资源的案例,也有见微知著、仅需少量数据的案例;有成功的案例,也有失败的案例。通过多行业、多层次、多角度的分析,读者可了解到统计学是如何在各个行业中发挥作用的,看懂各行各业数据背后的,进而用统计学的思维,做出好决策。
亲,大宗购物请点击企业用户渠道>小苏的服务会更贴心!
亲,很抱歉,您购买的宝贝销售异常火爆让小苏措手不及,请稍后再试~
非常抱歉,您前期未参加预订活动,
无法支付尾款哦!
抱歉,您暂无任性付资格