读书笔记2014年第1随:《赤裸裸的统计学》第1如约:《赤裸裸的统计学》

严酷的游说马上本书是当2013年12月错过新疆的飞机上开始看的,前面几节说得较粗浅,几乎没啊公式,后面读起来就是出硌不极端爱了,里面的一对统计的例证很有趣,第9、10、12回涉及到部分定义与公式,就待逐步理解了,总体看来这按照开或非常适合统计学入门,拥抱大数据时代!

第1依:《赤裸裸的统计学》

严格的游说立刻本书是于2013年12月失去新疆之机及开看之,前面几回讲得比浅显,
几乎无呀公式,后面读起来就起接触未太好了,里面的一部分统计的例子十分好玩,第9、10、12章节涉及到有些定义以及公式,就用逐步掌握了,总体看来这
本书要非常适合统计学入门,拥抱大数额时代!

第1章 统计学是那个数额时代最炙手可热的知识

修统计学的义是啊?用自己要好的话语来说,可以为咱们无深受淹没在广的数海洋遭到,而在中搜来反映该面目的法则或相关性来。

当未来10年内统计学家将见面成为“性感的事”。

笔者列举了片例来说明统计学的用:棒球选手的击球率,学生的平均成绩,用小概率事件来辨别考试作弊,吸烟与癌症来相关性吗,哪些人顶有或是恐怖分子?

统计学还像是暗访们召开的从业,数据里躲着头脑和模型,沿着这些线索以及模型,我们最终能取得有含义之下结论。

统计分析好搜寻到2独变量之间的相关关系,但切莫代表双方有因果关系。

ACTION:看看电影《犯罪现场调查:回归分析》

ACTION:看《统计数字会撒谎》

第1回 统计学是挺数额时代最炙手可热的文化

学统计学的义是啊?用自己要好的言语来说,可以为咱们无为淹没在氤氲的多少海洋中,而以其间搜有反映该面目的原理或相关性来。

于未来10年内统计学家将会见化“性感的工作”。

笔者列举了片例来说明统计学的用:棒球选手的击球率,学生的平分成绩,用小概率事件来鉴别考试作弊,吸烟与癌症来相关性吗,哪些人无比有或是恐怖分子?

统计学还像是暗访们召开的从业,数据里躲在头脑和模型,沿着这些线索和模型,我们最后会收获有意义之定论。

统计分析可以查找到2单变量之间的相干关系,但不意味着双方发生因果关系。

ACTION:看看影视《犯罪现场调查:回归分析》

ACTION:看《统计数字会撒谎》

第2章 描述统计学

当即同一节从简单的平均数(mean)的定义讲起,然后说交中位数(meadian)、百分位数,再介绍标准差(sd,standard
deviation)、方差(var,variance)。对于另外一样组数据来说,只要掌握了平均数和正式不一,我们就是会拓展简要的统计学分析,得出有些足借助之定论。

平均数很爱吃大值的打扰;中位数对好值并无灵动。

得指出的是开被的标准差公式的分母是N,而而统计数据是样本时,分母就要用N-1。

对于表2-2惨遭之首先组数字,用R语言分析一下:

a<-c(74,66,68,69,73,70)

sd(a)

会见沾3.03315,而休是书写中之2.8。

第2章 描述统计学

立马无异章节从简单的平均数(mean)的概念讲起,然后说及中位数(meadian)、百分位数,再介绍标准差(sd,standard
deviation)、方差(var,variance)。对于其他一样组数以来,只要了解了平均数和正式各异,我们虽可知进行简单的统计学分析,得出有可是
以靠的结论。

平均数很容易遭受非常值的干扰;中位数对那个值并无灵敏。

待指出的是写被的正式差公式的分母是N,而设统计数据是样本时,分母就要用N-1。

于表2-2遭到之第一组数字,用R语言分析一下:

a<-c(74,66,68,69,73,70)

sd(a)

会晤取得3.03315,而非是书中之2.8。

第3章节 统计数字会撒谎

马克吐温的相同词名言:“谎言来三种植:谎言、该生的弥天大谎,以及统计学”

小心统计陷阱。即使最精确的计还是测量都当检查一下是否适合常识。

平均数和中位数同样会为心术不凑巧之丁采取。

“某平等方针将如9200万人数大饱眼福减税待遇,人均减税超过1000首位。”小心这里的“人均”,少数之富翁会大幅减税,会拉大平均值,而大部分总人口就减税100冠。

统计的时间跨度较充分时,要考虑“通货膨胀”这个要元素。

纽约州之“记分卡”制度,对接受心脏搭桥手术的病人的死亡率进行统计,并向群众公开,以便让民众选择医生经常产生一个参考。但如此一个“好”政策,却造成了重新多病人的辞世。因为,降低死亡率的太简便易行易行的章程就是是拒绝为那些病情严重的病人动手术。

第3回 统计数字会撒谎

马克吐温的同样句名言:“谎言来三栽:谎言、该特别的假话,以及统计学”

小心统计陷阱。即使最精确的计量还是测量都应当检查一下是否顺应常识。

平均数和中位数同样会让心术不正之口利用。

“某一样策略以如9200万口大饱眼福减税待遇,人均减税超过1000处女。”小心这里的“人均”,少数之富翁会大幅减税,会牵涉大平均值,而大部分人惟有减税100头版。

统计的时间跨度较生时,要考虑“通货膨胀”这个至关重要因素。

纽约州底“记分卡”制度,对领心脏搭桥手术的患者的死亡率进行统计,并朝公众公开,以便为群众选择医生常常有一个参考。但如此一个“好”政策,却促成了更多病人的物化。因为,降低死亡率的不过简便易行易行的方法尽管是不容也那些病情严重的病人动手术。

第4回 相关性与相关系数

相关系数为一个-1届1里面的累累,负数表示因连带,0.8-1.0:极强相关,0.6-0.8:强相关,0.4-0.6:中等档次有关,0.2-0.4:弱相关,0.0-0.2:极弱相关或凭相关。

眼看无异于节后面第79页的例证,我于是R语言算了转:

height <- c(74, 66, 68, 69, 73, 70, 60, 63, 67, 70, 70, 70, 75, 62,
74)

weight <- c(193, 133, 155, 147, 175, 128, 100, 128, 170, 182, 178,
118, 227, 115, 211)

画画散点图:

plot(height, weight)

图片 1

计量相关性(这里是故之皮尔逊Pearson相关系数)

cor(height, weight)

落结果:0.8260258

得为此cor.test得到重新详细的信:

cor.test(height, weight)

结果:

        Pearson’s product-moment correlation

data:  height and weight

t = 5.2841, df = 13, p-value = 0.0001479

alternative hypothesis: true correlation is not equal to 0

95 percent confidence interval:

0.5439174 0.9403758

sample estimates:

      cor

0.8260258

 

第4回 相关性与相关系数

相关系数为一个-1至1中的再三,负数表示因连带,0.8-1.0:极强相关,0.6-0.8:强相关,0.4-0.6:中等程度有关,0.2-0.4:弱相关,0.0-0.2:极弱相关或凭相关。

立即同一节后面第79页的例证,我所以R语言算了瞬间:

height <- c(74, 66, 68, 69, 73, 70, 60, 63, 67, 70, 70, 70, 75, 62,
74)

weight <- c(193, 133, 155, 147, 175, 128, 100, 128, 170, 182, 178,
118, 227, 115, 211)

画散点图:

plot(height, weight)

图片 2

算算相关性(这里是因此之皮尔逊Pearson相关系数)

cor(height, weight)

赢得结果:0.8260258

得据此cor.test得到更详尽的消息:

cor.test(height, weight)

结果:

        Pearson’s product-moment correlation

data:  height and weight

t = 5.2841, df = 13, p-value = 0.0001479

alternative hypothesis: true correlation is not equal to 0

95 percent confidence interval:

0.5439174 0.9403758

sample estimates:

      cor

0.8260258

 

第5回 概率与希望值

事关了三只概念:概率、期望值同运气定理。

从统计学角度,购买保险是同码“糟糕的投资”,因为平均来拘禁,你开让保险企业之钱永远使于获得的赔偿多,所以仅待呢那些无法轻松承受的竟及确保。

第5段 概率与期望值

关联了三单概念:概率、期望值同命运定理。

自打统计学角度,购买保险是同起“糟糕之投资”,因为平均来拘禁,你付出让保险企业的钱永远使比获得的赔付多,所以只有待呢那些无法轻松承受之不测及包。

第6章节 蒙提•霍尔悖论

谈话了一个选1、2、3哀号门遭到大奖的诙谐之票房价值问题,你对概率的本能理解可能会见以您引入歧途。

第6章节 蒙提•霍尔悖论

说道了一个选1、2、3如泣如诉宗被大奖的趣的几率问题,你针对概率的本能理解可能会见拿你引入歧途。

第7段 黑天鹅事件

起美国金融行业风险价值VaR模型的倒,谈到部分广大的同概率有关的一无是处。

思当地当事件中无在关联。两个飞机引擎来故障可能连无是互相独立的风波。一个人家遭遇产生多由婴儿猝死案,可能不自然谋杀,而恐怕跟基因有关。

对少项事件的统计独立一无所知。“赌徒谬论”。连抛了8浅正面,下次正当的几率仍为50%。投篮里没有“手感”之说。

检方谬误的DNA的例证没看明白。

统计性歧视。男女的保险费不同等,是来自统计模型。

第7段 黑天鹅事件

自美国金融行业风险价值VaR模型的倒,谈到部分大规模的同概率有关的缪。

顾念当地当事件中无在关联。两个飞机发动机来故障或并无是相独立的事件。一个家家倍受有多从婴儿猝死案,可能未肯定谋杀,而可能与基因有关。

针对片桩事件之统计独立一无所知。“赌徒谬论”。连抛了8破正面,下次方正的概率仍为50%。投篮里没有“手感”之说。

检方谬误的DNA的事例没看明白。

统计性歧视。男女的保险费不均等,是发源统计模型。

第8节 数据和偏见

书被说了诸多种植偏见,但又实用的凡“选择性偏见”,要惦记取得一个粗略随意取样的范本并无便于。其它几种植偏见我从没呀感觉:发表性偏见、记忆性偏见、幸存者偏见、健康用户偏见。

第8段 数据及偏见

书写中说了众多种偏见,但还实惠的凡“选择性偏见”,要惦记博得一个大概随意取样的样书并无便于。其它几栽偏见我无啊感觉:发表性偏见、记忆性偏见、幸存者偏见、健康用户偏见。

第9段 中心极限定理

样本<—>总体。一个大型样本的没错抽样与那个所表示的部落在着相似关系。

样本平均值是称正态分布的。

题被第164页为起之标准误差公式是荒唐的,不掌握是翻译的荒唐或印刷的题目,少了一个除号,应该是:SE
= s / sqrt(n)

恰巧有同份孩子全都年级数学成就,全年级平均约为94细分,用R语言试试中心极限定理,可以见到样本的平均值是分布在94干。

(对于小型样本,得不交正态分布,而是t分布)

 

图片 3

# 读入成绩只是

score <- read.table(“scores.txt”, header=TRUE)

 

# 试验100次于,每次随机抽取60称学员

mean.samples <- NULL

for(i in 1:100)

    mean.samples <- c(mean.samples, mean(sample(score$math,60)))

 

hist(score$math)

hist(mean.samples)

 

第9回 中心极限定理

样本<—>总体。一个重型样本的不易抽样与那所代表的群落有在相似关系。

样本平均值是合正态分布之。

书被第164页为闹的标准误差公式是左的,不了解是翻译的荒谬或印刷的题材,少了一个除号,应该是:SE
= s / sqrt(n)

刚好有相同客孩子均年级数学成绩,全年级平均约为94分叉,用R语言试试中心极限定理,可以看到样本的平均值是遍布在94一侧。

(对于小型样本,得无顶正态分布,而是t分布)

 

图片 4

# 读入成绩仅

score <- read.table(“scores.txt”, header=TRUE)

 

# 试验100破,每次随机抽取60叫作学生

mean.samples <- NULL

for(i in 1:100)

    mean.samples <- c(mean.samples, mean(sample(score$math,60)))

 

hist(score$math)

hist(mean.samples)

 

第10节 统计测算与假设检验

统计学无法确凿地证实外事物,统计测算的力在于:先发现一些法则及结果,然后再利用概率来验证这些结果的默默最为有或的由。

零假设(也称为虚无假设,Null
Hypothesis),零假设的始末相似是梦想征其荒谬的假设。

一旦能够证实有零假使不树立,那么该相对假设(又称之为备择假设Alternative
Hypothesis)肯定啊确实。

书被关于亚特兰大统考作弊丑闻、自闭症脑量的2个例证值得看。

置信区间在一个专业不同内为68%,两独正经各异内也95,三单专业各异内哉99.7%。

图片 5

第10章节 统计测算与假设检验

统计学无法确凿地说明外事物,统计测算的力在于:先发现有些原理及结果,然后再次运概率来说明这些结果的私下最为有或的由来。

零假设(也叫做虚无假设,Null
Hypothesis),零假设的内容相似是期望征该荒谬的使。

如若能够证实某个零假要不起,那么该相对假设(又曰备择假设Alternative
Hypothesis)肯定为真正。

题中有关亚特兰大统考作弊丑闻、自闭症脑量的2只例证值得看。

置信区间在一个正规不一内也68%,两单正规不同内为95,三独规范不同内啊99.7%。

图片 6

第11节 民意测验及误差幅度

民间测验一般还见面拿走部分百分比结果。关于百分比的标准误差 = sqrt( p *
(1-p) / n),p为某种观点的比例。

中关于美国大选民意测验的例子,对咱们无什么意思,民意测验的实在挑战有少数独:设计并摘正确的范本(人群的挑、问题之选、受访者会无会见是当说假话,或是敷衍了事);用方便的艺术由该样本被获取合适的音信。

 

第11章 民意测验及误差幅度

民间测验一般还见面得有百分比结果。关于百分比的标准误差 = sqrt( p *
(1-p) / n),p为某种观点的比重。

中间关于美国大选民意测验的例证,对我们没有啊含义,民意测验的的确挑战有少只:设计并精选正确的样书(人群的取舍、问题的挑、受访者会无会见是于说假话,或是敷衍了事);用适量的计从该样本中赢得合适的音讯。

 

第12回 回归分析及线性关系

回归分析会在支配其他因素的前提下,对某具体变量和有特定结果里面的干进展量化。

当R语言中lm可以轻松地进行线性关系之拟合,我拿全年级的大体和数学成就进行线性回归分析:

phy.math <- lm(phy ~ math, score)

plot( phy.math )

汲取了几乎幅专业的图形,可惜我临时还看不晓得。

图片 7

一个经验法则:当回归系数至少是标准误差的一定量倍或上述之下,该系数极有或所有统计学意义。(还无绝知道)

本章的末梢为来一个颇有趣的统计结论:对内阁有的男还是女性来说,对工作缺乏控制力和话语权会导致心脏病。

第12段 回归分析与线性关系

回归分析会当控制其他因素的前提下,对有具体变量和某特定结果里面的涉及进展量化。

于R语言中lm可以轻松地展开线性关系的拟合,我将所有年级的物理及数学成绩进行线性回归分析:

phy.math <- lm(phy ~ math, score)

plot( phy.math )

查获了几乎帧专业的图,可惜我小还扣压无知道。

图片 8

一个经验法则:当回归系数至少是标准误差的星星倍增或以上之时节,该系数极生或具有统计学意义。(还不太明了)

本章的结尾让闹一个格外好玩的统计结论:对朝一些的阳或女性来说,对工作不够控制力和话语权会导致心脏病。

第13段 致命的回归错误

回归分析的7个常表现错:

1)用线性拟合来分析非线性关系

2)相关关系并不等于因果关系

3)因果倒置

4)遗漏了要之讲变量

5)存在高度相关的少数单说变量

6)脱离数据进行推理。忘记了前提条件或适用范围,而乱套公式。

7)数据矿(变量过多)。假如变量过多,尤其当无关变量过多之时刻,回归分析的结果虽见面叫软化或稀释。

第13段 致命之回归错误

回归分析的7单常表现错:

1)用线性拟合来分析非线性关系

2)相关涉嫌并不等于因果关系

3)因果倒置

4)遗漏了重大的分解变量

5)存在高度相关的星星独讲变量

6)脱离数据进行揣测。忘记了前提条件或适用范围,而混套公式。

7)数据矿(变量过多)。假如变量过多,尤其当无关变量过多的时段,回归分析的结果就会被软化或稀释。

第14章 项目评估与“反现实”

精心设计出同样组试并无太好。

第14章节 项目评估与“反现实”

精心设计出同样组试并无极端容易。

相关文章

admin

网站地图xml地图