真实的谎言(一)强烈推荐.pptx
文本预览下载声明
数据陷阱,你中招了吗?真实的谎话〔一〕背景大数据时代下,人们更愿意用数据去说明一些问题。然而,你知道吗?这些数据也会“说谎〞。这个“谎话〞,并不是说数据是假的,这个数据是真实的,每一个事实也都是真的,但是在不知不觉中,你已经落入了它的陷阱,成功地被它欺骗了。让我们一起看看下面的“数据陷阱〞,你有没有中招~1、终究该用哪种方案治疗?如果你生病了,医生给了你两个治疗方案:A治疗方案的痊愈率是69%,B治疗方案的痊愈率是64%,你会选择哪一个?当然是A治疗方案。1、终究该用哪种方案治疗?不好意思,你选错了。看一看下面这张表,你可能就明白了。虽然治疗方案B的整体痊愈率要低于治疗方案A,但是无论是病情比较轻,还是病情比较严重,痊愈率都比A要高!2、该公司到底有没有性别歧视?这是某公司的招聘数据:大家从表格上可以看到,如果只看整体的录取率,那么男性的录取率是20%,女性的录取率是18%。根据数据我们会轻易得出结论--在招聘时该公司歧视女性。2、该公司到底有没有性别歧视?但是,如果把上面的数据按照职位拆分,再来看看招聘情况呢?整体上看确实是有性别歧视的存在,但是分开各个岗位来看,女性比男性的录取率还要高!被骗了…所以你看,数据是真实的,然而你却被它欺骗了!数据资料仿佛天然拥有最神奇的化装技巧,只要略施粉黛,就会得以巧妙的伪装。揭开神秘的面纱数据陷阱:辛普森悖论辛普森悖论这是统计学中一个经典的悖论--辛普森悖论。1951年,英国著名统计学家E.H.辛普森提出了一个统计学现象:在某个条件下的,分组分别讨论和整体合并讨论,会得出两个截然相反的结论。辛普森悖论出现这种现象的原因在于:总体和局部在构造上有很大的差异性。这也是我们经常看到的单因素和多因素关系的原因。如果我们没有认清辛普森悖论,它往往会干预我们的重大决策。比方,你是一家集团公司的总裁,在北京和上海均有业务,你要根据市场占有率情况进展重大的战略调整。两地的市场占有率如下表。所以,你会判断上海市场的业务要优于北京市场的,对么?此时,只考虑了地区的差异,把所有的数据看成了整体,看似确实是上海市场的业务优于北京市场。如果我们没有认清辛普森悖论,它往往会干预我们的重大决策。但如果考虑多因素分析,根据各项业务实际占有率,你会惊奇地发现:产品M的市场占有率,北京〔49.33%〕高于上海〔47.13%〕,产品N的市场占有率,北京〔40.4%〕也同样高于上海〔40%〕。破解辛普森悖论:方法一★ 在数据分析中,多多利用大数据,进展多因素分析。假设要进展相关测算,应该考虑适当的权重。例如市场占有率的案例,仔细观察北京上海的两组数据,你会发现,两个地区的业务构成比重是有所差异的。当考虑的情况太少〔如把地区看作整体〕就可能发生“辛普森悖论〞,而多因素分析考虑了多种情况〔如根据业务因素进展分组分析〕,就成功跳过了陷阱。破解辛普森悖论:方法一分析云可以帮助企业进展多因素分析,防止企业在做决策时做出错误的判断。破解辛普森悖论:方法二★ 在分组或多因素分析时,进展相关性分析,防止将统计中的偶然重合当做因果关系。就如上述第二个案例,是否男女性别差异是导致了录取结果的差异呢?这种情况,需要通过相关性分析进展进一步判断,不能轻易将统计中的偶然重合当作因果关系下结论。小结:这么一看,算术变成了魔术,数字变的有了魔力。所以,我们要练就火眼金睛,不要被“真实的谎话〞所蒙骗,陷入早已布好的陷阱中。数钥分析云,助力企业数字化转型升级!
显示全部