文档详情

Logistic模型及建模流程概述.doc

发布:2017-05-23约9.93千字共8页下载文档
文本预览下载声明
Logistic模型及建模流程概述 Logistic模型介绍 问题的提出 在商业及金融领域中,存在这么一类问题,问题中需要被解释的目标量通常可以用YES或者NO两种取值来表示,如: 卖出了商品为YES,未卖出商品为NO; 顾客对超市的本次宣传活动做了响应为YES,没有任何响应为NO; 信用卡持卡人本月逾期付款为YES,按时还款了为NO; 等等; 对于这类问题的分析,我们不可以采用标准的线性回归对其进行建模分析,是因为 目标变量的二元分布违背了线性回归的重要假设 模型的目标是给出一个(0,1)之间的概率,而标准的线性回归模型产生的值是在这个范围之外 Logistic模型 对于上述问题,我们提出了logistic模型: Logistic模型可以保证: 值在- (和+ (之间; 估计出来的概率值在0和1之间; 与事件odds()直接相关; 可以很好地将问题转化为数学问题,并且模型结果容易解释; Logistics回归的假设 概率是自变量的logistics函数 这样得到的概率似乎没有实际意义,只是反映一种趋势,比较大时p就会比较大 取log值得到: logodds 这样可以线性化,我们把这模型称为‘linear in the log-odds’ 模型假设: 没有重要变量被忽略,不包含使得系数有偏的相关变量 不包含外来变量,包含的不相关变量会增加参数估计的标准误差,但是却不会使得系数有偏。 观测值独立 自变量的观测值没有误差 最大似然准则 抛一枚硬币10次,结果如下: T H T T T H T T T H 假设结果独立,考虑得到的结果的概率,P(T H T T T H T T T H) = P(T)P(H)P(T)P(T)P(T)P(H)P(T)P(T)P(T)P(H)=P(H)3 [1-P(H)]7 ,如果我们能计算出参数P(H)的值,就能得到掷硬币结果的概率的数值。 如果我们已知掷硬币的结果,如何得到P(H)的值呢? 假设P=P(H),y=硬币头像一面朝上的次数,n=掷硬币的次数 似然函数给出了掷硬币结果的似然值,它是P的函数; 最大似然估计指出P的最佳估计值是使得似然函数最大的值。 为了简化计算,代替最大化L(P),我们对L(P)取log值,然后取最大值,log是单调递增函数,这样使得L(P)最大的P的值也是使得log(L(P))最大的值。 最大化log似然函数,使: 解出P值: 将最大似然估计用于logistics回归 令Y=(y1,y2,y3,…,yn)是随机变量(Y1,Y2,Y3,…..Yn)的一组样本值, 然后似然函数可以写成where,但是假如样本值不独立的话,此步骤就存在问题。 对似然函数取log值,得: 令 Logistics回归的似然等式 对上式的参数取导数: 使上面两式为零,解出参数的似然估计值。 这些方程都是非线性的,所以利用迭代可以找出答案。这个过程也有可能是不收敛的。 在介绍完logistic模型后,我们开始按照数据建模的流程来对各个分析环节进行讨论。 模型设计(Model Design) 建模目标 我们在对数据做分析之前,首先需要考虑的是构造模型的商业目的所在。比如说我们针对汽车贷款的数据进行分析,是希望能够估计出每笔汽车贷款人可能会发生违约的概率,从而建立一个信贷审批的决策流程。如果没有明确模型的目的和用途,模型的构建工作就难进行下去。 除了明确建模商业目的外,我们还需要确定模型的实施事项。比如说构建好的模型是实验模型,局域范围内使用,还是全面推广;模型的使用时间是多长;……,这些问题都需要事先考虑清楚。 总的来说,我们在建模分析模型之前,需要考虑好: 我们为什么需要模型? 如何使用我们建好的模型? 谁将使用我们的模型? 模型什么时候需要? 数据 明确了建模目标之后,我们需要系统地整理我们的数据或者说样本了。 我们需要了解: 我们可能可以运用的数据有哪些; 哪些是内部数据源的数据,哪些是需要向客户索取的; 我们需要多久的数据; 数据有部分缺失怎么办; 如何抽取能够代表总体的无偏样本; 是不是每个变量都有现实意义; 我们还需要单独针对目标变量进行分析。在解决某些问题的时候,目标变量并不能很容易的明确下来,我们需要根据实际的业务经验,将数据做一些统计、变换,得到建模所需的目标变量值。 比方说,我们在预测每位汽车贷款人发生违约的概率时,我们需要实现定义哪些贷款人发生过违约,那什么样的行为才能定义为违约呢?在美国,通常定义联系9个月以上没有还款的行为定义为违约事件,在建模时,我们将这样一批样本的目标变量定义为“1”,剩余样本的目标变量定义为“0”,然后再用logisitic模型对其建模分析。 在建模过程之前,我们需
显示全部
相似文档