离散因变量和受限因变量模型
通常的经济计量模型都假定因变量是连续的,但是在现实的经济决策中经常面临许多选择问题。人们需要在可供选择的有限多个方案中作出选择,与通常被解释变量是连续变量的假设相反,此时因变量只取有限多个离散的值。例如,人们对交通工具的选择:地铁、公共汽车或出租车;投资决策中,是投资股票还是房地产。以这样的决策结果作为被解释变量建立的计量经济模型,称为离散被解释变量数据计量经济学模型(modelswithdiscretedependentvariables),或者称为离散选择模型(discretechoicemodel,DCM)。
在实际中,还会经常遇到因变量受到某种限制的情况,这种情况下,取得的样本数据来自总体的一个子集,可能不能完全反映总体。这时需要建立的经济计量模型称为受限因变量模型(limiteddependentvariablemodel)。这两类模型经常用于调查数据的分析中。
§7.1二元选择模型在离散选择模型中,最简单的情形是在两个可供选择的方案中选择其一,此时被解释变量只取两个值,称为二元选择模型(binarychoicemodel)。在实际生活中,我们经常遇到二元选择问题。例如,在买车与不买车的选择中,买车记为1,不买记为0。是否买车与两类因素有关系:一类是车本身所具有的属性,如价格、型号等;另一类是决策者所具有的属性如收入水平、对车的偏好程度等。如果我们要研究是否买车与收入之间的关系,即研究具有某一收入水平的个体买车的可能性。因此,二元选择模型的目的是研究具有给定特征的个体作某种而不作另一种选择的概率。
为了深刻地理解二元选择模型,首先从最简单的线性概率模型开始讨论。线性概率模型的回归形式为:(7.1.1)其中:N是样本容量;k是解释变量个数;xj为第j个个体特征的取值。例如,x1表示收入;x2表示汽车的价格;x3表示消费者的偏好等。设yi表示取值为0和1的离散型随机变量:式(7.1.1)中ui为相互独立且均值为0的随机扰动项。7.1.1线性概率模型及二元选择模型的形式
令pi=P(yi=1),那么1-pi=P(yi=0),于是(7.1.2)又因为E(ui)=0,所以E(yi)=xi,xi=(x1i,x2i,…,xki),=(1,2,…,k),从而有下面的等式:(7.1.3)
式(7.1.3)只有当xi的取值在(0,1)之间时才成立,否则就会产生矛盾,而在实际应用时很可能超出这个范围。因此,线性概率模型常常写成下面的形式:(7.1.4)此时就可以把因变量看成是一个概率。那么扰动项的方差为:(7.1.5)或(7.1.6)
由此可以看出,误差项具有异方差性。异方差性使得参数估计不再是有效的,修正异方差的一个方法就是使用加权最小二乘估计。但是加权最小二乘法无法保证预测值ŷ在(0,1)之内,这是线性概率模型一个严重的弱点。由于上述问题,我们考虑对线性概率模型进行一些变换,由此得到下面要讨论的模型。假设有一个未被观察到的潜在变量yi*,它与xi之间具有线性关系,即(7.1.7)其中:ui*是扰动项。yi和yi*的关系如下:(7.1.8)
yi*大于临界值0时,yi=1;小于等于0时,yi=0。这里把临界值选为0,但事实上只要xi包含有常数项,临界值的选择就是无关的,所以不妨设为0。这样(7.1.9)其中:F是ui*的分布函数,要求它是一个连续函数,并且是单调递增的。因此,原始的回归模型可以看成如下的一个回归模型:(7.1.10)即yi关于它的条件均值的一个回归。
分布函数的类型决定了二元选择模型的类型,根据分布函数F的不同,二元选择模型可以有不同的类型,常用的二元选择模型如表7.1所示:表7.1常用的二元选择模型ui*对应的分布分布函数F相应的二元选择模型标准正态分布Probit模型逻辑分布Logit模型极值分布Extreme模型
二元选择模型一般采用极大似然估计。似然函数为(7.1.11)即(7.1.12)对数似然函数为(7.1.13)7.1.2二元选择模型的估计问题
对数似然函数的一阶条件为(7.1.14)其中:fi表示概率密度函数。那么如果已知分布函数和密度函数的表达式及样本值,求解该方程组,就可以得到参数的极大似然估计量。例如,将上述3种分布函数和密度函数代入式(7.1.14)就可以得到3种模型的参数极大似然估计。但是式(7.1.14)通常是非线性的,需用迭代法进行求解。二元选择模型中估计的系数不能被解释成对因变量的边际影响,只能从符号上判断。如果为正,表明解释变量越大,因变量取1的概率越大;反之,如果系数为负,表明相应的概率将越小。
例7.1二元选择模型实例考虑Greene给出的斯佩克特和马泽欧(1980)的例子,在例子中分析了某种教学方法对成绩的有效性。因变量(GRADE)代表在接受新教学方法后成绩是否改善,如果改善为1,未改善为0。解释变量(PSI)代表是否接受新教学方法,如果接受为1,不接受为0。还有对新教学方法量度的其他解释变量:平均分数(GPA)和测验得分(TUCE),来分析新的教学方法的效果。
(1)模型的估计估计二元选择模型,从EquationSpecification对话框中,选择Binary估计方法。在二元模型的设定中分为两部分。首先,在EquationSpecification区域中,键入二元因变量的名字,随后键入一列回归项。由于二元变量估计只支持列表形式的设定,所以不能输入公式。然后,在Binaryestimationmethod中选择Probit,Logit,Extremevalue选择三种估计方法的一种。以例7.1为例,对话框如图7.2所示。
图7.2二元选择模型估计对话框
例7.1的估计输出结果如下:
参数估计结果的上半部分包含与一般的回归结果类似的基本信息,标题包含关于估计方法(ML表示极大似然估计)和估计中所使用的样本的基本信息,也包括达到收敛要求的迭代次数。和计算系数协方差矩阵所使用方法的信息。在其下面显示的是系数的估计、渐近的标准误差、z-统计量和相应的概率值及各种有关统计量。
在回归结果中还提供几种似然函数:①loglikelihood是对数似然函数的最大值L(b),b是未知参数的估计值。②Avg.loglikelihood是用观察值的个数N去除以对数似然函数L(b),即对数似然函数的平均值。③Restr.Loglikelihood是除了常数以外所有系数被限制为0时的极大似然函数L(b)。④LR统计量检验除了常数以外所有系数都是0的假设,这类似于线性回归模型中的统计量,测试模型整体的显著性。圆括号中的数字表示自由度,它是该测试下约束变量的个数。
⑤Probability(LRstat)是LR检验统计量的P值。在零假设下,LR检验统计量近似服从于自由度等于检验下约束变量的个数的2分布。⑥McFaddenR-squared是计算似然比率指标,正像它的名字所表示的,它同线性回归模型中的R2是类似的。它具有总是介于0和1之间的性质。
利用式(7.1.10),分布函数采用标准正态分布,即Probit模型,例7.1计算结果为(7.1.15)z=(-2.93)(2.34)(0.62)(2.39)利用式(7.1.15)的Probit模型的系数,本例按如下公式给出新教学法对学习成绩影响的概率,当PSI=0时:(7.1.19)当PSI=1时:(7.1.20)式中测验得分TUCE取均值(21.938),平均分数GPA是按从小到大重新排序后的序列。
图7.1新教学法对学习成绩影响的概率
(2)估计选项因为我们是用迭代法求极大似然函数的最大值,所以Option选项可以从估计选项中设定估计算法与迭代限制。单击Options按钮,打开对话框如图7.3所示。图7.3Options对话框
Option对话框有以下几项设置:①稳健标准差(RobustStandardErrors)对二元因变量模型而言,EViews允许使用准-极大似然函数(Huber/White)或广义的线性模型(GLM)方法估计标准误差。察看RobustCovariance对话框,并从两种方法中选择一种。②初始值EViews的默认值是使用经验运算法则而选择出来的,适用于二元选择模型的每一种类型。③估计法则在Optimizationalgorithm一栏中选择估计的运算法则。默认地,EViews使用quadratichill-climbing方法得到参数估计。这种运算法则使用对数似然分析二次导数的矩阵来形成迭代和计算估计的系数协方差矩阵。还有另外两种不同的估计法则,Newton-Raphson也使用二次导数,BHHH使用一次导数,既确定迭代更新,又确定协方差矩阵估计。
(3)预测从方程工具栏选择Procs/Forecast(FittedProbability/Index),然后单击想要预测的对象。既可以计算拟合概率,,也可以计算指标的拟合值。像其他方法一样,可以选择预测样本,显示预测图。如果解释变量向量xt包括二元因变量yt的滞后值,选择Dynamic选项预测,EViews使用拟合值得到预测值;而选择Static选项,将使用实际的(滞后的)yt-1得到预测值。对于这种估计方法,无论预测评价还是预测标准误差通常都无法自动计算。后者能够通过使用View/CovarianceMatrix显示的系数方差矩阵,或者使用@covariance函数来计算。
可以在各种方式上使用拟合指标,举个例子,计算解释变量的边际影响。计算预测拟合的指标,并用序列xb中保存这个结果。然后生成序列@dnorm(-xb)、@dlogistic(-xb)、@dextreme(-xb),可以与估计的系数j相乘,提供一个yi的期望值对xi的第j个分量的导数的估计。(7.5.1)
(4)产生残差序列通过Procs/MakeReidualSeries选项产生下面三种残差类型中的一种类型。表7.6残差类型普通残差(Ordinary)标准化残差(Standardized)广义残差(Generalized)
§7.2排序选择模型当因变量不止是两种选择时,就要用到多元选择模型(multiplechoicemodel)。多元离散选择问题普遍存在于经济生活中。例如:(1)一个人面临多种职业选择,将可供选择的职业排队,用0,1,2,3表示。影响选择的因素有不同职业的收入、发展前景和个人偏好等;(2)同一种商品,不同的消费者对其偏好不同。例如,十分喜欢、一般喜欢、无所谓、一般厌恶和十分厌恶,分别用0,1,2,3,4表示。而影响消费者偏好的因素有商品的价格、性能、收入及对商品的需求程度等;(3)一个人选择上班时所采用的方式——自己开车,乘出租车,乘公共汽车,还是骑自行车。
上述3个例子代表了多元选择问题的不同类型。前两个例子属于排序选择问题,所谓“排序”是指在各个选择项之间有一定的顺序或级别种类。而第3个例子只是同一个决策者面临多种选择,多种选择之间没有排序,不属于排序选择问题。与一般的多元选择模型不同,排序选择问题需要建立排序选择模型(orderedchoicemodel)。下面我们主要介绍排序选择模型。
与二元选择模型类似,设有一个潜在变量yi*,是不可观测的,可观测的是yi,设yi有0,1,2,…,M等M+1个取值。(7.2.1)其中:ui*是独立同分布的随机变量,yi可以通过yi*按下式得到(7.2.2)
设ui*的分布函数为F(x),可以得到如下的概率(7.2.3)和二元选择模型一样,根据分布函数F(x)的不同可以有3种常见的模型:Probit模型、Logit模型和Extremevalue模型。仍然采用极大似然方法估计参数,需要指出的是,M个临界值c1,c2,…,cM事先也是不确定的,所以也作为参数和回归系数一起估计。
例7.2排序模型的实例在调查执政者的支持率的民意测验中,由于执政者执行了对某一收入阶层有利的政策而使得不同收入的人对其支持不同,所以收入成为决定人们是否支持的因素。通过调查取得了市民收入(INC)与支持与否(Y)的数据,其中如果选民支持则Yi取0,中立取1,不支持取2。我们选取24个样本进行排序选择模型分析。
1.模型的估计与二元选择模型类似,从主菜单中选择Objects/NewObject,并从该菜单中选择Equation选项。从EquationSpecification对话框,选择估计方法ORDERED,标准估计对话框将会改变以匹配这种设定。在EquationSpecification区域,键入排序因变量的名字,其后列出回归项。排序估计也只支持列表形式的设定,不用输入一个明确的方程。然后选择Normal,Logist,ExtremeValue三种误差分布中的一种,单击OK按钮即可。对话框如图7.4所示。
图7.4排序模型的输入对话框
例7.2估计结果如下:
有两点需要指出:首先,EViews不能把常数项和临界值区分开,因此在变量列表中设定的常数项会被忽略,即有无常数项都是等价的。其次,EViews要求因变量是整数,否则将会出现错误信息,并且估计将会停止。然而,由于我们能够在表达式中使用@round、@floor或@ceil函数自动将一个非整数序列转化成整数序列,因此这并不是一个很严格的限制。估计收敛后,EViews将会在方程窗口显示估计结果。表头包含通常的标题信息,包括假定的误差分布、估计样本、迭代和收敛信息、y的排序选择值的个数和计算系数协方差矩阵的方法。在标题信息之下是系数估计和渐近的标准误差、相应的z-统计量及概率值。然后,还给出了临界值LIMIT_1:C(2),LIMIT_2:C(3)的估计及相应的统计量。
2.常用的两个过程①MakeOrderedLimitVector产生一个临界值向量c,此向量被命名为LIMITS01,如果该名称已被使用,则命名为LIMITS02,以此类推。②MakeOrderedLimitCovarianceMatrix产生临界值向量c的估计值的协方差矩阵。命名为VLIMITS01,如果该名称已被使用,则命名为VLIMITS02,以此类推。
3.预测因为排序选择模型的因变量代表种类或等级数据,所以不能从估计排序模型中直接预测。选择Procs/MakeModel,打开一个包含方程系统的没有标题的模型窗口,单击模型窗口方程栏的Solve按钮。例7.2因变量y的拟合线性指标序列被命名为i_Y_0,拟和值落在第一类中的拟合概率被命名为Y_0_0的序列,落在第二类中的拟合概率命名为Y_1_0的序列中,落在第三类中的拟合概率命名为Y_2_0的序列中,等等。注意对每一个观察值,落在每个种类中的拟合概率相加值为1。表7.7中Y_0_0,Y_1_0,Y_2_0分别是支持、中立、不支持的概率,Y,INC是实际样本。
4.产生残差序列选择Proc/MakeResidualSeries产生广义残差序列,输入一个名字或用默认的名字,然后单击OK按钮。一个排序模型的广义残差由下式给出:(7.5.2)其中:c0=-,cM+1=。
§7.3受限因变量模型现实的经济生活中,有时会遇到这样的问题,因变量是连续的,但是受到某种限制,也就是说所得到的因变量的观测值来源于总体的一个受限制的子集,并不能完全反映总体的实际特征,那么通过这样的样本观测值来推断总体的特征就需要建立受限因变量模型(limiteddependentvariablemodels)。本节研究两类受限因变量模型,即审查回归模型(censoredregressionmodels)和截断回归模型(truncatedregressionmodels)。
7.3.1审查回归模型1.模型的形式考虑下面的潜在因变量回归模型(7.3.1)其中:是比例系数;y*是潜在变量。被观察的数据y与潜在变量y*的关系如下:(7.3.2)
换句话说,yi*的所有负值被定义为0值。我们称这些数据在0处进行了左截取(审查)(leftcensored)。而不是把观测不到的yi*的所有负值简单地从样本中除掉。此模型称为规范的审查回归模型,也称为Tobit模型。更一般地,可以在任意有限点的左边和右边截取(审查),即(7.3.3)其中:,代表截取(审查)点,是常数值。如果没有左截取(审查)点,可以设为。如果没有右截取(审查)点,可以设为。规范的Tobit模型是具有和的一个特例。
2.审查回归模型的极大似然估计与前边介绍的几个模型类似,可以采用极大似然法估计审查回归模型的参数,对数似然函数为(7.3.4)求式(7.3.4)的最大值即可得参数,的估计。这里f,F分别是u的密度函数和分布函数。
特别地,对于Tobit模型,设u~N(0,1),这时对数似然函数为(7.3.5)式(7.3.5)是由两部分组成的。第一部分对应没有限制的观测值,与经典回归的表达式是相同的;第二部分对应于受限制的观测值。因此,此似然函数是离散分布与连续分布的混合。将似然函数最大化就可以得到参数的极大似然估计。
例7.3审查模型的实例本例研究已婚妇女工作时间问题,共有50个调查数据,来自于美国国势调查局[U.S.BureauoftheCensus(CurrentPopulationSurvey,1993)],其中y表示已婚妇女工作时间,x1~x4分别表示已婚妇女的未成年子女个数、年龄、受教育的年限和丈夫的收入。只要已婚妇女没有提供工作时间,就将工作时间作零对待,符合审查回归模型的特点。
7.3.2截断回归模型截断问题,形象地说就是掐头或者去尾。即在很多实际问题中,不能从全部个体中抽取因变量的样本观测值,而只能从大于或小于某个数的范围内抽取样本的观测值,此时需要建立截断因变量模型。例如,在研究与收入有关的问题时,收入作为被解释变量。从理论上讲,收入应该是从零到正无穷,但实际中由于各种客观条件的限制,只能获得处在某个范围内的样本观测值。这就是一个截断问题。截断回归模型的形式如下:(7.3.7)其中:yi只有在时才能取得样本观测值,,为两个常数。对于截断回归模型,仍然可以采用极大似然法估计模型的参数,只不过此时极大似然估计的密度函数是条件密度。
7.5.3估计审查回归模型1.模型的估计为估计审查模型,打开Equation对话框,从EquationSpecification对话框所列估计方法中选择CENSORED估计方法。在EquationSpecification区域,输入被审查的因变量的名字及一系列回归项。审查回归模型的估计只支持列表形式的设定(图7.5)。
图7.5审查模型的估计对话框
在三种分布中选择一种作为误差项的分布,EViews提供三种可供选择的分布(表7.8)。表7.8误差项的分布StandardnormalLogisticExtremevalue(欧拉常数)还需要在DependentVariableCensoringPoints一栏提供关于被检查因变量的临界点的信息。临界点可以是数值、表达式、序列,还可以是空的。有两种情况需要考虑:①临界点对于所有个体都是已知的;②临界点只对具有审查观察值的个体是已知的。
(1)临界点对所有个体都已知按照要求在编辑栏的左编辑区(Left)和右编辑区(Right)输入临界点表达式。注意如果在编辑区域留下空白,EViews将假定该种类型的观测值没有被审查。例如,在规范的Tobit模型中,数据在0值左边审查,在0值右边不被审查。这种情况可以被指定为:左编辑区:0右编辑区:[blank]而一般的左边和右边审查由下式给出:左编辑区:右编辑区:EViews也允许更一般的设定,这时审查点已知,但在观察值之间有所不同。简单地在适当的编辑区域输入包含审查点的序列名字。
(2)临界点通过潜在变量产生并且只对被审查的观测值个体已知在一些情况下,假设临界点对于一些个体(和不是对所有的观察值都是可观察到的)是未知的,此时可以通过设置0-1虚拟变量(审查指示变量)来审查数据。EViews提供了另外一种数据审查的方法来适应这种形式。简单地,在估计对话框中选择Fieldiszero/oneindicatorofcensoring选项,然后在合适的编辑区域输入审查指示变量的序列名。对应于审查指示变量值为1的观察值要进行审查处理,而值为0的观察值不进行审查。
例如,假定我们有个人失业时间的观察值,但其中的一些观察值反映的是在取得样本时仍然继续失业的情况,这些观察值可以看作在报告值的右边审查。如果变量rcens是一个代表审查的指示变量,可以选择Fieldiszero/oneindicatorofcensoring设置,并在编辑区域输入:左编辑区:[blank]右编辑区:rcens如果数据在左边和右边都需要审查的话,对于每种形式的审查使用单独的审查指示变量:左编辑区:lcens右编辑区:rcens这里,lcens也是审查指示变量。完成模型的指定后,单击OK。EViews将会使用合适的迭代步骤估计模型的参数。
例7.3的估计结果如下:
2.模型的预测与产生残差EViews提供了预测因变量期望E(y|x,,)的选项,或预测潜在变量期望E(y*|x,,)的选项。从工具栏选择Forecast打开预测对话框。为了预测因变量的期望,应该选择Expecteddependentvariable,并输入一个序列名称用于保存输出结果。为了预测潜在变量的期望,单击Index-Expectedlatentvariable,并输入一个序列的名称用于保存输出结果。潜在变量的期望E(y*|x,,)可以从如下关系中得到:(7.5.3)通过选择Procs/MakeResidualSeries,并从残差的3种类型中进行一种,可以产生审查模型的残差序列。审查模型的残差也有3种类型,与前述类似。
3.估计截断回归模型估计一个截断回归模型和估计一个审查模型遵循同样的步骤,从主菜单中选择Quick/EstimateEquation,并在EquationSpecification对话框中,选择CENSORED估计方法。出现估计审查和截断回归模型对话框。在EquationSpecification区域键入截断因变量的名称和回归项的列表,并从三种分布中选择一种作为误差项的分布。选择Truncatedsample选项估计截断模型。有几点需要补充说明:首先,截断估计只对截断点已知的模型进行估计。如果用指标指定截断点,EViews将会给出错误信息,指出这种选择是无效的。其次,如果有一些因变量的值在截断点之外,EViews将会发出错误信息。而且,EViews将会自动排除掉严格等于截断点的所有观察值。例如,如果指定零作为左截断点,如果有观察值低于零,EViews将会发出错误信息,并将排除严格等于零的任何观察值。
在实际应用中,我们应该根据要研究的变量的数据类型选择合适的模型。当因变量y表示事件发生的数目,是离散的整数,即为计数变量,并且数值较小,取零的个数多,而解释变量多为定性变量时,应该考虑应用计数模型(countmodels)。例如,一个公司提出申请的专利的数目,以及在一个固定的时间间隔内的失业人员的数目。在计数模型中应用较广泛的为泊松模型。§7.4计数模型
7.4.1泊松模型的形式与参数估计设每个观测值yi都来自一个服从参数为m(xi,)的泊松分布的总体,(7.4.1)对于泊松模型(poissonmodel),给定xi时yi的条件密度是泊松分布:(7.4.2)由泊松分布的特点,(7.4.3)参数的极大似然估计量(MLE)通过最大化如下的对数似然函数来得到:(7.4.4)
倘若条件均值函数被正确的指定且的条件分布为泊松分布,则极大似然估计量是一致的、有效的、且服从渐近正态分布。泊松假定的约束条件在经验应用中经常不成立。最重要的约束条件是式(7.4.3)中的条件均值和条件方差相等。如果这一条件被拒绝,模型就被错误设定。这里要注意泊松估计量也可以被解释成准极大似然估计量。这种结果的含义在下面讨论。
7.4.2负二项式模型的形式与参数估计对泊松模型的常用替代是使用一个负二项式(negativebinomial)分布的似然函数极大化来估计模型的参数。负二项式分布的对数似然函数如下:(7.4.5)其中:2是和参数一起估计的参数。当数据过度分散时,经常使用负二项式分布,这样条件方差大于条件均值,由于下面的矩条件成立:(7.4.6)(7.4.7)因此,2测量了条件方差超过条件均值的程度。
7.4.3准-极大似然估计如果因变量的分布不能被假定为泊松分布,那么就要在其他分布假定之下执行准-极大似然估计(quasi-maximumlikelihood,QML)。即使分布被错误假定,这些准-极大似然估计量也能产生一个条件均值被正确设定的参数的一致估计,即对于这些QML模型,对一致性的要求是条件均值被正确设定。关于QML估计的进一步的细节参见Gourieroux,Monfort,和Trognon(1984a,1984b)。Wooldridge(1990)介绍了在估计计数模型参数时QML方法的使用。也可参见关于广义线性模型(McCullagh和Nelder,1989)的扩展的相关文献。
1.泊松准-极大似然估计如果条件均值被正确设定,泊松极大似然估计也是服从其他分布类型的数据的准-极大似然估计。它将产生参数的一致估计量。
2.指数准-极大似然估计指数分布的对数似然函数如下:(7.4.8)和其他QML估计量一样,倘若m(xi,)被正确指定,即使y的条件分布不是指数分布,指数分布的准-极大似然估计仍是一致的。
3.正态准-极大似然估计正态分布的似然函数如下:(7.4.9)对于固定的2和正确设定的m(xi,),即使分布不是正态的,正态分布的对数极大似然函数仍提供了一致的估计。
4.负二项式准-极大似然估计最大化式(7.3.12)所表示的负二项式分布的对数似然函数,对于固定的2,可以得到参数的准-极大似然估计。倘若m(xi,)被正确指定,即使y的条件分布不服从负二项式分布,这个准-极大似然估计量仍是一致的。
例7.4计数模型的实例本例研究轮船发生事故的次数与轮船的特征属性、运行时间之间的关系。因变量y表示平均每月轮船发生事故数。解释变量是轮船特征属性,包括轮船类型、建造时间、使用时期等。轮船类型有5种,分别用x1~x5表示,4个建造时间,分别用y1~y4表示,z1,z2表示两个使用时期,da表示运行时间。本例数据符合计数模型的条件,故采用泊松模型建模。注意到定性数据较多,为防止多重共线性,在引进虚拟变量时,需要人为地去掉一个。例如,轮船类型有5种x1~x5,则去掉x1,而在模型中只用其余4个变量x2~x5,同样4个建造时间y1~y4,在模型中只用其余3个变量y2~y4,两个使用时期在模型中只用z2。模型如下:(7.4.10)
7.5.4估计计数模型1.模型的估计估计一个计数模型,打开Equation对话框,然后在估计方法中选择COUNT作为估计方法。EViews显示计数模型估计对话框(图7.6)。图7.6计数模型的估计对话框
在上面的编辑区域,列出被解释变量和解释变量。必须通过列表形式指定计数模型。模型的形式如方程(7.5.4)所示:(7.5.4)在Options标签中,可以根据需要改变缺省估计的运算法则、收敛准则、初始值和计算系数协方差的方法。
EViews提供的5种计数模型的估计方法:Poisson[MLandQML];Negativebinomial[ML];Exponential[QML];Normal/NLS[QML];Negativebinomial[QML]。从上面的5种计数模型中选择一种,并且对于Negativebinomial[QML]模型需要指定一个值作为固定的方差参数。前4种方法对应4种因变量的分布,分别为泊松分布、负二项分布、指数分布和正态分布。
例7.4的估计结果如下:
写成方程如下:z=(-6.41)(-1.29)(-2.26)(-0.46)(1.13)(4.31)(4.28)(1.5)(3.13)(8.87)轮船类型对事故发生有影响,如类型是x5的系数是正的,会使事故发生的可能增加;建造时间y2~y4的系数基本是递减的,表明建造时间越长,则发生事故的可能越大;使用时期z2也对事故发生产生很大影响,使用时间越长,则发生事故的可能越大;运行时间ln(da)的系数是0.9,表明运行时间每增加1%,则发生事故数量会增加0.9%,因此对发生事故有显著的影响。
2.模型的预测与产生残差选择Forecast可以预测因变量ŷ和线性指标(xb),b是参数的估计值,二者的关系为ŷ=exp(xb)。选择ProcMakeResidualSeries,可以产生计数模型的3种类型残差,残差类型参照表7.6。