中国农村贫困家庭的识别_汪三贵 农村贫困家庭
农业技术经济 2007年第1期
中国农村贫困家庭的识别
汪三贵 王 姮 王萍萍
*
(中国人民大学农业与农村发展学院 北京 100872)(中国农业科学院农业经济与发展研究所 北京 100081)(国家统计局农村社会经济调查司 北京 100826)
内容提要 本文利用国家统计局农村贫困监测数据和计量经济模型(OLS和Logistic模型)来识别与农户贫困和家庭福利状况高度相关的预测指标。我们发现,无论是OLS模型还是Logistic模型,都可以准确预测50%以上的贫困家庭。Logistic模型在准确预测贫困家庭方面有更好的表现,在选择合适的概率切割点后,预测的准确率可以达到70%以上。我们还发现,要准确预测极端贫困人口是十分困难的。在实践中,较高的贫困线有利于提高预测和瞄准的准确性。
关键词 农村贫困 贫困瞄准 贫困识别
一、导 言
作为世界上最大的发展中国家,中国拥有数目庞大的农村贫困人口。根据官方贫困线和住户收入数据估计,2004年末农村贫困人口数约为2600万人。根据更高的贫困线(接近1天1美元的标准),贫困人口数估计为7600万人(国家统计局,2004)。尽管通过近20年来的持续经济增长以及政府部门有针对性的扶贫投资,农村减贫效果显著,但为实施更为有效的贫困干预计划,主要挑战在于如何更准确地识别穷人。由于难以获得住户层面可靠的收入和支出信息,长久以来,中国一直依赖区域瞄准(县和村)实施贫困投资项目,导致严重的覆盖不完全和漏出问题(Wang,2005)。因而,中国亟需更为简单有效的贫困瞄准方法来识别贫困户。
为瞄准贫困家庭和个体,可以利用住户调查资料和现代计量经济分析方法来建立贫困识别模型(Wardeta.l,2002)。本文讨论了该方法并试图建立中国贫困识别的模拟模型。该模拟的主要目的是在住户层面估计贫困的关联因素。为了提高实践中的可操作性,在模型中使用的预测变量都是那些容易收集的非收入和支出指标。
二、数据和方法
(一)数据
*
本文是亚洲开发银行/开发评价扶贫政策和项目效率的工具0项目(编号:RETA6073)的研究成果
)
该项研究所使用的数据为2002年中国农村贫困监测调查数据。该调查由国家统计局农村社会经济调查总队每年进行一次。由于中国农村贫困监测调查是在农村贫困地区进行的,与农村住户调查数据相比,该数据能够更好地反映贫困人口的生存条件和住户特征。同时,该调查也提供了模拟所需要的相关的项目或政策信息。
中国农村贫困监测调查所使用的问卷与中国农村住户调查类似,包括了家庭和个人的收入与支出、家庭人口特征、生产、资产、教育和就业等方面的详细信息,以及村级和家庭层面的农村基础设施和贫困项目方面的信息。自2000年起,中国农村贫困监测调查数据主要用于农村社会经济调查总队每年发布的农村贫困监测报告。
2002年中国农村贫困监测调查的样本量为50000户。排除有缺损值的样本,总样本量为45960户。为比较和检验回归的稳健性,本研究将总样本分成两个子样本。将村代码为奇数的村归入数据1,村代码为偶数的村归入数据2。通过现有的取样设计,每个贫困县随机选取5~10个贫困村,每村随机选取10户。由于村代码是随机赋给样本村的,样本分立也可以被视为是随机的。
样本分立后,数据1包含样本22845户,数据2包含样本23115户。它们的人均消费支出分别为1414.76元和1423.69元。我们针对这两套数据,寻找最佳贫困识别指标。
(二)采用的方法
在贫困识别模拟中,采用了两种计量经济模型。第一种是最常用的多元回归模型,该模型基于个人、住户和社区特征来检验住户消费与贫困的关系。其结果将识别与住户生活水平变量(如消费支出或收入)显著相关的变量。第二种为Logistic回归模型,用来预测住户为贫困户的概率。
多元线性回归模型的方程为:yi=A+Bkxki+ei
其中,yi为因变量,xki为自变量,A为模型截距,Bk为回归系数,ei为随机误差。
Logistic回归模型的方程为:ln(
n
Pi
)=A+k=E1Bkxki
1-pi
*
其中,pi=P(yi=1x1,,xni的情况下事件的发生概率。ix2,i,,xni)是在给定x1,ix2,i,发生比(事件发生概率与事件不发生概率之比)。
pi
为事件的1-pi
在两个模型的模拟中,我们利用逐步回归方法并将显著性水平设定在5%,以限制模型中最终被选出的自变量的数量。在多元回归中,使用了多种模型诊断检验。多元线性模型的检验包括正态图、异方差检验、离群点检验,以及方差膨胀因子(VIF)等。如果某个变量的方差膨胀因子大于10,该变量将从模型中被剔除。
在Logistic回归中,用拟合优度(theGoodnessofFit)来检验模型的准确性。同时也使用了Hos-mer-Lemeshow检验(Jichuan,Zhigang,2001),原因是模型中使用了许多连续的自变量使得协变类型的数量很大并接近观察值的数量,许多协变类型只有很少的观测案例从而使得D统计量和Pearson卡方不再适用于估计拟合优度。Hosmer-Lemeshow检验计算预测概率的百分比分布,即按百分等级
*
在该研究中,多元回归模型也被称为普通最小二乘法(OLS)估计
))
分成10组,然后计算Pearson卡方(Pearsonch-isquare),然后将预测值与观察值的分布频率进行比较(用2@10表格)。较低的数值(和不显著性)意味着模型对于该数据拟合较好。
为检验该方法的识别能力,本文还使用了敏感度(Sensitivity)和特异度(Specificity)检验,并通过绘图来确定最佳切割点(Cutoffpoints),横坐标为敏感度或特异度,纵坐标为事件发生概率,敏感度曲线与特异度曲线的交点为切割点。
(三)变量的识别
为从农村社会经济调查队收集的500多个指标中选择可能的自变量,我们挑选那些在理论上和经验上与家庭福利以及贫困状况相关并易于收集的变量。由于我们的目的是寻找贫困识别变量而非贫困的决定因素,因此我们没有考虑自变量的内生性。选出的变量可以大致分为5类:住户人口特征、户主特征、资产和自然资源、经营行为和服务的获得、社区特征。
在中国农村贫困监测调查中,农村社会经济调查队同时收集了住户收入和消费支出数据。然而,在多元回归中使用支出作为因变量更为合适,因为相对于收入,支出可以更好地衡量当期和长远的福利水平。其理由是个人更偏好于从时间上平滑其消费趋势,因而支出年度波动小于收入的年度波动。选择支出作为因变量的另外一个理由是在样本中,在住户生产成本高于产出时,收入就为负值。然而对于负值,无法实现对数转换。
对于Logistic回归,也是根据消费支出数据来确定二分因变量。当户人均支出低于贫困线时,该户被定为贫困户,否则为非贫困户。
用中国官方贫困线将所有样本分成贫困和非贫困两类。中国官方贫困线由农村社会经济调查总队估计,每年用该标准计算贫困人口率。中国使用两种贫困线,一种是绝对贫困线,另一种是低收入线。根据购买力平价,后者接近世界银行的1天1美元的贫困标准。中国没有根据区域价格差异对贫困线进行调整,全国采用统一的贫困线。2002年低收入线和绝对贫困线分别为869元和627元。
(四)变量的转换
为保证因变量的正态性,本研究采用了人均消费的对数形式。此外,对数变换也能显著提高模型的拟合优度。
至于自变量,采用了3种形式的转换:自然对数、平方根和倒数转换。观察每种变量的转换形式
表1 因变量的最佳转换形式自变量住房面积家中人均存粮数家中人均口粮存量家庭常住人口
转换平方根平方根平方根自然对数
*
与人均支出对数形式的散点图以及多元回归的调整拟合优度,做如表1变换,其余的变量不做变换。
三、结 果
(一)多元回归模型
表2给出了数据1的回归结果,数据2的回归结果与数据1
*
2
由于因变量不同,我们不能直接比较对数转换和没有转换模型的R2。但我们可以通过转换Yi和Yi的预测值(Y^)并利用公
^-Y)]2
[E(Yi-Y)(Yi
式:R=来计算可比的R2。我们发现取对数后回归模型的可比R2(约0.46)要大大高于没有转换的模型的
E(Yi-Y)2E(Yi-Y)2可比R2(约0.39)
)
的结果相似。对于数据1和数据2,模型中保留的变量分别解释了人均消费支出变动的46.2%和46.7%。这要高于印度尼西亚但低于越南的贫困识别模型(LinhNguyen,2005andSudarno,Sumarto,2005)。
表2 OLS逐步回归结果(因变量:人均支出的对数)
变量名称住户人口特征
age0_14age15_60age60studtIb5_2Ib5_3Ib5_4Ib5_5Ib5_6Ib5_7户主特征c4c5spousec7Ic13_2Ic13_3Ic13_4Ic13_5Ic13_6
住房及其他资产ro_n_b10b23b24b13b15b17b18b19b20b21b22b25b26b30
b31b34
住户人口特征ro_n_b73
描述
0~14岁家庭成员数15~60岁家庭成员数60岁以上家庭成员数在校学龄儿童数一家三口一家四口
父母和3个以上孩子单亲家庭三代同堂有其他亲属户主性别户主年龄
户主是否有配偶户主是否能说汉语户主受过小学教育户主受过初中教育户主受过高中教育户主受过中专教育
户主受过大专或以上教育住房面积的平方根生产经营用房面积畜棚面积
是否有大牲畜是否养羊
是否通路?1=是是否有冰箱?1=是是否有电视?1=是是否有自行车?1=是是否有摩托车?1=是是否有电话?1=是是否有汽车
是否有手扶拖拉机是否有耕牛是否有生产畜是否有厕所
家中人均存粮数的平方根
系数0.0470.1040.0950.0770.1750.2290.2160.2060.2420.210-0.066-0.0010.0.0.0.[1**********]4
标准误0.0060.0050.0070.0040.0160.0170.0190.0250.0190.0230.0170.0000.0.0.0.[1**********]2
P>|t|0.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0010.0.0.0.[1**********]0
0.1120.1810.3090.0370.0000.001-0.045-0.0340.0200.0750.0940.0220.0860.1460.0930.0350.0380.0360.0620.004
0.0140.0290.0880.0030.0000.0000.0110.0090.0070.0150.0080.0070.0100.0090.0320.0090.0110.0080.0250.000
0.000
0.0000.0000.0000.0070.0010.0000.0000.0040.0000.0000.0040.0000.0000.0040.0000.0010.0000.0130.000
))
变量名称自然资源b41landpcb45pc
b47pc
经营活动的服务的获得ln_pb3
leadbusc21cashrfuelb4b7b8
bigevent社区特征Ia1_2a6a15a20a50
a57
省虚拟变量(略)_cons
Numberofobs=22845F(72,22772)=273.58Prob>F=0.0000AdjR-squared=0.4621
描述搜集燃料是否越来越困难
人均耕地面积人均林地面积人均草场面积
家庭常住人口数的对数是否从事大规模农业生产家中是否有人从事私营活动家中是否有人外出打工
经济作物面积占总耕种面积的比率是否使用燃气是否是五保户是否参加合作医疗是否有保险
家中是否有大事发生山地
通公路的自然村数到乡镇政府的距离到附近市场的距离
村中是否发生自然灾害是否为贫困村
系数-0.0300.0070.0070.000-0.9360.0570.0890.0880.1390.032-0.150-0.0400.0600.1950.0220.0020.0010.002-0.034-0.0476.974
标准误0.0070.0010.0010.0000.0170.0180.0110.0080.0170.0070.0610.0190.0100.0080.0080.0010.0000.0000.0070.0060.053
P>|t|0.000
0.0000.0000.0000.0000.0020.0000.0000.0000.0000.0140.0410.0000.0000.0060.0220.0330.0000.0000.0000.000
如图1,使用数据1和数据2估计的残差正态或接近正态。经异方差检验证明不存在异方差,离群点对回归结果的影响不大。没有变量的VIF大于10。因此,可以视为不存在多重共线性问题,没
有变量需要被删除。
图1 OLS回归的残差分布
注:左图为数据1,右图为数据2的回归结果。纵轴为密度,横轴为残差
)
具体分析如下:(1)住户人口特征。与成员年龄处于15岁以下和60岁以上的家庭比,成员年龄在15~60岁之间的家庭,在其他条件不变的情况下,人均消费支出更多。也就是说,一个住户如果拥有年龄在15~60之间的家庭成员越多,成为贫困户的可能性就越小。其原因可能是与儿童和老年人相比,年龄在15~60岁之间的成员获得收入的能力要更强些,因而能维持更高的消费。住户的家庭结构与其家庭成员的支出水平也存在相关关系。与其他类型家庭相比,三代同堂的家庭人均消费更高,贫困的可能性更低。在中国农村,存在三代同堂的传统家庭,这种家庭结构不仅有利于家庭储蓄,同时,年青人的农业和非农收入和老人的储蓄都可以在家庭成员中共享。同时,假定其他变量保持不变,学龄儿童数越多,家庭人均消费通常越高,属于贫困户的可能性就越低。与成员不得不从事农活的农村家庭相比,能供得起孩子上学的家庭相对比较富裕。(2)户主特征。户主性别和户主年龄与人均消费存在负相关的关系。这显示户主性别和年龄是对贫困人口起作用的因素之一。有趣的是,与户主没有结婚的家庭相比,户主已婚的家庭更不容易发生贫困。从教育的角度来看,受过大专或更高教育的家庭会拥有更高的人均消费,因而与低教育水平或没有受过教育的家庭相比更不容易发生贫困。这说明,中国农村教育回报可以通过提高户主能力从而提高家庭生活水平。(3)住房和其他资产。其他条件相同的情况下,拥有电话、汽车或电视的家庭通常会有更高的人均支出,与没有这些资产的家庭相比,发生贫困可能性更低。汽车可以用到农业生产等经济活动中,拥有电话和电视意味着家庭可以负担得起超过其基本需要的消费。然而保持其他变量不变,拥有大牲畜、羊可能导致更低的人均消费,贫困发生的可能性更高。一般来说,由于大牲畜的饲养周期较长,饲养这类牲畜通常意味着储蓄。然而,可用于经济活动的牲畜如耕牛将与更高的家庭人均支出相关。此外,居住面积越大、人均存粮越多的家庭人均消费更高,更不容易发生贫困。还有一些其他资产(如厕所、畜棚和畜棚面积),也与家庭的消费水平呈正相关关系。(4)自然资源。土地资源与家庭消费呈正相关关系,而由搜集燃料的困难所代表的环境恶化与家庭消费呈负相关关系。(5)经营活动和服务的获得。从事大规模农业生产经营活动,或者家庭成员做乡村干部或外出打工的家庭享有更高的消费。此外,生产更多经济作物的家庭消费更高。参加保险的、使用燃气或煤的住户,以及年内家中有大事发生的住户消费更高。然而,五保户、参加合作医疗或者有更多常住人口的家庭消费更低。(6)社区特征。许多社区指标与家庭消费有显著的相关关系。例如,贫困村的住户或者发生自然灾害区域的住户消费会更低。同时,通路与高的人均消费有很强的相关关系。
(二)OLS模型的识别能力
为检验OLS模型的识别能力,对数据1的观测对象按人均消费支出的实际值和预测值分别排序,分为3组:高1/3组、中1/3组、低1/3组。表3显示,在被识别为低1/3组的住户中,该模型准确识别了62%,其余的38%本应该属于其他两组。同时,模型准确识别了中1/3组的43%和高1/3组的66%。使用数据2的结果类似。
表3 预测支出的准确度 (%)
数据1
预测值
低1/3中1/362.1530.1130.117.75
43.27
26.62
高1/37.7326.6365.63
实际值
数据2
预测值
低1/3中1/3
低1/363.1029.71中1/3高1/3
29.197.70
45.0125.28
高1/37.1925.7967.03
低1/3
实际值
中1/3
高1/3
))
同样,为进一步检验OLS模型的识别能力,根据人均消费支出是否低于贫困线将住户分成两组:贫困组和非贫困组。若使用低收入线分组,大约贫困组51%和非贫困组的88%被准确识别。此外,使用绝对贫困线分组,98%预测值落入非贫困组。贫困组的识别准确度很低(14%),这意味着使用OLS正确识别极度贫困人口是非常困难的(见表4和5)。使用数据2得到相似的结果。
表4 以低收入线为标准识别贫困状态的准确度 (%)
数据1预测值 非贫困
实际值
非贫困贫困
87.5549.03
贫困12.4550.97
实际值
非贫困贫困
数据2
预测值非贫困87.9849.15
贫困12.0250.85
(三)Logistic回归模型
表6给出了按低收入线确定因变量后,对数据1的逐步回归结果*。正如前面所讨论的,由于一些变量是连续变量,我们用Hosmer-Lemeshow检验进行模型的拟合优度检验。该检验结果显示,数据1的X值为0.4728,数据2的X为0.1272,二者均低于预期概率,说明模型拟合良好。
贫困14.2114.71
2
2
表5 以绝对贫困线为标准识别贫困状态的准确度 (%)
数据1
预测值 非贫困
实际值
非贫困贫困
98.5198.31
贫困1.491.69
实际值
非贫困贫困
数据2
预测值非贫困85.7985.29
除了符号相反外,Logistic逐步回归的剩余变量或重要变量与OLS回归基本一致。系数为负的变量将可能
降低家庭贫困的可能性,反之亦然。在OLS回归中显著的变量,只有少数在Logistic回归中不显著。
表6 Logistic逐步回归的结果(因变量:贫困=1,非贫困=0)
变量名称家庭人口特征age0_14
age15_60age60studtlb5_2lb5_3lb5_4lb5_5lb5_6lb5_7户主特征c5spousec7lc13_3lc13_4lc13_5
lc13_6
住房和其他资产
0~14岁家庭成员数15~60岁家庭成员数60岁以上家庭成员数在校学龄儿童数三口之家
四口之家
父母和3个以上孩子单亲家庭三代同堂
其他类型家庭户主年龄
户主是否有配偶户主能否说汉语户主受过初中教育户主受过高中教育户主受过中专教育户主受过大专或以上教育
-0.173-0.377-0.346-0.320-0.762-1.052-1.008-0.859-1.178-1.0280.007-0.363-0.535-0.179-0.338-0.332-1.601
0.0380.0320.0440.0230.0960.1010.1140.1490.1150.1300.0020.0800.1120.0380.0630.1660.763
0.000
0.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0450.036
描述
系数
标准误
P>|z|
*数据2的Logistic回归结果与数据1相似,在此省略
)
变量名称ro_n_b10b23b15b17b18b19b21b22b26b31b35ro_n_b73ro_n_b75自然资源b39b41landpcb45pcb47pcb49pc
经营活动和服务的获得ln_pleadbusc21Cashrb72Fuelb7b8bigevent社区特征a6a15a50a57
省虚拟变量(略)cons
numberofobservations=22845numberofgroups=10
Hosmer-Lemeshowchi2(8)=7.61Prob>chi2=0.4728
生产用房面积是否养羊是否有收音机是否有冰箱是否有电视是否有摩托车是否有电话
描述
居住面积的平方根
系数-0.154-0.0040.220-0.109-0.214-0.384-0.391-0.555-0.107-0.182-0.169-0.0280.0090.1220.107-0.040-0.046-0.009-0.0913.803-0.398-0.509-0.6160.107-0.2260.239-0.239-0.515-0.011-0.0070.1960.199-0.316
标准误0.0170.0010.0500.0380.0900.0430.0580.0520.0520.0420.0840.0040.0040.0430.0370.0070.0120.0010.0220.1420.0660.0440.0990.0490.0410.1030.0600.0450.0040.0020.0370.0350.209
P>|z|0.0000.0000.0000.0050.0180.0000.0000.0000.0400.0000.0430.0000.0470.0050.0040.0000.0000.0000.0000.0000.0000.0000.0000.0300.0000.0200.0000.0000.0080.0020.0000.0000.130
是否有手扶拖拉机是否有生产畜是否通电
家中人均存粮的平方根家中人均口粮存量的平方根获得饮用水是否很困难搜集燃料是否越来越困难人均耕地面积人均林地面积人均草场面积人均荒地面积
家庭常住人口数的对数
家中是否有人是村干部或从事私营活动家中是否有人外出打工
经济作物面积占总耕种面积的比率自家生产粮食是否够吃是否使用燃气是否参加合作医疗是否有保险
家中是否有大事发生通公路的自然村数到乡镇政府的距离村中是否发生自然灾害是否为贫困村
))
(四)Logistic模型的识别能力
为了解模型的识别能力,要对模型产生的一些准确性指标进行检验。不同的准确性指标会随概率切割点(ProbabilityCutoffPoints)的变化而变化。表7所示为以0.5为概率切割点时的检验结果,表8所示为以最优值0.38为概率切割点时的检验结果。该最优值是通过对敏感度和特异度图的观察得到的(见图2)
。
图2 以低收入线为标准的Logistic模型的敏感度和特异度
注:左为数据1,右为数据2,纵轴为敏感度或特异度,横轴为概率切割点
表7显示了以0.5作为概率切割点,使用数据1回归的检验结果。大约56%的贫困户被准确识别,86%的非贫困户被准确识别。阳性预测值(PositivePredictiveValue)表示贫困户的正确识别比率。而阴性预测值(NegativePredictiveValue)表示非贫困户的正确识别比率。真非贫困户的假阳性比率(FalsePositiveRateforTrueNon-Poor)显示出14%的非贫困户被错误地识别为贫困户,而真贫困户的假阴性比率(FalseNegativeRateforTruePoor)显示出44%的贫困户被错误地识别为非贫困户。贫困户识别中的假阳性率(FalsePositiveRateforClassifiedPoor)显示了在所有被识别为贫困的住户中,其中33%实为非贫困户。而非贫困户识别中的假阴性率(FalseNegativeRateforClassifiedNon-Poor)显示在所有被识别为非贫困的住户中,其中21%实为贫困户。总体识别准确度(CorrectlyClassified)为75%。数据2的结果与数据1类似。
若以0.38为概率切割点,贫困户的识别准确性提高到72%。非贫困户的识别准确性降至74%。贫困户的错误识别减少的同时,非贫困户的错误识别增加。总体预测准确性变化微小,降至73%。
表7 以低收入线为标准的Logistic模型识别
贫困的准确度 (%)
敏感度特异度
阳性预测值阴性预测值
真非贫困户的假阳性比率真贫困户的假阴性比率贫困户识别中的假阳性率非贫困户识别中的假阴性率总体识别准确度 *概率切割点为0.5
数据155.5985.7366.8678.8414.44.33.21.75.2741141644
数据255.7385.9767.1379.0714.44.32.20.75.
03
27879370
敏感度特异度
阳性预测值阴性预测值
真非贫困户的假阳性比率真贫困户的假阴性比率贫困户识别中的假阳性率非贫困户识别中的假阴性率总体识别准确度 *概率切割点为0.38
表8 以低收入线为标准的Logistic模型识别
贫困的准确度 (%)
数据172.0974.1059.0583.6725.27.40.16.73.
9091953341
数据272.6175.2360.1284.2324.27.39.15.74.7739887734
)
我们还使用官方绝对贫困线来确定农户是否贫困,并进行Logistic逐步回归*,然后计算模型识别的准确度。如果以0.5作为概率切割点,只有17%的贫困家庭被准确识别(见表9)。如果以更低的概率为切割点(如0.16),更多的穷人(73%)可能被准确识别出来,但被识别穷人的错误率高达70%(见表10)。漏出问题将十分严重。最佳切割点是通过对图3敏感度和特异度图的观察得到的。
表9 以绝对贫困线为标准的Logistic模型识别
贫困的准确度 (%)
数据1
敏感度特异度阳性预测值阴性预测值
真非贫困户的假阳性比率真贫困户的假阴性比率贫困户识别中的假阳性率非贫困户识别中的假阴性率总体识别准确度 *概率切割点为0.5
17.4198.1961.2087.871.8182.5938.8012.1386.80
敏感度特异度阳性预测值阴性预测值
真非贫困户的假阳性比率真贫困户的假阴性比率贫困户识别中的假阳性率非贫困户识别中的假阴性率总体识别准确度
*概率切割点为0.
16
表10 以绝对贫困线为标准的Logistic模型识别
贫困的准确度 (%)
数据173.1774.2431.7894.4025.7626.8368.225.6074.09
四、结果与讨论
在最终选择贫困识别模型中的预测变量时,本研究只是简单地选择了在OLS和Logistic模型中都显著的那些变量。表11列出了这些能够用来识别贫困家庭的变量。
无论是多元线性回归模型还是Logistic模型,都可以准确识别50%以上的贫困户。就识别贫
图3 以官方绝对贫困线为标准的Logistic模型的
敏感度和特异度图
注:纵轴为敏感度或特异度,横轴为概率切割点
困状态而言,Logistic模型的识别能力稍好于多元线性模型。此外,Logistic模型可以灵活地选择概率切割点以提高贫困识别的准确度。这样做的成
表11 选出的与贫困相关的变量
变量名称家庭人口特征
age0_14age15_60age60studtc16laborrb5
描述
0~14岁家庭成员数15~60岁家庭成员数60岁以上家庭成员数在校学龄儿童数
家中是否有残疾的成年人?1=是,0=否劳动力占家庭成员的比率家庭结构
*回归结果在此省略
))
户主特征
c4
c5
spouse
c7
c13
住房和其他资产
n_b10
b23
b24
b13
b14
b15
b17
b18
b19
b20
b21
b22
b25
b26
b28
b29
b30
b31
b34
b35
b72
n_b73
n_b75
自然资源
landpc
b45pc
b46pc
b47pc
b49pc
b39
b41
fuel
经营活动和服务的获得
b3
Leadbus
n_p
c21
Cashr
b4户主性别,1=男,0=女户主年龄户主是否有配偶1=是,0=否户主能否说汉语1=是,0=否户主的受教育程度人均居住面积生产用房面积畜棚面积是否有大牲畜?1=是,0=否是否养猪?1=是,0=否是否养羊?1=是,0=否是否有收音机?1=是,0=否是否有冰箱?1=是,0=否是否有电视?1=是,0=否是否有自行车?1=是,0=否是否有摩托车?1=是,0=否是否有电话?1=是,0=否是否有汽车?1=是,0=否是否有手扶拖拉机?1=是,0=否是否有手推车?1=是,0=否是否有其他农具?1=是,0=否是否有耕牛?1=是,0=否是否有生产畜?1=是,0=否是否有厕所?1=是,0=否是否通电?1=是,0=否粮食是否够吃?1=是,0=否年末家中存粮(公斤/人)家中年末口粮存量(公斤/人)人均耕地面积(亩/人)人均林地面积(亩/人)人均果园面积(亩/人)人均草场面积(亩/人)人均荒地面积(亩/人)获得饮用水是否很困难?1=是,0=否搜集燃料是否越来越困难?1=是,0=否是否使用燃气?1=是,0=否是否从事大规模农业生产?1=是,0=否家中是否有人是村干部或从事私营活动?1=是,0=否家庭常住人口数家中是否有人外出打工?1=是,0=否经济作物面积占总耕种面积的比率是否是五保户,1=是,0=否)
b7
b8
bigevent
社区特征
a1
a6
a15
a20
a50
a57
pro是否参加合作医疗?1=是,0=否是否有保险?1=是,0=否家中是否有大事发生如婚礼、葬礼等1=是,0=否村地势通公路的自然村数到乡镇政府的距离(公里)到附近市场的距离(公里)村中是否发生自然灾害?1=是,0=否是否为贫困村?1=是,0=否省代码
本是错误识别增加,这将导致项目瞄准的溢出问题。从模型结果来看,绝对贫困的识别是非常困难的。
如果模型的重点是确定贫困家庭识别的准确性(即尽可能多地将贫困家庭识别出来),那么当使用低收入线时,选取0.38作为概率切割点比较合适。
参考文献
1.IsidoroP.DavidandSanguiWang(2001),EstablishingaNationalFIVIMSinChina,reportpreparedfortheFoodandAgriculturalOr-
ganization,Beijing
2.TheNationalEconomicCouncilofMalaw,itheNationalStatisticalOfficeofMalaw,iandtheInternationalFoodPolicyResearchInstitute(2001),theDeterminantsofPovertyinMalaw,imimeo
3.Nguyen,Linh(2005),IdentifyingPovertyPredictorsUsingVietnam.s(Household)LivingStandardSurvey,SocialandEnvironmentDe-partmentGeneralStatisticalOfficeofVietNam,Hano,imimeo
4.Park,Albert,SanguiWangandGuobaoWu(2002).RegionalPovertyTargetinginChina,JournalofPublicEconomics,vo.l86
5.SudarnoSumarto(2005),DevelopingProxyPredictorforConsumptionPovertyUsingIndonesianSocioeconomicSurvey(SUSENAS),theSMERUResearchInstitute,Jakarta,Indonesia,mimeo
6.Wang,JichuanandGuoZhigang(2001),LogisticRegressionModels:MethodsandApplication,HigherEducationPress,Beijing
7.Wang,Sangui(2005).PovertyTargetinginthePeople.sRepublicofChinainJohnWeiss(editor)PovertyTargetinginAsia,EdwardE-lgar,Cheltenham
8.Wang,Sangu,iLiZhouandRenRanshun(2004).The8-7NationalPovertyReductionPrograminChina:theNationalStrategyanditsImpacts,paperpreparedfortheShanghaiInternationalPovertyReductionConference,theWorldBank
9.Ward,Patrick,TrudyOwens,andGodiusKahyrara(2002),DevelopingProxyPredictorsforHouseholdExpenditureandIncomePoverty,OxfordPolicyManagement,mimeo
10.国家统计局农村社会经济调查总队.中国农村贫困监测报告2004.中国统计出版社,2004
责任编辑 吕新业))