当前位置:文档之家› 基于增强回归树和Logistic回归的城市扩展驱动力分析_李春林

基于增强回归树和Logistic回归的城市扩展驱动力分析_李春林

基于增强回归树和Logistic回归的城市扩展驱动力分析_李春林
基于增强回归树和Logistic回归的城市扩展驱动力分析_李春林

第34卷第3期2014年2月

生态学报ACTA ECOLOGICA SINICA

Vol.34,No.3Feb.,2014

基金项目:国家自然科学基金资助项目(41171155);国家科技支撑计划课题资助项目(2012BAJ15B06)收稿日期:2012-00-12;

修订日期:2013-12-06

*通讯作者Corresponding author.E-mail :huym@iae.ac.cn

DOI :10.5846/stxb201212121790

李春林.刘淼,胡远满,徐岩岩,孙凤云.基于增强回归树和Logistic 回归的城市扩展驱动力分析.生态学报,

2014,34(3):727-737.Li C L ,Liu M ,Hu Y M ,Xu Y Y ,Sun F Y.Driving forces analysis of urban expansion based on boosted regression trees and Logistic regression.Acta Ecologica Sinica ,2014,34(3):727-737.

基于增强回归树和Logistic 回归的

城市扩展驱动力分析

李春林1,2

,刘

淼1,胡远满1,*,徐岩岩1,2,孙凤云

1,2(1.森林与土壤生态国家重点实验室,中国科学院沈阳应用生态研究所,沈阳

110016;

2.中国科学院大学,北京

100049)

摘要:研究城市扩展驱动力对于准确判断城市发展规律,剖析演化过程和预测城市未来扩展趋势具有重要意义,同时也能为制定合理的调控政策提供指导。以沈阳市1997—2010年城市建成区变化作为因变量,选取三大类10种驱动因子,利用增强回归树(BRT )和Logistic 回归两种方法分析影响城市扩展的主要驱动力。结果表明:(1)BRT 分析得到影响沈阳城市扩展的驱动因子从大到小依次是:距1997年城区距离、距河流距离、数字高程模型DEM 、距高速公路和铁路距离、土地利用类型、开发区规划、GDP 、人口密度、坡向和坡度;(2)Logistic 回归分析得到影响沈阳城市扩展的前8位驱动因子依次是:开发区、距1997年城区距离、DEM 、距高速公路和铁路距离、人口密度、距河流距离、农村居民点和坡度;(3)距1997年城区距离、DEM 、距高速公路和铁路距离是影响沈阳城市扩展的主要驱动力,均位于主要因子的前四位;(4)总体来说,沈阳城市扩展受邻域因子影响最大,而自然因子的影响相对较小,社会经济因子则只有开发区和农村居民点对城市扩展影响较大。关键词:城市扩展;驱动力;增强回归树;Logistic 回归;沈阳市

Driving forces analysis of urban expansion based on boosted regression trees

and Logistic regression

LI Chunlin 1,2,LIU Miao 1,HU Yuanman 1,*,XU Yanyan 1,2,SUN Fengyun 1,

2

1State Key Laboratory of Forest and Soil Ecology ,Institute of Applied Ecology ,Chinese Academy of Sciences ,Shenyang 110016,China 2University of Chinese Academy of Sciences ,Beijing 100049,China

Abstract :The rapid relentless urban area expansion has led to a series of problems in China.Many researches focused on this issue in recent years.Driving forces are the core topic in urban expansion ,as well as the basic component of modeling and predicting.It is very useful and meaningful to analyze the driving force of urban expansion ,which may provide us with a scientific basis to rationally utilize land resources ,determining the law of urban development ,researching the evolution process ,predicting the urban expansion trends ,and also providing guidance for the development of rational control policies.

The Shenyang city was chosen as study area.Eight categories of land use types were extracted from remote sensing images (1997and 2010)with ArcGIS software.Ten driving forces were chosen ,including three natural factors ,three distance factors ,four social and economic factors.which were calculated based on the land use maps ,DEM ,topographic maps ,zoning maps and the statistical yearbooks.The dependent variable was the change of built -up area of Shenyang from 1997to 2010.Boosted regression trees (BRT )is an ensemble method and is a combination of techniques between statistical and machine learning traditions that has shown to be effective to identify relationships between results and influencing

factors.Logistic regression is a method to discover the empirical relationships between a binary dependent and several independent categorical and continuous variables.BoostedRegression Trees and Logistic regression were used to analyze the main driving force of urban expansion synthetically.

The result illustrated the relative influence of driving factors was followed by distance from urban area of1997,distance from river,DEM,distance from highway and railway,land use types,development plan,GDP,population density,aspect,and slope based on BRT analysis.According to Logistic regression analysis,the relative influence of important factors was followed by development zone,distance from urban land of1997,DEM,distance from highway and railway,population density,distance from river,rural residential areas and slope.The most important driving forces affecting the expansion of Shenyang are distance from urban area of1997,DEM,distance from highway and railway.Meanwhile,they were all located in the top four of the main factors.The results revealed that the distance factors were the most important factors,and the total contribution rate of relative influence was up to61.4%.It is demonstrated distance factors are the main driving forces of urban expansion.Natural factorswere less important,but the relative influence of DEM was important,and the contribution rate was12.5%.Development zones and rural settlements are the only two factors have much influence in the socio-economic factors.

On the whole,location factors,which refer to the distance from urban land in this study,were the leading factors of urban expansion.Natural factors,such as DEM,rivers and so on,are the basis of urban development,determining the overall urban spatial form.The construction of infrastructures,such as roads and railways,are the frame of the city.The social and economic factors decided the speed of urban expansion.Urban planning and development zone construction provided the direction of urban expansion.

Key Words:urban expansion;driving forces;boosted regression trees;logistic regression;Shenyang City

城市化又称城镇化,是指人口向城市聚集的过程,这一过程包含了社会转型、人口迁移、空间扩展和经济结构转换等多方面的内容。城市扩展的动态特征深刻反映了城市化进程和城市空间结构的变化规律,是研究土地利用/覆被变化和城市化的重要组成部分[1]。因此城市扩展驱动力的研究日益成为研究的热点,这对于准确判断城市发展规律,剖析演化过程和预测城市未来扩展趋势具有重要意义,同时也能为制定合理的调控政策提供指导[2]。

城市扩展受多种因素的影响,其发展过程可能是违背自然和客观规律的。一些突变因子,如政策的变化和导向、决策者的认识和偏好、国家重大项目需求等,都对城市扩展有着决定性的作用,但这些因子具有突变性且难以预测,很难数量化表达加入模型。因此本文仅从可以预见的渐变要素出发,旨在以客观的角度对城市扩展的驱动因素进行分析。目前城市扩展驱动力研究主要是利用相关分析[3-4]、回归分析[5-8]以及定量描述[9-10]来探讨影响城市扩张的自然因素和社会经济因素。国内外学者普遍认为在长时间尺度范围上,自然环境条件对城市扩展起重要影响,但在较短时间尺度内,社会经济因素往往起重要作用[11]。

沈阳作为东北地区最大的中心城市和辽宁中部城市群的核心,很多学者对其城市扩展特点和驱动力进行了研究。刘淼等选取4类16种驱动因子,利用Logistic回归模型分析了影响辽宁中部城市群扩展的主要因素,并在此基础上用CLUE-S预测了城市群不同预案下未来扩展的方向[12]。郗凤明等分析了辽宁中部城市群的城市增长时空格局,然后利用相关分析分析了城市快速增长的主要驱动力[13]。周锐等利用遥感影像和多种指数对1985—2004年间沈阳市市区和农村建设用地扩展的时空特征、空间分异和形态变化进行分析,并探讨了其主要驱动因素[14]。张培峰等基于Barista软件,提取了沈阳市铁西区的三维高度信息,分析了1997—2008年铁西区垂直方向的扩展特征和影响其垂直扩展的社会经济因素[15]。

Logistic回归作为一种成熟的统计方法现已较多应用于城市扩展的驱动力研究中,并有CLUE-S等土地利用模型于其结合。本文引入较新的增强回归

827生态学报34卷

树方法,对沈阳市1997—2010年城市扩展的主要因素进行定量分析,能够弥补logistic 回归作为二值模型的局限。通过两种方法的对比,

寻找影响沈阳城市扩展的主要驱动力,

以期揭示城市未来扩展趋势,为城市总体规划和区域可持续发展提供决策支持。1研究区与研究方法1.1

研究区概况

沈阳市地处辽宁省中部(41?11'51?—43?02'13?N ,122?25'09?—123?48'24?E ),是辽宁省省会、东北地区最大的中心城市以及全国重要的工业基地。沈

阳市包括9个区和4个县/市,全市土地总面积12860km 2。沈阳地处长白山余脉与辽河冲积平原的过渡地带,

由东北向西南缓慢倾斜,东部属于低山丘陵区,

海拔70—200m ;西部和中部为浑河和辽河冲积平原,海拔20—40m 。该市属暖温带季风气候区,年均降水量510—680mm ,降水集中在6月—8月。本研究以沈阳市的市辖区作为研究区,包括和平区、沈河区、大东区、皇姑区、铁西区、苏家屯区、东陵区、

沈北新区和于洪区(图1)。本研究区的土地面积为3471km 2

,总人口数为515.4万人(2010年

末)

[16]

图1研究区位置图

Fig.1

Location of study area

1.2数据来源及处理

本研究使用的数据包括1997年、

2010年的Landsat TM 遥感影像、1?5万DEM 、1?5万地形图、2010年沈阳市行政区划图、沈阳市总体规划图及相关统计年鉴。

基于遥感分析软件ENVI ,以研究区1?5万地形图作为参照对原始影像进行几何精校正,误差控制在0.5个象元内。然后利用ArcGIS 软件,通过目视解译方法分别对1997年和2010年的影像进行解译,

得到两期土地利用图。根据研究目的将研究区分为水田、旱地、有林地、灌木林、草地、城镇、农村居民点和水域8种土地利用类型,

通过与实地的采样数据进行验证,解译精度分别达到88.5%和90.4%。

将两期土地利用图叠加,得到沈阳1997—2010年城市扩展区域和未扩展区域。2010年沈阳行政区划图和总体规划图通过校准,提取出沈阳市的主要道路、河流和开发区。1.3研究方法1.3.1

驱动因子

本研究选取了三类10种驱动因子,用于增强回归树和Logistic 回归分析。1)自然因子:坡度、坡向、DEM ;2)邻域因子:距河流距离、距高速公路和铁路距离、

距1997年城区距离;3)社会经济因子:GDP 、开发区规划、人口密度、土地利用类型。

本文研究的因变量是沈阳市1997—2010年城市区域的变化情况,

因此在ArcGIS 中将2010年沈阳9

273期李春林等:基于增强回归树和Logistic 回归的城市扩展驱动力分析

城区图与1997年沈阳城区图叠加,得到沈阳市1997—2010年城市变化值(即0、1值,0表示1997—2010年均为非城区区域,1表示由1997年的非城区变为2010年城区的区域)。自然因子和邻域因子是通过空间分析模块得到的,社会经济因子是将统计年鉴的数据赋值到沈阳市9个市辖区的矢量图层中,最后将每一个驱动因子转换为分辨率为30m的栅格图层。在ArcGIS平台中随机生成1万个样本点,使用随机取样是为了避免数据的空间自相关性[17]。然后将因变量和驱动因子图层所对应的值赋予点属性。将样本点的属性表导出后,进行标准化处理。最后导入R软件中进行增强回归树分析和Logistic回归分析。

1.3.2增强回归树

增强回归树(BRT)是基于分类回归树算法(CART)的一种自学习方法,该方法通过随机选择和自学习方法产生多重回归树,能够提高模型的稳定性和预测精度[18-21]。在运算过程中多次随机抽取一定量的数据,分析自变量对因变量的影响程度,剩余数据用来对拟合结果进行检验,最后对生成的多重回归取均值并输出。目前分类回归树已经被运用到物种分布模拟[22]和土地利用分类研究[23]中,都取得了较好的结果。BRT方法提高了计算结果的稳定性和精度,得出自变量对因变量的影响载荷,以及其他自变量取均值或不变的情况下,该自变量与因变量的相互关系[24]。

在R中利用ArcGIS随机取样的1万个样点数据,将沈阳1997—2010年城市变化值作为因变量,10种驱动因子作为自变量,调用Elith编写的BRT 方程包进行增强回归树分析[25]。设置学习速率为0.005,每次抽取50%的数据进行分析,50%用于训练,并进行5次交叉验证。

1.3.3Logistic回归

Logistic回归目前已被广泛的应用于土地利用变化研究中[26-27],该方法是基于数据的抽样,通过逐步回归对每一个栅格上土地利用变化的可能概率进行诊断,筛选出对土地格局影响较为显著的因素,并确定它们间定量关系和作用的相对大小,最后结果可以采用PontiusR.G提出的ROC检验进行精度评价[28-29]。

本研究利用随机取的1万个样点数据,将沈阳1997—2010年城市变化值作为因变量,10种驱动因子作为自变量,在R中做二元Logistic回归。随机取50%的数据做回归分析,剩余的50%做模型验证,最后结果进行ROC检验。

2结果与分析

2.1BRT结果与分析

在R中进行BRT运算,最终模型经过9000次分形达到最优。训练数据的相关性达到0.936,ROC 值为0.997;验证数据的相关性为0.784,ROC值为0.963。两者ROC值均大于0.8,证明BRT分析结果真实有效。

2.1.1城市扩展驱动因子分析

通过BRT分析了自然因子、邻域因子和社会经济因子对沈阳1997—2010年城市扩展的影响。图2中的柱状图表示BRT分析得到的各因子对城市扩展的影响力大小,其中影响沈阳1997—2010年城市扩展的最大因子是距1997年城区的距离,在所有10个驱动因子中,其贡献率达到32.4%。其他驱动因子从大到小依次是距河流距离、DEM、距高速公路和铁路距离、土地利用类型、开发区规划、GDP、人口密度、坡向和坡度。

通过比较可以看出,邻域因子对城市扩展的影响均较大,3个邻域因子在所有因子中分别为1、2、4位,而且其总的影响达到61.4%,也就是说邻域因子决定了研究区中非城市用地转变为城市用地的61.4%的可能性,说明城市扩展主要受邻域因子所决定。城市扩展主要以边缘增长为主,距离城市边缘越近的地方越容易发展成为城市用地。公路、铁路和河流等交通要素能有效带动周边地区的发展,从而引起沿线的城市化加速,使城市沿公路、铁路和河流方向扩展。自然因子中,只有DEM对城市扩展的影响较高,达到12.5%。坡度和坡向对城市扩展的影响作用最小,仅为2.1%和2.3%,因为本研究的时间跨度只有十几年,在较小的时间尺度内自然因子对城市扩展影响很小。社会经济因子中,土地利用类型和开发区规划的影响大于5%,分别为7.2%和5.4%,说明开发区的规划和非城市用地的土地利用类型能在一定程度上影响城市扩展的方向和速度。而GDP和人口密度对城市扩展影响较低。2.1.2特征驱动因子分析

图3是相对影响前6位驱动因子的影响力变化

037生态学报34卷

图,表示随着驱动因子取值的变动,其对城市扩展影响力的变化。其中相对影响数值大于零表示驱动因子与城市扩展是正相关,

小于零表示负相关,零值则表示两者没有相关关系。每幅图上边框的短线是十分位刻度,表示每10%数据点所处的范围

图2

各驱动因子对城市扩展的相对影响

Fig.2

Relative influence of each driving factor for urban expansion

距城区的距离反映了地理区位的重要性,根据克里斯塔勒的中心地理论,中心地和中心地周围区域是相互依赖、相互服务的,有着密切的联系。沈阳市区作为该区域的中心地,向周围区域提供所需要的货物和服务,

而中心地的影响效应随着距离的增大而减弱。从距1997年城区距离的相对影响可以看出,影响力整体是随着距离的变大而迅速减弱。在距离城区4km 以内时,距城区距离对城市扩展的影响是正相关关系,

而且距离城区越近,影响力越大。距离大于4km 后,影响变为负值,此时距离对城市扩展有限制作用。从距离城区4—18km ,相对影响力曲线先呈下降趋势,然后上升至0值附近,在10km 处曲线达到最低点,表明从4—10km 随距离变大,

距城区距离对城市扩展的限制作用也越来越大。在10—18km ,限制作用随距离变大而逐渐减弱,直至0,这是由于城市的辐射效应随距离变大而减弱,超出了城市的影响范围。距离大于18km 后,从十分位刻度可以看出,只有10%的数据在这个范围内,而且影响力曲线在0值附近,表明大于18km ,已经超出了城市的辐射效应范围,距城区的距离对城市扩展几乎没有影响。

河流对城市的产生和发展具有重要作用,如塞纳河、泰晤士河、易北河、哈德逊河和长江支持着巴黎、伦敦、汉堡、纽约和南京的城市发展。浑河作为沈阳的母亲河,是城市的重要水源和水运通道,对沈阳城市发展的有重要影响。从图中可以看出,距浑河距离小于10km 时,对城市扩展的影响为正值且影响力较大,表明河流对城市发展的影响范围约为10km 。在这个范围内,河流能为城市发展提供有利条件,

促进城市的扩展。大于10km 后,河流的促进作用会逐渐减弱。15km 后相对影响变为负值,且距离越远,负作用越强,此时距离河流过远成为了城市发展的限制因素。

自然地理条件是城市空间扩展十分重要的基础条件,

直接影响着城市扩展的潜力、方向和速度等。沈阳市属于丘陵地区,海拔较低,且地势较平坦,从DEM 图的十分位刻度也可以看出,研究区的高程主要集中在0—100m ,

DEM 大于100m 的数据只占10%,因此本文只分析小于100m 的海拔对城市扩展的影响。在DEM 为20—60m 时相对影响为正值,表明该范围内的海拔高度适合城市的发展,海拔过高或过低都会对城市扩展有限制作用。

1

373期李春林等:基于增强回归树和Logistic 回归的城市扩展驱动力分析

图3主要驱动因素对城市扩展的影响

Fig.3The influence of main driving factors of urban expansion

高速公路和铁路作为现代城市人流物流的主要运输载体,对城市扩展有一定的促进作用。从图中可以看出,在距离为3km以内时相对影响为正值,说明高速公路和铁路能带动3km范围内社会经济发展,引起城市沿高速公路和铁路沿线扩展。随着辽宁中部城市群的快速发展,作为中心城市的沈阳与其他城市的交流日益增强,因而依靠高速公路和铁路高效的物质运输和人员流动,带动了其周边的快速发展。

不同的土地利用类型反映了不同的人类活动状况。7种土地利用类型中,只有农村居民点的人类活动最强烈。特别是城乡结合部的农村居民点更容易受城市化的影响,转变为城市用地。因而图中显示其与城市扩展是正相关,而且影响力较大,说明农村居民点较容易被城镇化。有林地和草地是人类活动最少的土地利用类型,国家对这两种类型土地一般采取保护政策,往往是禁止或者限制开发的区域,因而对城市扩展有限制作用。

城市规划、产业发展政策等政府行为能决定城市发展的基本过程,如北京实行的严苛的户籍制度能限制人口的流动,从而限制城市扩展的进程。从开发区规划的相对影响可以看出,开发区对城市扩展的影响是正相关且影响力较大,表明沈阳政府的区域规划和开发区建设等政策方针对城市扩展有一定引导作用。

237生态学报34卷

2.2Logistic回归结果与分析

在10个驱动因子中,土地利用类型和开发区规划为分类变量。Logistic回归需要对分类变量引入哑变量进行分析,本研究中土地利用类型因子是将有林地作为参照对象,其他6种类型分别与其进行对比,而开发区规划因子是将未开发区为参照对象,开发区与其进行对比。

首先对各个自变量进行相关性检验,得到相关系数R2在0.02—0.68之间,均小于临界值0.8[30],表明各个自变量之间的相关性较小,所有自变量都可以进入Logistic回归模型。模型利用Homsmer-Lemeshow进行拟合优度检验。Logistic模型估计结果包括回归系数(β)、标准误差、wald统计量、自由度、显著性水平和EXP(β)等。其中,正的回归系数值表示解释变量每增加一个单位值时发生比会相应增加。相反,当回归系数为负值时说明增加一个单位值时发生比会相应减少。Wald统计量表示在模型中每个解释变量的相对权重,用来评价每个解释变量对事件预测的贡献力[17]。

预测的分类标准值可以利用Youden指数(即特异度与灵敏度的和减1)方法进行判断,在Youden指数的最大值所对应的预测概率即为分类标准值[31]。本研究根据该方法,取0.14作为由非城市区域变为城市区域的概率阈值。依据该方法,模型预测和验证的概率分别达到82.7%和83.2%。且ROC检验结果为0.89,大于0.8,表明模型可靠有效,模型对沈阳城市扩展有很好的解释能力。

Logistic模型估计结果可以看出,连续变量中只有坡向未达到0.01的显著性水平,说明坡向对沈阳城市扩展的影响不显著(表1)。分类变量中农村居民点、水域和开发区都达到了0.01的显著性水平,说明分类变量中这3个因子对城市扩展影响显著。

表1沈阳城市扩展驱动力Logistic模型估计结果

Table1Logistic regression results of driving forces of Shenyang urban expansion

驱动因子Driving forces 回归系数(β)

Regression

coefficients

标准误差

Standard

error

Wald统计量

Wald

statistics

自由度

Degree

of freedom

显著性水平

Significance

level

发生比率

EXP(β)

发生比率95%置信水平

95%confidence

interval of EXP(β)

下限

Lower

上限

Upper

坡度Slope0.2450.05718.35510**1.2781.1421.430数字高程模型

Digital Elevation

Model(DEM)

-0.0350.00463.34010**0.9650.9570.974

草地Grassland-1.8441.0732.95310.0860.1580.0191.296灌木林Shrubbery-0.0400.5820.00510.9450.9610.3073.007旱地Dryland0.2690.3150.72510.3941.3080.7052.428农村居民点

Rural residential land

1.7420.32728.30910**5.7093.00510.845

水田Paddy field-0.0320.3180.01010.9210.9690.5191.809水域Water body-2.1980.8157.28210.007**0.1110.0220.548距高速公路和铁路距离

Distance from highway

and railway

-0.2010.03142.65810**0.8180.7700.869

距河流距离

Distance from river

-0.0470.00835.48710**0.9540.9390.969开发区Development zones-1.4570.138111.61310**0.2330.1780.305坡向Aspect0.0000.0000.58610.4441.0000.9991.001距1997年城区距离

Distance from urban

land of1997

-0.1280.01568.40010**0.8800.8540.907

人口密度Population density0.0000.00035.50110**1.0001.0001.001 GDP Gross Domestic Product0.0000.00013.98010**1.0001.0001.000常量Constant2.2340.41728.70710**9.337**表示在0.01水平上显著337

3期李春林等:基于增强回归树和Logistic回归的城市扩展驱动力分析

沈阳城市扩展驱动因子贡献率前八位依次是开发区、距1997年城区距离、DEM、距高速公路和铁路距离、人口密度、距河流距离、农村居民点和坡度。驱动因子中自重要的解释因子为开发区,其回归系数是正值,表明城市扩展的概率随着开发区的建设而增大,开发区每增加一个单位,城市扩展发生比率将增大0.23倍。距1997年城区距离的回归系数是负值,说明距离城区距离越远,城市扩展的概率越小,距城区距离每增加1km,发生比率将减少0.88倍。DEM的回归系数是负值,表明城市扩展的概率随DEM的变大而变小,DEM每增加1m,发生比率减少0.97倍。其余的主要驱动因子中,距高速公路和铁路距离、距河流距离两者回归系数是负值,说明随着距离的增加,城市扩展的概率减小。人口密度、农村居民点和坡度的回归系数都是正值,表明人口密度、农村居民点和坡度与城市扩展是正相关关系。

由Logistic回归模型可以看出,城市扩展是受自然因子、邻域因子和社会经济因子共同影响的。其中,以社会经济因子中开发区的规划对城市扩展影响最大,政府的开发区政策不仅能带动当地基础设施的建设,而且能够引导社会投资偏向开发区,从而实现开发区的社会经济快速发展。3个邻域因子对城市扩展的影响均在0.01水平上显著,且贡献率分别位于第2、4、6位,说明距城区、道路和河流的距离都对城市扩展有较大影响,其中以城区对城市扩展的影响最大。由于城市扩展以边缘扩张为主以及城市集聚效应的影响,距离城市越近的区域,社会经济活动强度越大,城市扩展也越强烈。土地利用类型因子中只有农村居民点和水域在0.01的水平上显著,且农村居民点的影响贡献率为第7位,说明农村居民点与其他土地利用类型相比更容易转变为城市区。自然因子中DEM对城市扩展的影响最大,贡献率排第3位,坡度和坡向的影响较小,说明自然因子不是城市扩展的主要驱动因子。

2.3BRT与Logistic结果对比分析

本研究分别利用BRT和Logistic回归分析了影响沈阳城市扩展的主要驱动力,得到的影响城市扩展的前8位影响因子如表2所示。两种方法都表明距1997年城区距离、DEM、距高速公路和铁路距离是影响沈阳城市扩展的主要驱动力,均位于主要因子的前四位。通过分析位于前四位的影响因子可以得出,自然因子对城市扩展的影响较小,而邻域因子的影响较大,说明较小的时间尺度内自然因子不是城市扩展的主要驱动力,且城市扩展较多受距建成区、道路和河流的距离的影响。不同的是,Logistic 回归分析显示社会经济因素对城市扩展影响较大,但BRT分析则显示社会经济因素分别位于第5、6、7、8位,总影响力贡献率仅占21.7%。

BRT分析显示影响沈阳城市扩展的主要驱动力是距1997年城区距离,其贡献率达到32.4%;而Logistic回归模型得到的贡献率最大的是开发区,距1997年城区距离是贡献率第2位的驱动因子。距城区距离在一定程度上反映了城市的辐射效应,从BRT的分析结果可以看出随着距离变大城市辐射效应迅速减小,到距离到4km时,辐射效应降低为0,说明辐射效应有一定的距离限制,距离越远辐射作用越小,甚至变为负效应。开发区规划在BRT分析中是贡献率第7位的影响因子,这可能由于在Logistic回归中开发区规划是分类变量,开发区是以未开发区作为参照对象的,两者有一定差异。

农村居民点作为土地利用类型中的分类变量,在两种方法中都显示与城市扩展都是正相关关系,说明农村居民点是土地利用类型中与城市扩展关系最密切,能较容易转变为城市用地。BRT分析中GDP的影响贡献率位于第7位,而未出现在Logistic 回归模型的前8位影响因子中。坡度因子在Logistic 回归模型中贡献率位于第8位,而在BRT中是最后一位的影响因子,说明Logistic回归和BRT分析有一定差异,但得到的主要影响因子是相似的。

表2BRT和Logistic的主要驱动因子对比

Table2The contrast of main driving factors from BRT and Logistic

影响力排序

Influence

order

增强回归树

BRT

Logistic回归

Logistic

1距1997年城区距离开发区

2距河流距离距1997年城区距离

3DEM DEM

4

距高速公路和铁路

距离

距高速公路和铁路距离5土地利用类型人口密度

6开发区规划距河流距离

7GDP农村居民点

8人口密度坡度

437生态学报34卷

3结论

(1)通过BRT分析得到影响沈阳城市扩展的驱动因子依次是:距1997年城区距离、距河流距离、DEM、距高速公路和铁路距离、土地利用类型、开发区规划、GDP、人口密度、坡向和坡度。

(2)通过Logistic回归分析得到影响沈阳城市扩展的前8位驱动因子依次是:开发区、距1997年城区距离、DEM、距高速公路和铁路距离、人口密度、距河流距离、农村居民点和坡度。

(3)BRT结果显示,3个邻域因子总的影响贡献率达到61.4%,说明城市扩展主要受邻域因子所决定。自然因子中只有DEM的影响较高,为12.5%。社会经济因子中,土地利用类型和开发区规划对城市扩展虽然有一定影响,但贡献率仅为7.2%和5.4%。

(4)Logistic回归结果得出,城市扩展是受自然因子、邻域因子和社会经济因子共同影响的。而以社会经济因子中开发区的规划对城市扩展影响最大,是城市扩展的最主要驱动力,其次是邻域因子,自然因子对城市扩展的影响最小。

(5)通过BRT分析和Logistic回归模型两种方法可以得出,距1997年城区距离、DEM、距高速公路和铁路距离是影响沈阳城市扩展的主要驱动力,均位于主要因子的前四位。总体来说,沈阳城市扩展受邻域因子影响最大,而自然因子的影响相对较小,社会经济因子中则只有开发区和农村居民点对城市扩展影响较大。

4讨论

影响城市扩展的驱动因素很多,本文利用BRT 分析和Logistic回归模型两种方法分别分析了影响沈阳城市扩展的三大类10种驱动因子,并对两种方法的结果进行了对比分析。社会经济因子的空间化难度比较大,而本文只是按照行政分区进行赋值的,这在一定程度上影响了数据的准确性。Logistic回归和BRT分析有一定差异,但得到的城市扩展主要影响因子是相似的。其他学者也普遍认为地理区位、交通、政策、人口增长和经济发展是城市扩展的主要驱动力。冯仕超等认为地形因素是南宁市城市空间扩展的基础,人口增长和经济发展是城市扩展的主要因素,政策对城市扩展有显著的推动和导向作用[32]。牟凤云等认为交通的发展促进了城市用地的扩展,是城市扩展的牵引力,对城市空间扩展具有指向性作用[33];黄庆旭认为宏观尺度上政策和旧的城市格局决定了北京城市发展的基本格局,中观尺度是人口增长和人民生活水平的提高为城市扩展提供动力,微观尺度上则是地形、区位和交通决定了城市扩展的可能性[34];渠爱雪通过研究发现,经济转型和产业结构优化升级是城市用地扩展的核心驱动力,交通是重要引导力,城市规划是重要调控力量[35]。

总体来说,区位因素是城市扩展的主导因素;DEM、河流等自然因子是城市发展的基础,决定了城市的整体空间形态;公路、铁路、河流等基础设施的建设,拉大了城市的框架;GDP和人口等社会经济因素决定着城市扩展的速度;城市总体规划和开发区的建设又为城市扩展提供了空间导向。

本研究发现,BRT适合于城市扩展驱动力的研究,能得出各个驱动因子的相对影响大小,而且能得到每个驱动因子取值变化时,因变量相对影响的变化,获得的结果比较直观形象。BRT对数据的要求较低,能方便处理连续变量和分类变量。而Logistic 回归模型在自变量是分类变量时需要引入哑变量,使得结果解释起来麻烦且难以理解。本文对社会经济数据的空间化是以区为单位,数据较粗略,不能有效反映出社会经济的空间差异性,从而在一定程度上影响了模型的精度。

References:

[1]Bhatta B,Saraswati S,Bandyopadhyay D.Urban sprawl measurement from remote sensing data.Applied Geography,

2010,30(4):731-740.

[2]Murakami A,Zain A M,Takeuchi K,Tsunekawa A,Yokota S.Trends in urbanization and patterns of land use in the Asian mega

cities Jakarta,Bangkok,and Metro Manila.Landscape and Urban

Planning,2005,70(3/4):251-259.

[3]An X S.Increase and prediction of urban construction land-a case study of Shanxi.Journal of Peking University:Philosophy and

Social Sciences,2006,42(S1):87-90.

[4]Lei J,Wu S X,Zhang X Y,Li N.Temporal-spatial characteristics of the urban-rural construction land use change in

the north-piedmont economic zone of the Tianshan Mountains in

Xinjiang.Arid Land Geography,2005,28(4):554-559.

537

3期李春林等:基于增强回归树和Logistic回归的城市扩展驱动力分析

[5]Gao W,Min J,Zhang A L.Analysis of factors influencing rural-urban land conversion based on ridge regression.China Land

Science,2007,21(3):51-58.

[6]Gan H,Liu Y S,Wang D W.Simulation and analysis of the human driving factors of land use type conversion.Resource

Science,2004,26(2):88-93.

[7]Jokar A J,Helbich M,Kainz W,Darvishi B A.Integration of logistic regression,Markov chain and cellular automata models to

simulate urban expansion.International Journal of Applied Earth

Observation and Geoinformation,2013,21:265-275.

[8]Yue W Z,Liu Y,Fan P L.Measuring urban sprawl and its drivers in large Chinese cities:The case of Hangzhou.Land Use

Policy,2013,31:358-370.

[9]Lei J,Zhang X Y,Wu S X,Zhang X L,Lu Q.Study on the spatial-temporal characteristics of the rural-urban construction land

use change in Xinjiang.Scientia Geographica Sinica,2005,25

(2):161-166.

[10]Frenkel A,Orenstein D E.Can urban growth management work in an era of political and economic change?International lessons from

Israel.Journal of the American Planning Association,2012,78

(1):16-33.

[11]Liu T,Cao G Z.Progress in urban land expansion and its driving forces.Progress in Geography,2010,29(8):927-934.

[12]Liu M,Hu Y M,Sun F Y,Li C L,Xu Y Y,Zhou Y.Application of land use model CLUE-S in the planning of central

Liaoning urban agglomerations.Chinese Journal of Ecology,2012,

31(2):413-420.

[13]Xi F M,He H S,Hu Y M,Wu X Q,Chang Y,Liu M,Shi T M,Wang J N.Spatiotemporal pattern of urban growth and its

driving forces in urban agglomeration of central Liaoning Province,

China.Chinese Journal of Applied Ecology,2010,21(3):

707-713.

[14]ZhouR,Li Y H,Hu Y M,Xi F M,Shan T,He H S,Liu M,Wang J N.Spatiotemporal expansion of urban and rural built-up

areas in Shenyang City:An analysis based on remote sensing and

GIS technology.Chinese Journal of Applied Ecology,2009,20

(10):2446-2454.

[15]Zhang P F,Hu Y M,Xiong Z P,Liu M.Spatiotemporal variation characteristics and related affecting factors of architecture

landscape in Tiexi District of Shenyang.Chinese Journal of

Ecology,2011,30(2):335-342.

[16]Shenyang Statistics Bureau.Shenyang Statistical Yearbook at 2011.Shenyang:Shenyang Statistics Bureau,2011:10-51.[17]Xie H L,Li B.Driving forces analysis of land-use pattern changes based on logistic regression model in the farming-pastoral zone:A

case study of Ongiud Banner,Inner Mongolia.Geographical

Research,2008,27(2):294-304.

[18]Franklin J,McCullough P,Gray C.Terrain variables used for predictive mapping of vegetation communities in Southern

California//Wilson J P,Gallant J C,eds.Terrain Analysis:

Principles and Applications.New York:John Wiley and Sons,

2000:331-353.

[19]De'ath G.Boosted trees for ecological modeling and prediction.Ecology,2007,88(1):243-251.

[20]Elith J,Leathwick JR,Hastie T.A working guide to boosted regression trees.Journal of Animal Ecology,2008,77(4):

802-813.

[21]Prasad A M,Iverson LR,Liaw A.Newer classification and regression tree techniques:bagging and random forests for

ecological prediction.Ecosystems,2006,9(2):181-199.[22]Cao M C,Zhou G S,Weng E S.Application and comparison of generalized models and classification and regression tree in

simulating tree species distribution.Acta Ecologica Sinica,2005,

25(8):2031-2040.

[23]Zhao P,Fu Y F,Zheng L G,Feng X Z,Satyanarayana B.Cart-based land use/cover classification of remote sensing images.

Journal ofRemote Sensing,2005,9(6):708-716.

[24]Cai W H,Yang J,Liu Z H,Hu Y M,Liu S J,Jing G Z,Zhao Z F.Controls of post-fire tree recruitment in Great Xing'an

Mountains in Heilongjiang Province.Acta Ecologica Sinica,2012,

32(11):3303-3312.

[25]Elith J,Leathwick JR,Hastie T.A working guide to boosted regression trees.Journal of Animal Ecology,2008:1-15.

[26]Jiang W L.Urban spatial forecast based on GIS&Spatial Logistic model-A case study for Longgang,Shenzhen.Economic

Geography,2007,27(5):800-804.

[27]Wang J,He T,Guo X D,Liu A X.Study on land degradation trend by applying logistic multivariate regression model in

NorthwestRegion of Beijing.Progress in Geography,2005,24

(5):23-32.

[28]PontiusRG Jr,Schneider L C.Land-cover change model validation by anROC method for the Ipswich-watershed,

Massachusetts,USA.Agriculture,Ecosystems and Environment,

2001,85(1/3):239-248.

[29]Wang J C,Guo Z G.LogisticRegression Model-Methods and Applications.Beijing:Academic Publishing,2001.

[30]Menard S.Applied LogisticRegression Analysis.London:Quantitative Applications in the Social Sciences,1995.

[31]FlussR,Faraggi D,Reiser B.Estimation of the Youden Index and its associated cutoff point.Biometrical Journal,2005,47

(4):458-472.

[32]Feng S C,Gao X H,Kang J,Wu G L,Zou C,Yang J J.Research on land use/cover change and urban expansion in

Xining city in recent30years.Arid ZoneResearch,2012,29

(1):129-136.

[33]Mu F Y,Zhang Z X,Chi Y B,Liu B,Zhou Q B,Wang C Y,Tan W B.Dynamic monitoring of built-up area in Beijing during

1973—2005based on multi-original remote sensed images.Journal

637生态学报34卷

ofRemote Sensing,2007,11(2):257-268.

[34]Huang Q X,He C Y,Shi P J,Zhao Y Y,Yang Y,Liu H Y.Understanding multi-scale urban expansion driving forces:in the

case study of Beijing.Economic Geography,2009,29(5):

714-721.

[35]Qu A X,Chou F D.The process and pattern of urban construction land expansion in Xuzhou.Scientia Geographica Sinica,2013,33

(1):61-68.

参考文献:

[3]安祥生.城镇建设用地增长及其预测———以山西省为例.北京大学学报:哲学社会科学版,2006,42(S1):87-90.

[4]雷军,吴世新,张雪艳,李宁.新疆天山北坡经济带城乡建设用地动态变化的时空特征.干旱区地理,2005,28(4):

554-559.

[5]高魏,闵捷,张安录.基于岭回归的农地城市流转影响因素分析.中国土地科学,2007,21(3):51-58.

[6]甘红,刘彦随,王大伟.土地利用类型转换的人文驱动因子模拟分析.资源科学,2004,26(2):88-93.

[9]雷军,张雪艳,吴世新,张小雷,鲁奇.新疆城乡建设用地动态变化的时空特征分析.地理科学,2005,25(2):161-166.[11]刘涛,曹广忠.城市用地扩张及驱动力研究进展.地理科学进展,2010,29(8):927-934.

[12]刘淼,胡远满,孙凤云,李春林,徐岩岩,周媛.土地利用模型CLUE-S在辽宁省中部城市群规划中的应用.生态学杂志,

2012,31(2):413-420.

[13]郗凤明,贺红士,胡远满,吴晓青,常禹,刘淼,石铁矛,王晋年.辽宁中部城市群城市增长时空格局及其驱动力.应用

生态学报,2010,21(3):707-713.

[14]周锐,李月辉,胡远满,郗凤明,单涛,贺红士,刘淼,王晋年.沈阳市市区和农村建设用地时空扩展分析.应用生态学

报,2009,20(10):2446-2454.[15]张培峰,胡远满,熊在平,刘淼.铁西区建筑景观时空变化特征及影响因素.生态学杂志,2011,30(2):335-342.

[16]沈阳市统计局.2011年沈阳统计年鉴.沈阳:沈阳市统计局,2011:10-51.

[17]谢花林,李波.基于logistic回归模型的农牧交错区土地利用变化驱动力分析———以内蒙古翁牛特旗为例.地理研究,

2008,27(2):294-304.

[22]曹铭昌,周广胜,温恩生.广义模型及分类回归树在物种分布模拟中的应用于比较.生态学报,2005,25(8):2031-2040.[23]赵萍,傅云飞,郑刘根,冯学智,Satyanarayana B.基于分类回归树分析的遥感影像土地利用/覆被分类研究.遥感学报,

2005,9(6):708-716.

[24]蔡文华,杨健,刘志华,胡远满,柳生吉,荆国志,赵增福.黑龙江省大兴安岭林区火烧迹地森林更新及其影响因子.生

态学报,2012,32(11):3303-3312.

[26]姜文亮.基于GIS和空间Logistic模型的城市扩展预测———以深圳市龙岗区为例.经济地理,2007,27(5):800-804.[27]王静,何挺,郭旭东,刘爱霞.基于逻辑回归模型的环北京地区土地退化态势分析.地理科学进展,2005,24(5):23-32.[29]王济川,郭志刚.Logistic回归模型-方法与应用.北京:高等教育出版社,2001.

[32]冯仕超,高小红,亢健,吴国良,邹婵,杨军军.西宁市30多年来土地利用/土地覆被变化及城市扩展研究.干旱区研究,

2012,29(1):129-136.

[33]牟凤云,张增祥,迟耀斌,刘斌,周全斌,王长有,谭文彬.基于多源遥感数据的北京市1973—2005年间城市建成区的

动态监测与驱动力分析.遥感学报,2007,11(2):257-268.[34]黄庆旭,何春阳,史培军,赵媛媛,杨洋,刘洪友.城市扩展多尺度驱动机制分析———以北京为例.经济地理,2009,29

(5):714-721.

[35]渠爱雪,仇方道.徐州城市建设用地扩展过程与格局研究.地理科学,2013,33(1):61-68.

737

3期李春林等:基于增强回归树和Logistic回归的城市扩展驱动力分析

logistic回归模型总结

[转载]logistic回归模型总结 logistic回归模型是最成熟也是应用最广泛的分类模型,通过学习和实践拟通过从入门、进阶到高级的过程对其进行总结,以便加深自己的理解也为对此有兴趣者提供学习的便利。 一、有关logistic的基本概念 logistic回归主要用来预测离散因变量与一组解释变量之间的关系 最常用的是二值型logistic。即因变量的取值只包含两个类别例如:好、坏;发生、不发生;常用Y=1或Y=0表示X 表示解释变量则 P(Y=1|X)表示在X的条件下Y=1的概率,logistic回归的数学表达式为: log(p/1-p)=A+BX =L其中p/1-p称为优势比(ODDS)即发生与不发生的概率之比 可以根据上式反求出P(Y=1|X)=1/(1+e^-L) 根据样本资料可以通过最大似然估计计算出模型的参数 然后根据求出的模型进行预测 下面介绍logistic回归在SAS中的实现以及输出结果的解释 二、logistic回归模型初步

SAS中logistic回归输出结果主要包括预测模 型的评价以及模型的参数 预测模型的评价与多元线性回归模型的评价类似主要从以 下几个层次进行 (1)模型的整体拟合优度 主要评价预测值与观测值之间的总体一致性。可以通过以下两个指标来进行检验 1、Hosmer-Lemeshowz指标 HL统计量的原假设Ho是预测值和观测值之间无显著差异,因此HL指标的P-Value的值越大,越不能拒绝原假设,即说明模型很好的拟合了数据。 在SAS中这个指标可以用LACKFIT选项进行调用 2、AIC和SC指标即池雷准则和施瓦茨准则 与线性回归类似AIC和SC越小说明模型拟合的越好 (2)从整体上看解释变量对因变量有无解释作用 相当于多元回归中的F检验在logistic回归中可以通过似然比(likelihood ratio

Logistic回归分析简介

Logistic回归分析简介 Logistic回归:实际上属于判别分析,因拥有很差的判别效率而不常用。1.应用范围: ①适用于流行病学资料的危险因素分析 ②实验室中药物的剂量-反应关系 ③临床试验评价 ④疾病的预后因素分析 2.Logistic回归的分类: ①按因变量的资料类型分: 二分类 多分类 其中二分较为常用 ②按研究方法分: 条件Logistic回归 非条件Logistic回归 两者针对的资料类型不一样,后者针对成组研究,前者针对配对或配伍 研究。 3.Logistic回归的应用条件是: ①独立性。各观测对象间是相互独立的; ②LogitP与自变量是线性关系; ③样本量。经验值是病例对照各50例以上或为自变量的5-10倍(以10倍 为宜),不过随着统计技术和软件的发展,样本量较小或不能进行似然

估计的情况下可采用精确logistic回归分析,此时要求分析变量不能太多,且变量分类不能太多; ④当队列资料进行logistic回归分析时,观察时间应该相同,否则需考虑观 察时间的影响(建议用Poisson回归)。 4.拟和logistic回归方程的步骤: ①对每一个变量进行量化,并进行单因素分析; ②数据的离散化,对于连续性变量在分析过程中常常需要进行离散变成等 级资料。可采用的方法有依据经验进行离散,或是按照四分、五分位数 法来确定等级,也可采用聚类方法将计量资料聚为二类或多类,变为离 散变量。 ③对性质相近的一些自变量进行部分多因素分析,并探讨各自变量(等级 变量,数值变量)纳入模型时的适宜尺度,及对自变量进行必要的变量 变换; ④在单变量分析和相关自变量分析的基础上,对P≤α(常取0.2,0.15或 0.3)的变量,以及专业上认为重要的变量进行多因素的逐步筛选;模型 程序每拟合一个模型将给出多个指标值,供用户判断模型优劣和筛选变 量。可以采用双向筛选技术:a进入变量的筛选用score统计量或G统计 量或LRS(似然比统计量),用户确定P值临界值如:0.05、0.1或0.2,选 择统计量显著且最大的变量进入模型;b剔除变量的选择用Z统计量(Wald 统计量),用户确定其P值显著性水平,当变量不显者,从模型中予以剔 除。这样,选入和剔除反复循环,直至无变量选入,也无变量删除为止,选入或剔除的显著界值的确定要依具体的问题和变量的多寡而定,一般

SPSS—二元Logistic回归结果分析报告

SPSS—二元Logistic回归结果分析 2011-12-02 16:48 身心疲惫,睡意连连,头不断往下掉,拿出耳机,听下歌曲,缓解我这严重的睡意吧!今天来分析二元Logistic回归的结果 分析结果如下: 1:在“案例处理汇总”中可以看出:选定的案例489个,未选定的案例361个,这个结果是根据设定的validate = 1得到的,在“因变量编码”中可以看出“违约”的两种结果“是”或者“否” 分别用值“1“和“0”代替,在“分类变量编码”中教育水平分为5类,如果选中“为完成高中,高中,大专,大学等,其中的任何一个,那么就取值为 1,未选中的为0,如果四个都未被选中,那么就是”研究生“ 频率分别代表了处在某个教育水平的个数,总和应该为489个

1:在“分类表”中可以看出:预测有360个是“否”(未违约)有129个是“是”(违约) 2:在“方程中的变量”表中可以看出:最初是对“常数项”记性赋值,B为 -1.026,标准误差为:0.103 那么wald =( B/S.E)2=(-1.026/0.103)2 = 99.2248, 跟表中的“100.029几乎接近,是因为我对数据进行的向下舍入的关系,所以数据会稍微偏小, B和Exp(B) 是对数关系,将B进行对数抓换后,可以得到:Exp(B) = e^-1.026 = 0.358, 其中自由度为1, sig为0.000,非常显著

1:从“不在方程中的变量”可以看出,最初模型,只有“常数项”被纳入了模型,其它变量都不在最初模型 表中分别给出了,得分,df , Sig三个值, 而其中得分(Score)计算公式如下: (公式中(Xi- Xˉ) 少了一个平方) 下面来举例说明这个计算过程:(“年龄”自变量的得分为例) 从“分类表”中可以看出:有129人违约,违约记为“1”则违约总和为 129,选定案例总和为489 那么: yˉ = 129/489 = 0.16 xˉ = 16951 / 489 = 34.2 所以:∑(Xi-xˉ)2 = 30074.9979

逻辑回归模型分析见解

1.逻辑回归模型 1.1逻辑回归模型 考虑具有p个独立变量的向量,设条件概率为根据观测量相对于某事件发生的概率。逻辑回归模型可表示为 (1.1) 上式右侧形式的函数称为称为逻辑函数。下图给出其函数图象形式。 其中。如果含有名义变量,则将其变为dummy变量。一个具有k个取值的名义变量,将变为k-1个dummy变量。这样,有 (1.2) 定义不发生事件的条件概率为 (1.3) 那么,事件发生与事件不发生的概率之比为 (1.4) 这个比值称为事件的发生比(the odds of experiencing an event),简称为odds。因为00。对odds取对数,即得到线性函数, (1.5) 1.2极大似然函数 假设有n个观测样本,观测值分别为设为给定条件下

得到的概率。在同样条件下得到的条件概率为。于是,得到一个观测值的概率为 (1.6) 因为各项观测独立,所以它们的联合分布可以表示为各边际分布的乘积。 (1.7) 上式称为n个观测的似然函数。我们的目标是能够求出使这一似然函数的值最大的参数估计。于是,最大似然估计的关键就是求出参数,使上式取得最大值。 对上述函数求对数 (1.8) 上式称为对数似然函数。为了估计能使取得最大的参数的值。 对此函数求导,得到p+1个似然方程。 (1.9) ,j=1,2,..,p. 上式称为似然方程。为了解上述非线性方程,应用牛顿-拉斐森(Newton-Raphson)方法进行迭代求解。 1.3牛顿-拉斐森迭代法 对求二阶偏导数,即Hessian矩阵为 (1.10) 如果写成矩阵形式,以H表示Hessian矩阵,X表示 (1.11) 令

logistic回归分析案例

1. 数据制备(栅格数据) (1) 宝塔区基底图层.tif (2) 居民点扩增.tif 、坡度.tif 、坡向.tif 等要素数据。 在 environment settings ------ p rocessing extent ------ snap raster (选中基底图层),保证栅格数据 像元无偏移,且行列的数量一致。 化:Raster to ASCII Inyul r aiLtvl- 匚” k 『号樹 ± 如葡让也\1非*订kilt :f 10. 2 'iiStati EeiT-SlaT 14t L J. KT 2.通过CLUE-S 莫型中的fileconvert 模块,获得logistic 回归分析的数据集。 (1) 将上一步骤中的因变量 y 和影响因素x 的.txt 文档后缀改为.asc 格式,并将文件 放在CLUE-S 模型所在的文件夹中。 (2) 打开FileCo nvert V2软件,按下图勾选,填写"file list "内容,点击start con version , 3 田F1 曰 It:. (3)栅格数据转为 ASCII 码,生成txt 文档。 匚onversion Tools Ejicel From GPS From KML From Raster 气 Raster to ASCII y Raster to Fist 声.Raster to Point

生成stat .txt文档。 祥Fi le 荃 flFfijie? I1id J?1Ji w ■■ 1 ? 9><4 P t414 Tl ?J19 12词 ■M*£LD|i4I# ■ Q电兀列心£i k1lf\ 15?1 *■4JE RI7 <1- I 4 話M3 IS r擠uSstalB-^aG 齬£ 淨珀bCMir 二i缶 pad... ■ 枝jfcsurrT^cM.a^t 炉 MBlOrtTIdH■: 护 xVcomr-.iic / rll asc 播Tann砂£]T (2)logistic回归分析 按图设置参数因变量、自变量;由于x3属于分类变量,点击分类按钮,按图设置参数。 >M!L4M|昨T祜lt?M? 曲唱-Hl'F1 wB-j' MtF M|T ffl¥ g: ZTStiRiiri SHilfi VTU '_'■ rt 舖C r TI薔色Z4d* ■i aa ■;? 1 iTdlfAflWVK4Wt4「利 E 呻■■} 1■ IdfcWM^U.一尉仇■臂H xlAftL lAMDf Jfit 1Q1?7r -iwns ■B-13磁MT 13 J 工 '-恫fl T l£j v-IIHH M4Q J0W PW回沐神to 型 rwa: wm 1 H teiiy- 卩厲 4a13 4 ■ira 401?wa 70i-221 ?d'131fefl 加ifUnm 片nu t013*Ozmwkt他 w p1W址?囲血|淞:幽 11013 1 Qm Sft?t 121JJ V s? 014*」; 11 H?iKa; H013 5 *旳 ti a IM■ KK MS V;941 ti Q144T f 7W filwvjcfic OH

Logistic回归模型基本知识

Logistic 回归模型 1 Logistic 回归模型的基本知识 1.1 Logistic 模型简介 主要应用在研究某些现象发生的概率p ,比如股票涨还是跌,公司成功或失败的概率,以及讨论概率 p 与那些因素有关。显然作为概率值,一定有10≤≤p ,因此很难用线性模型描述概率p 与自变量的关 系,另外如果p 接近两个极端值,此时一般方法难以较好地反映p 的微小变化。为此在构建p 与自变量关系的模型时,变换一下思路,不直接研究p ,而是研究p 的一个严格单调函数)(p G ,并要求)(p G 在p 接近两端值时对其微小变化很敏感。于是Logit 变换被提出来: p p p Logit -=1ln )( (1) 其中当p 从10→时,)(p Logit 从+∞→∞-,这个变化范围在模型数据处理上带来很大的方便, 解决了上述面临的难题。另外从函数的变形可得如下等价的公式: X T X T T e e p X p p p Logit ββ β+= ?=-=11ln )( (2) 模型(2)的基本要求是,因变量(y )是个二元变量,仅取0或1两个值,而因变量取1的概率) |1(X y P =就是模型要研究的对象。而T k x x x X ),,,,1(21 =,其中i x 表示影响y 的第i 个因素,它可以是定性变量也可以是定量变量,T k ),,,(10ββββ =。为此模型(2)可以表述成: k x k x k x k x k k e e p x x p p βββββββββ+++++++= ?+++=- 11011011011ln (3) 显然p y E =)(,故上述模型表明) (1) (ln y E y E -是k x x x ,,,21 的线性函数。此时我们称满足上面条件 的回归方程为Logistic 线性回归。 Logistic 线性回归的主要问题是不能用普通的回归方式来分析模型,一方面离散变量的误差形式服从伯努利分布而非正态分布,即没有正态性假设前提;二是二值变量方差不是常数,有异方差性。不同于多元线性回归的最小二乘估计法则(残差平方和最小),Logistic 变换的非线性特征采用极大似然估计的方法寻求最佳的回归系数。因此评价模型的拟合度的标准变为似然值而非离差平方和。 定义1 称事件发生与不发生的概率比为 优势比(比数比 odds ratio 简称OR),形式上表示为 OR= k x k x e p p βββ+++=- 1101 (4) 定义2 Logistic 回归模型是通过极大似然估计法得到的,故模型好坏的评价准则有似然值来表征,称

Logistic回归分析报告结果解读分析

Logistic 回归分析报告结果解读分析 Logistic 回归常用于分析二分类因变量(如存活和死亡、患病和未患病等)与多个自变量的关系。比较常用的情形是分析危险因素与是否发生某疾病相关联。例如,若探讨胃癌的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群有不同的临床表现和生活方式等,因变量就为有或无胃癌,即“是” 或“否”,为二分类变量,自变量包括年龄、性别、饮食习惯、是否幽门螺杆菌感染等。自变量既可以是连续变量,也可以为分类变量。通过Logistic 回归分析,就可以大致了解胃癌的危险因素。 Logistic 回归与多元线性回归有很多相同之处,但最大的区别就在于他们的因变量不同。多元线性回归的因变量为连续变量;Logistic 回归的因变量为二分类变量或多分类变量,但二分类变量更常用,也更加容易解释。 1. Logistic 回归的用法 一般而言,Logistic 回归有两大用途,首先是寻找危险因素,如上文的例子,找出与胃癌相关的危险因素;其次是用于预测,我们可以根据建立的Logistic 回归模型,预测在不同的自变量情况下,发生某病或某种情况的概率(包括风险评分的建立)。 2. 用Logistic回归估计危险度 所谓相对危险度(risk ratio , RR)是用来描述某一因素不同状态发生疾病(或其它结局)危险程度的 比值。Logistic回归给出的OR(odds ratio)值与相对危险度类似,常用来表示相对于某一人群,另一人群发生终点事件的风险超出或减少的程度。如不同性别的

胃癌发生危险不同,通过Logistic回归可以求出危险度的具体数值,例如1.7,

二分类Logistic回归模型

二分类Logistic 回归模型 在对资料进行统计分析时常遇到反应变量为分类变量的资料,那么,能否用类似于线性回归的模型来对这种资料进行分析呢?答案是肯定的。本章将向大家介绍对二分类因变量进行回归建模的Logistic 回归模型。 第一节 模型简介 一、模型入门 在很多场合下都能碰到反应变量为二分类的资料,如考察公司中总裁级的领导层中是否有女性职员、某一天是否下雨、某病患者结局是否痊愈、调查对象是否为某商品的潜在消费者等。对于分类资料的分析,相信大家并不陌生,当要考察的影响因素较少,且也为分类变量时,分析者常用列联表(contingency Table)的形式对这种资料进行整理,并使用2 χ检验来进行分析,汉存在分类的混杂因素时,还可应用Mantel-Haenszel 2 χ检验进行统计学检验,这种方法可以很好地控制混杂因素的影响。但是这种经典分析方法也存在局限性,首先,它虽然可以控制若干个因素的作用,但无法描述其作用大小及方向,更不能考察各因素间是否存在交互任用;其次,该方法对样本含量的要求较大,当控制的分层因素较多时,单元格被划分的越来越细,列联表的格子中频数可能很小甚至为0,将导致检验结果的不可靠。最后,2 χ检验无法对连续性自变量的影响进行分析,而这将大大限制其应用范围,无疑是其致使的缺陷。 那么,能否建立类似于线性回归的模型,对这种数据加以分析?以最简单的二分类因变量为例来加以探讨,为了讨论方便,常定义出现阳性结果时反应变量取值为1,反之则取值为0 。例如当领导层有女性职员、下雨、痊愈时反应变量1y =,而没有女性职员、未下雨、未痊愈时反应变量0y =。记出现阳性结果的频率为反应变量(1)P y =。 首先,回顾一下标准的线性回归模型: μ11m m Y x x αββ=+++L 如果对分类变量直接拟合,则实质上拟合的是发生概率,参照前面线性回归方程 ,很 自然地会想到是否可以建立下面形式的回归模型: μ11m m P x x αββ=+++L 显然,该模型可以描述当各自变量变化时,因变量的发生概率会怎样变化,可以满足 分析的基本要求。实际上,统计学家们最早也在朝这一方向努力,并考虑到最小二乘法拟合时遇到的各种问题,对计算方法进行了改进,最终提出了加权最小二乘法来对该模型进行拟合,至今这种分析思路还偶有应用。 既然可以使用加权最小二乘法对模型加以估计,为什么现在又放弃了这种做法呢?原因在于有以下两个问题是这种分析思路所无法解决的: (1)取值区间:上述模型右侧的取值范围,或者说应用上述模型进行预报的范围为整 个实数集(,)-∞+∞,而模型的左边的取值范围为01P ≤≤,二者并不相符。模型本身不能

图文举例详细讲解Logistic曲线的回归分析

Logistic曲线的回归分析 例某一品种玉米高度与时间(生长周期,每个生长周期为2-3天,与气温有关)的数据如 表1.所示。用转化为线性方程的方法估计其logistic曲线预测模型。设最大值k为300(cm)。 表1.玉米高度与时间(生长周期)的关系 时间(生长周期)高度/cm时间(生长周期)高度/cm时间(生长周期)高度/cm 10.671212.752297.4620.851316.5523112.7 31.281420.124135.141.751527.3525153.652.271632.5526160.362.751737.55271 67.173.691844.7528174.984.711953.3829177.996.362071.6130180.2 107.732183.8931180.8119.91 3.1基本绘图操作 在Excel中输入时间x与高度y的数据。 选择插入->图表 图87 点击图表,选择“标准类型”中的xy散点图,并点击子图表类型的第一个。

图88 点击下一步,得到如图89。 图89

点击下一步。 图90 分别点击标题、网格线、图例进行修改,然后点击下一步。 图91 点击完成。 图92 右击绘图区,修改绘图区格式,双击做表格,修改坐标轴刻度,最后的散点图。

图93 观察散点图,其呈S型曲线,符合logistic曲线。采用转化为线性方程的方法求解模型。 3.2Logistic曲线方程及线性化 Logistic曲线方程为: y 1 k at me(12) (1)将数据线性化及成图 转化为线性方程为: y'aat 01 (13 ) 其中,y'ln(k/y1),a 0lnm,a1a 具体操作为: 向excel表格中输入y’数据。

(整理)多项分类Logistic回归分析的功能与意义1.

多项分类Logistic回归分析的功能与意义 我们经常会遇到因变量有多个取值而且无大小顺序的情况,比如职业、婚姻情况等等,这时一般的线性回归分析无法准确地刻画变量之间的因果关系,需要用其它回归分析方法来进行拟合模型。SPSS的多项分类Logistic回归便是一种简便的处理该类因变量问题的分析方法。 例子:下表给出了对山东省某中学20名视力低下学生视力监测的结果数据。试用多项分类Logistic回归分析方法分析视力低下程度(由轻到重共3级)与年龄、性别(1代表男性,2代表女性)之间的关系。

“年龄”使之进入“协变量”列表框。

还是以教程“blankloan.sav"数据为例,研究银行客户贷款是否违约(拖欠)的问题,数据如下所示: 上面的数据是大约700个申请贷款的客户,我们需要进行随机抽样,来进行二元Logistic 回归分析,上图中的“0”表示没有拖欠贷款,“1”表示拖欠贷款,接下来,步骤如下: 1:设置随机抽样的随机种子,如下图所示:

选择“设置起点”选择“固定值”即可,本人感觉200万的容量已经足够了,就采用的默认值,点击确定,返回原界面、 2:进行“转换”—计算变量“生成一个变量(validate),进入如下界面: 在数字表达式中,输入公式:rv.bernoulli(0.7),这个表达式的意思为:返回概率为0.7的bernoulli分布随机值 如果在0.7的概率下能够成功,那么就为1,失败的话,就为"0" 为了保持数据分析的有效性,对于样本中“违约”变量取缺失值的部分,validate变量也取缺失值,所以,需要设置一个“选择条件” 点击“如果”按钮,进入如下界面:

如何用SPSS做logistic回归分析

如何用spss17.0进行二元和多元logistic回归分析 一、二元logistic回归分析 二元logistic回归分析的前提为因变量是可以转化为0、1的二分变量,如:死亡或者生存,男性或者女性,有或无,Yes或No,是或否的情况。 下面以医学中不同类型脑梗塞与年龄和性别之间的相互关系来进行二元logistic回归分析。 (一)数据准备和SPSS选项设置 第一步,原始数据的转化:如图1-1所示,其中脑梗塞可以分为ICAS、ECAS和NCAS三种,但现在我们仅考虑性别和年龄与ICAS的关系,因此将分组数据ICAS、ECAS和NCAS转化为1、0分类,是ICAS赋值为1,否赋值为0。年龄为数值变量,可直接输入到spss中,而性别需要转化为(1、0)分类变量输入到spss当中,假设男性为1,女性为0,但在后续分析中系统会将1,0置换(下面还会介绍),因此为方便期间我们这里先将男女赋值置换,即男性为“0”,女性为“1”。 图1-1 第二步:打开“二值Logistic 回归分析”对话框: 沿着主菜单的“分析(Analyze)→回归(Regression)→二元logistic (Binary Logistic)”的路径(图1-2)打开二值Logistic 回归分析选项框(图1-3)。

如图1-3左侧对话框中有许多变量,但在单因素方差分析中与ICAS 显著相关的为性别、年龄、有无高血压,有无糖尿病等(P<0.05),因此我们这里选择以性别和年龄为例进行分析。

在图1-3中,因为我们要分析性别和年龄与ICAS的相关程度,因此将ICAS选入因变量(Dependent)中,而将性别和年龄选入协变量(Covariates)框中,在协变量下方的“方法(Method)”一栏中,共有七个选项。采用第一种方法,即系统默认的强迫回归方法(进入“Enter”)。 接下来我们将对分类(Categorical),保存(Save),选项(Options)按照如图1-4、1-5、1-6中所示进行设置。在“分类”对话框中,因为性别为二分类变量,因此将其选入分类协变量中,参考类别为在分析中是以最小数值“0(第一个)”作为参考,还是将最大数值“1(最后一个)”作为参考,这里我们选择第一个“0”作为参考。在“存放”选项框中是指将不将数据输出到编辑显示区中。在“选项”对话框中要勾选如图几项,其中“exp(B)的CI(X)”一定要勾选,这个就是输出的OR和CI值,后面的95%为系统默认,不需要更改。

图文举例详细讲解Logistic曲线的回归分析

Logistic 曲线的回归分析 例 某一品种玉米高度与时间(生长周期,每个生长周期为2-3天,与气温有关)的数据如表1.所示。用转化为线性方程的方法估计其logistic 曲线预测模型。设最大值k 为300(cm )。 表1. 玉米高度与时间(生长周期)的关系 时间(生长周期) 高度/cm 时间(生长周期) 高度 /cm 时间(生长周期) 高度/cm 1 2 3 4 5 6 7 8 9 10 11 0.67 0.85 1.28 1.75 2.27 2.75 3.69 4.71 6.36 7.73 9.91 12 13 14 15 16 17 18 19 20 21 12.75 16.55 20.1 27.35 32.55 37.55 44.75 53.38 71.61 83.89 22 23 24 25 26 27 28 29 30 31 97.46 112.7 135.1 153.6 160.3 167.1 174.9 177.9 180.2 180.8 3.1 基本绘图操作 在Excel 中输入时间x 与高度y 的数据。 选择插入->图表 图87 点击图表,选择“标准类型”中的xy 散点图,并点击子图表类型的第一个。

图88 点击下一步,得到如图89。 图89

点击下一步。 图90 分别点击标题、网格线、图例进行修改,然后点击下一步。 图91 点击完成。 图92 右击绘图区,修改绘图区格式,双击做表格,修改坐标轴刻度,最后的散点图。

图93 观察散点图,其呈S 型曲线,符合logistic 曲线。采用转化为线性方程的方法求解模型。 3.2 Logistic 曲线方程及线性化 Logistic 曲线方程为: 1at k y me -= + (12) (1) 将数据线性化及成图 转化为线性方程为: 01'y a a t =+ (13) 其中,'ln(/1)y k y =-,0ln a m =,1a a =- 具体操作为: 向excel 表格中输入y ’数据。

Logistic回归分析报告结果解读分析

L o g i s t i c回归分析报告结果解读分析Logistic回归常用于分析二分类因变量(如存活和死亡、患病和未患病等)与多个自变量的关系。比较常用的情形是分析危险因素与是否发生某疾病相关联。例如,若探讨胃癌的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群有不同的临床表现和生活方式等,因变量就为有或无胃癌,即“是”或“否”,为二分类变量,自变量包括年龄、性别、饮食习惯、是否幽门螺杆菌感染等。自变量既可以是连续变量,也可以为分类变量。通过Logistic回归分析,就可以大致了解胃癌的危险因素。 Logistic回归与多元线性回归有很多相同之处,但最大的区别就在于他们的因变量不同。多元线性回归的因变量为连续变量;Logistic回归的因变量为二分类变量或多分类变量,但二分类变量更常用,也更加容易解释。 回归的用法 一般而言,Logistic回归有两大用途,首先是寻找危险因素,如上文的例子,找出与胃癌相关的危险因素;其次是用于预测,我们可以根据建立的Logistic回归模型,预测在不同的自变量情况下,发生某病或某种情况的概率(包括风险评分的建立)。 2.用Logistic回归估计危险度 所谓相对危险度(riskratio,RR)是用来描述某一因素不同状态发生疾病(或其它结局)危险程度的 比值。Logistic回归给出的OR(oddsratio)值与相对危险度类似,常用来表示相对于某一人群,另一人群发生终点事件的风险超出或减少的程度。如不同性别的胃癌发生危险不同,通过Logistic回归可以求出危险度的具体数值,例如,这样就表示,男性发生胃癌的风险是女性的倍。这里要注意估计的方向问题,以女性作为参照,男性患

Logistic回归分析报告结果解读分析

Logistic回归分析报告结果解读分析Logistic回归常用于分析二分类因变量(如存活和死亡、患病和未患病等)与多个自变量的关系。比较常用的情形是分析危险因素与是否发生某疾病相关联。例如,若探讨胃癌的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群有不同的临床表现和生活方式等,因变量就为有或无胃癌,即“是”或“否”,为二分类变量,自变量包括年龄、性别、饮食习惯、是否幽门螺杆菌感染等。自变量既可以是连续变量,也可以为分类变量。通过Logistic回归分析,就可以大致了解胃癌的危险因素。 Logistic回归与多元线性回归有很多相同之处,但最大的区别就在于他们的因变量不同。多元线性回归的因变量为连续变量;Logistic回归的因变量为二分类变量或多分类变量,但二分类变量更常用,也更加容易解释。 1.Logistic回归的用法 一般而言,Logistic回归有两大用途,首先是寻找危险因素,如上文的例子,找出与胃癌相关的危险因素;其次是用于预测,我们可以根据建立的Logistic回归模型,预测在不同的自变量情况下,发生某病或某种情况的概率(包括风险评分的建立)。 2.用Logistic回归估计危险度 所谓相对危险度(risk ratio,RR)是用来描述某一因素不同状态发生疾病(或其它结局)危险程度的 比值。Logistic回归给出的OR(odds ratio)值与相对危险度类似,常用来表示相对于某一人群,另一人群发生终点事件的风险超出或减少的程度。如不同性别的胃癌发生危险不同,通过Logistic回归可以求出危险度的具体数值,例如1.7,

这样就表示,男性发生胃癌的风险是女性的1.7倍。这里要注意估计的方向问题,以女性作为参照,男性患胃癌的OR是1.7。如果以男性作为参照,算出的OR将会是0.588(1/1.7),表示女性发生胃癌的风险是男性的0.588倍,或者说,是男性的58.8%。撇开了参照组,相对危险度就没有意义了。 Logistic回归在医学研究中广泛使用的原因之一,就是模型直接给出具有临床实际意义的OR值,很大程度上方便了结果的解读与推广。 图1 相对危险度(risk ratio,RR)与OR(odds ratio)的表达 3. Logistic报告OR值或β值 在Logistic回归结果汇报时,往往会遇到这样一个问题:是应该报告OR值,

SPSS学习笔记之——二项Logistic回归分析

SPSS学习笔记之——二项Logistic回归分析 一、概述 Logistic回归主要用于因变量为分类变量(如疾病的缓解、不缓解,评比中的好、中、差等)的回归分析,自变量可以为分类变量,也可以为连续变量。他可以从多个自变量中选出对因变量有影响的自变量,并可以给出预测公式用于预测。 因变量为二分类的称为二项logistic回归,因变量为多分类的称为多元logistic回归。 下面学习一下Odds、OR、RR的概念: 在病例对照研究中,可以画出下列的四格表: ------------------------------------------------------ 暴露因素病例对照 ----------------------------------------------------- 暴露 a b 非暴露 c d ----------------------------------------------- Odds:称为比值、比数,是指某事件发生的可能性(概率)与不发生的可能性(概率)之比。在病例对照研究中病例组的暴露比值为: odds1 = (a/(a+c))/(c(a+c)) = a/c, 对照组的暴露比值为: odds2 = (b/(b+d))/(d/(b+d)) = b/d OR:比值比,为:病例组的暴露比值(odds1)/对照组的暴露比值(odds2) = ad/bc 换一种角度,暴露组的疾病发生比值: odds1 = (a/(a+b))/(b(a+b)) = a/b 非暴露组的疾病发生比值: odds2 = (c/(c+d))/(d/(c+d)) = c/d OR = odds1/odds2 = ad/bc 与之前的结果一致。 OR的含义与相对危险度相同,指暴露组的疾病危险性为非暴露组的多少倍。OR>1说明疾病的危险度因暴露而增加,暴露与疾病之间为“正”关联;OR<1说明疾病的危险度因暴露而减少,暴露与疾病之间为“负”关联。还应计算OR的置信区间,若区间跨1,一般说明该因素无意义。 关联强度大致如下: ------------------------------------------------------ OR值联系强度 ------------------------------------------------------ 0.9-1.0 1.0-1.1 无 0.7-0.8 1.2-1.4 弱(前者为负关联,后者为正关联) 0.4-0.6 1.5-2.9 中等(同上) 0.1-0.3 3.0-9.0 强(同上) <0.1 10.0以上很强(同上) ------------------------------------------------------

二分类Logistic回归的详细SPSS操作

SPSS操作:二分类Logistic回归 作者:张耀文 1、问题与数据 某呼吸内科医生拟探讨吸烟与肺癌发生之间的关系,开展了一项成组设计的病例对照研究。选择该科室内肺癌患者为病例组,选择医院内其它科室的非肺癌患者为对照组。通过查阅病历、问卷调查的方式收集了病例组和对照组的以下信息:性别、年龄、BMI、COPD病史和是否吸烟。变量的赋值和部分原始数据见表1和表2。该医生应该如何分析? 表1. 肺癌危险因素分析研究的变量与赋值 表2. 部分原始数据 ID gender age BMI COPD smoke cancer 1 0 34 0 1 1 0 2 1 32 0 1 0 1 3 0 27 0 1 1 1 4 1 28 0 1 1 0 5 1 29 0 1 0 0 6 0 60 0 2 0 0 7 1 29 0 0 1 1 8 1 29 1 1 1 1 9 1 37 0 1 0 0 10 0 17 0 0 0 0 11 0 20 0 0 1 1 12 1 35 0 0 0 0 13 0 17 1 0 1 1

………………… 2、对数据结构的分析 该设计中,因变量为二分类,自变量(病例对照研究中称为暴露因素)有二分类变量(性别、BMI和是否吸烟)、连续变量(年龄)和有序多分类变量(COPD 病史)。要探讨二分类因变量与自变量之间的关系,应采用二分类Logistic回归模型进行分析。 在进行二分类Logistic回归(包括其它Logistic回归)分析前,如果样本不多而变量较多,建议先通过单变量分析(t检验、卡方检验等)考察所有自变量与因变量之间的关系,筛掉一些可能无意义的变量,再进行多因素分析,这样可以保证结果更加可靠。即使样本足够大,也不建议直接把所有的变量放入方程直接分析,一定要先弄清楚各个变量之间的相互关系,确定自变量进入方程的形式,这样才能有效的进行分析。 本例中单变量分析的结果见表3(常作为研究报告或论文中的表1)。 表3. 病例组和对照组暴露因素的单因素比较 病例组(n=85)对照组(n=259) χ2 /t统计量P 性别,男(%)56 (65.9) 126 (48.6) 7.629 <0.01 年龄(岁),x± s40.3 ±14.0 38.6 ±12.4 1.081 0.28 BMI,n (%) 正常48 (56.5) 137 (52.9) 0.329 0.57 超重或肥胖37 (43.5) 122 (47.1) COPD病史,n (%) 无21 (24.7) 114 (44.0) 14.123 <0.01 轻中度24 (28.2) 75 (29.0) 重度40 (47.1) 70 (27.0) 是否吸烟,n(%) 否18 (21.2) 106 (40.9) 10.829 <0.01 是67 (78.8) 153 (59.1) 单因素分析中,病例组和对照组之间的差异有统计学意义的自变量包括:性别、COPD病史和是否吸烟。 此时,应当考虑应该将哪些自变量纳入Logistic回归模型。一般情况下,建议纳入的变量有:1)单因素分析差异有统计学意义的变量(此时,最好将P值放宽一些,比如0.1或0.15等,避免漏掉一些重要因素);2)单因素分析时,

第十二章+Logistic回归分析

第十二章 Logistic 回归分析 一、Logistic 回归概述: Logistic 回归主要用于筛选疾病的危险因素、预后因素或评价治疗措施;通常以疾病的死亡、痊愈等结果发生的概率为因变量,以影响疾病发生和预后的因素为自变量建立模型。 二、Logistic 回归的分类及资料类型: 第一节 非条件Logistic 回归分析 一、Logistic 回归模型: Logistic 回归模型: logit (P )= ln( p p -1) = β0+β1χ1 + … +βn χn 二、回归系数的估计(参数估计): 回归模型的参数估计:Logistic 回归模型的参数估计通常利用最大似然估计法。 三、假设检验: 1.Logistic 回归方程的检验: ·检验模型中所有自变量整体来看是否与所研究事件的对数优势比存在线性关系,也即方程是否成立。 ·检验的方法有似然比检验、比分检验(score test )和Wald 检验(wald test )。上述三种方法中,似然比检验最可靠。 ·似然比检验(likehood ratio test ):通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行,其统计量为G=-2ln(L)(又称Deviance )。无效假设H 0:β=0。当H 0成立时,检验统计量G 近似服从自由度为N-P-1的X 2分布。当G 大于临界值时,接受H 1,拒绝无效假设,认为从整体上看适合作Logistic 回归分析,回归方程成立。 2.Logistic 回归系数的检验: ·为了确定哪些自变量能进入方程,还需要对每个自变量的回归系数进行假设检验,判断其对模型是否有贡献。 ) (11011011011011)](exp[11 )exp(1)exp(p p X X p p p p p p e X X X X X X p ββββββββββββ+++-+= +++-+=+++++++=

logistic回归模型总结

[]logistic回归模型总结 logistic回归模型是最成熟也是应用最广泛的分类模型,通过学习和实践拟通过从入门、进阶到高级的过程对其进行总结,以便加深自己的理解也为对此有兴趣者提供学习的便利。 一、有关logistic的基本概念 logistic回归主要用来预测离散因变量与一组解释变量之间的关系 最常用的是二值型logistic。即因变量的取值只包含两个类别例如:好、坏;发生、不发生;常用Y=1或Y=0表示X表示解释变量则 P(Y=1|X)表示在X的条件下Y=1的概率,logistic回归的数学表达式为: log(p/1-p)=A+BX =L其中p/1-p称为优势比(ODDS)即发生与不发生的概率之比 可以根据上式反求出P(Y=1|X)=1/(1+e^-L) 根据样本资料可以通过最大似然估计计算出模型的参数 然后根据求出的模型进行预测 下面介绍logistic回归在SAS中的实现以及输出结果的解释 二、logistic回归模型初步

SAS中logistic回归输出结果主要包括预测模型的评价以及模型的参数 预测模型的评价与多元线性回归模型的评价类似主要从以下几个层次进行 (1)模型的整体拟合优度 主要评价预测值与观测值之间的总体一致性。可以通过以下两个指标来进行检验 1、Hosmer-Lemeshowz指标 HL统计量的原假设Ho是预测值和观测值之间无显著差异,因此HL指标的P-Value的值越大,越不能拒绝原假设,即说明模型很好的拟合了数据。 在SAS中这个指标可以用LACKFIT选项进行调用 2、AIC和SC指标即池雷准则和施瓦茨准则 与线性回归类似AIC和SC越小说明模型拟合的越好 (2)从整体上看解释变量对因变量有无解释作用 相当于多元回归中的F检验在logistic回归中可以通过似然比(likelihood ratio

SPSS实验8-二项Logistic回归分析

SPSS作业8:二项Logistic回归分析 为研究和预测某商品消费特点和趋势,收集到以往胡消费数据。数据项包括是否购买,性别,年龄和收入水平。这里采用Logistic回归的方法,是否购买作为被解释变量(0/1二值变量),其余各变量为解释变量,且其中性别和收入水平为品质变量,年龄为定距变量。变量选择采用Enter方法,性别以男为参照类,收入以低收入为参照类。 (一)基本操作: (1)选择菜单Analyz e-Regression-Binary Logistic; (2)选择是否购买作为被解释变量到Dependent框中,选其余各变量为解释变量到Covariates框中,采用Enter方法,结果如下: 分析:上表显示了对品质变量产生虚拟变量的情况,产生的虚拟变量命名为原变量名(编码)。可以看到,对收入生成了两个虚拟变量名为Income(1)和Income(2),分别表示是否中收入和是否高收入,两变量均为0时表示低收入;对性别生成了一个虚拟变量名为Gedder(1),表示是否女,取值为0

时表示为男。 消费的二项Logistic分析结果(二)(强制进入策略) 分析:上表显示了Logistic分析初始阶段(第零步)方程中只有常数项时的错判矩阵。可以看到:269人中实际没购买且模型预测正确,正确率为100%;162人中实际购买了但模型均预测错误,正确率为0%。模型总的预测正确率为62.4%。 消费的二项Logistic分析结果(三)(强制进入策略)

分析:上表显示了方程中只有常数项时的回归系数方面的指标,各数据项的含义依次为回归系数,回归系数标准误差,Wald检验统计量的观测值,自由度,Wald检验统计量的概率p值,发生比。由于此时模型中未包含任何解释变量,因此该表没有实际意义。 分析:上表显示了待进入方程的各个变量的情况,各数据项的含义依次为Score检验统计量的观测值,自由度和概率p值。可以看到,如果下一步Age 进入方程,则Score检验统计量的观测值为1.268,概率p值为0.26。如果显著性水平a为0.05,由于Age的概率p值大于显著性水平a,所以是不能进入方程的。但在这里,由于解释变量的筛选策略为Enter,所以这些变量也被强行进入方程。

相关主题
文本预览
相关文档 最新文档