当前位置：文档之家› 【原创】在R语言中实现Logistic逻辑回归数据分析报告论文(含代码数据)

【原创】在R语言中实现Logistic逻辑回归数据分析报告论文(含代码数据)

咨询QQ：3025393450

有问题百度搜索“”就可以了

欢迎登陆官网：https://www.doczj.com/doc/7a19259193.html,/datablog

在R语言中实现Logistic逻辑回归数据分析报告

来源：大数据部落|

逻辑回归是拟合回归曲线的方法，当y是分类变量时，y = f（x）。典型的使用这种模式被预测?给定一组预测的X。预测因子可以是连续的，分类的或两者的混合。

R中的逻辑回归实现

R可以很容易地拟合逻辑回归模型。要调用的函数是glm()，拟合过程与线性回归中使用的过程没有太大差别。在这篇文章中，我将拟合一个二元逻辑回归模型并解释每一步。

数据集

我们将研究泰坦尼克号数据集。这个数据集有不同版本可以在线免费获得，但我建议使用Kaggle提供的数据集，因为它几乎可以使用（为了下载它，你需要注册Kaggle）。

数据集（训练）是关于一些乘客的数据集合（准确地说是889），并且竞赛的目标是预测生存（如果乘客幸存，则为1，否则为0）基于某些诸如服务等级，性别，年龄等特征。正如您所看到的，我们将使用分类变量和连续变量。

数据清理过程

咨询QQ：3025393450

有问题百度搜索“”就可以了

欢迎登陆官网：https://www.doczj.com/doc/7a19259193.html,/datablog

在处理真实数据集时，我们需要考虑到一些数据可能丢失或损坏的事实，因此我们需要为我们的分析准备数据集。作为第一步，我们使用该函数加载csv数据read.csv()。

确保参数na.strings等于c("")使每个缺失值编码为a NA。这将帮助我们接下来的步骤。

training.data.raw < - read.csv（'train.csv'，header = T，na.strings = c（“”））

现在我们需要检查缺失的值，并查看每个变量的唯一值，使用sapply()函数将函数作为参数传递给数据框的每一列。

sapply（training.data.raw，function（x）sum（is.na（x）））PassengerId生存的Pclass名称性别0 0 0 0 0 年龄SibSp Parch票价177 0 0 0 0 小屋着手687 2 sapply

（training.data.raw，函数（x）长度（unique（x）））PassengerId生存的Pclass名称性别891 2 3 891 2 年龄SibSp Parch票价89 7 7 681 248 小屋着手148 4

对缺失值进行可视化处理可能会有所帮助：Amelia包具有特殊的绘图功能missmap()，可以绘制数据集并突出显示缺失值：

咨询QQ：3025393450

有问题百度搜索“”就可以了欢迎登陆官网：https://www.doczj.com/doc/7a19259193.html,/datablog

咨询QQ：3025393450

有问题百度搜索“”就可以了

欢迎登陆官网：https://www.doczj.com/doc/7a19259193.html,/datablog

可变机舱有太多的缺失值，我们不会使用它。我们也会放弃PassengerId，因为它只是一个索引和票据。

使用subset()函数我们对原始数据集进行子集化，只选择相关列。

data < - subset（training.data.raw，select = c（2,3,5,6,7,8,10,12））

现在我们需要解释其他缺失的值。通过在拟合函数内设置参数来拟合广义线性模型时，R可以很容易地处理它们。但是，我个人更倾向于在可能的情况下更换NAs“手动”。有不同的方法可以做到这一点，一种典型的方法是用现有的平均值，中位数或模式代替缺失值。我将使用平均值。

数据$ Age [is.na（data $ Age）] < - mean（数据$ Age，na.rm = T）

咨询QQ：3025393450

有问题百度搜索“”就可以了

欢迎登陆官网：https://www.doczj.com/doc/7a19259193.html,/datablog

就分类变量而言，使用read.table()或read.csv()默认会将分类变量编码为因子。一个因素是R如何处理分类变量。

为了更好地理解R如何处理分类变量，我们可以使用该contrasts()函数。这个函数将告诉我们变量如何被R虚拟化，以及如何在模型中解释它们。

在进行拟合过程之前，让我提醒您清洁和格式化数据的重要性。这个预处理步骤对于获得模型的良好拟合和更好的预测能力通常是至关重要的。

模型拟合

我们将数据分成两部分：训练和测试集。训练集将用于适合我们将在测试集上进行测试的模型。

model < - glm（Survived?。，family = binomial（link ='logit'），data = train）

通过使用函数，summary()我们获得了我们模型的结果：

摘要（模型）：glm（formula = Survived?。，family = binomial（link =“logit”））偏差残差：最低1Q中位数3Q最高-2.6064 -0.5954 -0.4254 0.6220 2.4165 系数：估计标准错误z值Pr（> | z |）（截距）5.137627 0.594998 8.635 <2e-16 ***Pclass -1.087156 0.151168 -7.192 6.40e-13 ***Sexmale -2.756819 0.212026 -13.002 <2e-16 ***年龄-0.037267 0.008195 -4.547 5.43e-06 ***SibSp -0.292920 0.114642 -2.555 0.0106 * Parch -0.116576 0.128127 -0.910

0.3629 票价0.001528 0.002353 0.649 0.5160 EmbarkedQ -0.002656 0.400882 -0.007 0.9947 登入S -0.318786 0.252960 -1.260 0.2076 ---Signif。代码：0'***'0.001'**'0.01'*'0.05'。' 0.1''1（二项系列的色散参数取1）无偏差：在799自由度上为1065.39剩余偏差：791自由度709.39AIC：727.39Fisher评分迭代次数：5

解释我们的逻辑回归模型的结果

Logistic回归分析简介

Logistic回归分析简介 Logistic回归：实际上属于判别分析，因拥有很差的判别效率而不常用。1．应用范围： ①适用于流行病学资料的危险因素分析 ②实验室中药物的剂量-反应关系 ③临床试验评价 ④疾病的预后因素分析 2．Logistic回归的分类： ①按因变量的资料类型分：二分类多分类其中二分较为常用 ②按研究方法分：条件Logistic回归非条件Logistic回归两者针对的资料类型不一样，后者针对成组研究，前者针对配对或配伍研究。 3．Logistic回归的应用条件是： ①独立性。各观测对象间是相互独立的； ②LogitP与自变量是线性关系； ③样本量。经验值是病例对照各50例以上或为自变量的5-10倍（以10倍为宜），不过随着统计技术和软件的发展，样本量较小或不能进行似然

估计的情况下可采用精确logistic回归分析，此时要求分析变量不能太多，且变量分类不能太多； ④当队列资料进行logistic回归分析时，观察时间应该相同，否则需考虑观察时间的影响（建议用Poisson回归）。 4．拟和logistic回归方程的步骤： ①对每一个变量进行量化，并进行单因素分析； ②数据的离散化，对于连续性变量在分析过程中常常需要进行离散变成等级资料。可采用的方法有依据经验进行离散，或是按照四分、五分位数法来确定等级，也可采用聚类方法将计量资料聚为二类或多类，变为离散变量。 ③对性质相近的一些自变量进行部分多因素分析，并探讨各自变量（等级变量，数值变量）纳入模型时的适宜尺度，及对自变量进行必要的变量变换； ④在单变量分析和相关自变量分析的基础上，对P≤α（常取0.2，0.15或 0.3）的变量，以及专业上认为重要的变量进行多因素的逐步筛选；模型程序每拟合一个模型将给出多个指标值，供用户判断模型优劣和筛选变量。可以采用双向筛选技术：a进入变量的筛选用score统计量或G统计量或LRS(似然比统计量)，用户确定P值临界值如：0.05、0.1或0.2，选择统计量显著且最大的变量进入模型；b剔除变量的选择用Z统计量(Wald 统计量)，用户确定其P值显著性水平，当变量不显者，从模型中予以剔除。这样，选入和剔除反复循环，直至无变量选入，也无变量删除为止，选入或剔除的显著界值的确定要依具体的问题和变量的多寡而定，一般

SPSS—二元Logistic回归结果分析报告

SPSS—二元Logistic回归结果分析 2011-12-02 16:48 身心疲惫，睡意连连，头不断往下掉，拿出耳机，听下歌曲，缓解我这严重的睡意吧！今天来分析二元Logistic回归的结果分析结果如下： 1：在“案例处理汇总”中可以看出：选定的案例489个，未选定的案例361个，这个结果是根据设定的validate = 1得到的，在“因变量编码”中可以看出“违约”的两种结果“是”或者“否” 分别用值“1“和“0”代替，在“分类变量编码”中教育水平分为5类，如果选中“为完成高中，高中，大专，大学等，其中的任何一个，那么就取值为 1，未选中的为0，如果四个都未被选中，那么就是”研究生“ 频率分别代表了处在某个教育水平的个数，总和应该为489个

1：在“分类表”中可以看出：预测有360个是“否”（未违约）有129个是“是”（违约） 2：在“方程中的变量”表中可以看出：最初是对“常数项”记性赋值，B为 -1.026，标准误差为：0.103 那么wald =( B/S.E)2=(-1.026/0.103)2 = 99.2248, 跟表中的“100.029几乎接近，是因为我对数据进行的向下舍入的关系，所以数据会稍微偏小， B和Exp(B) 是对数关系，将B进行对数抓换后，可以得到：Exp(B) = e^-1.026 = 0.358, 其中自由度为1， sig为0.000，非常显著

1：从“不在方程中的变量”可以看出，最初模型，只有“常数项”被纳入了模型，其它变量都不在最初模型表中分别给出了，得分，df , Sig三个值, 而其中得分（Score)计算公式如下：（公式中（Xi- Xˉ) 少了一个平方）下面来举例说明这个计算过程：(“年龄”自变量的得分为例）从“分类表”中可以看出：有129人违约，违约记为“1”则违约总和为 129，选定案例总和为489 那么： yˉ = 129/489 = 0.16 xˉ = 16951 / 489 = 34.2 所以：∑(Xi-xˉ)2 = 30074.9979

logistic回归分析案例

1. 数据制备（栅格数据）（1）宝塔区基底图层.tif （2）居民点扩增.tif 、坡度.tif 、坡向.tif 等要素数据。在 environment settings ------ p rocessing extent ------ snap raster （选中基底图层），保证栅格数据像元无偏移，且行列的数量一致。化:Raster to ASCII Inyul r aiLtvl- 匚” k 『号樹 ± 如葡让也\1非*订kilt :f 10. 2 'iiStati EeiT-SlaT 14t L J. KT 2.通过CLUE-S 莫型中的fileconvert 模块，获得logistic 回归分析的数据集。（1）将上一步骤中的因变量 y 和影响因素x 的.txt 文档后缀改为.asc 格式，并将文件放在CLUE-S 模型所在的文件夹中。（2）打开FileCo nvert V2软件，按下图勾选，填写"file list "内容，点击start con version ， 3 田F1 曰 It:. （3）栅格数据转为 ASCII 码，生成txt 文档。匚onversion Tools Ejicel From GPS From KML From Raster 气 Raster to ASCII y Raster to Fist 声.Raster to Point

生成stat .txt文档。祥Fi le 荃 flFfijie? I1id J?1Ji w ■■ 1 ? 9><4 P t414 Tl ?J19 12词 ■M*￡LD|i4I# ■ Q电兀列心￡i k1lf\ 15?1 *■4JE RI7 <1- I 4 話M3 IS r擠uSstalB-^aG 齬￡淨珀bCMir 二i缶 pad... ■ 枝jfcsurrT^cM.a^t 炉 MBlOrtTIdH■: 护 xVcomr-.iic / rll asc 播Tann砂￡]T (2)logistic回归分析按图设置参数因变量、自变量；由于x3属于分类变量，点击分类按钮，按图设置参数。 >M!L4M|昨T祜lt?M? 曲唱-Hl'F1 wB-j' MtF M|T ffl￥ g： ZTStiRiiri SHilfi VTU '_'■ rt 舖C r TI薔色Z4d* ■i aa ■；? 1 iTdlfAflWVK4Wt4「利 E 呻■■} 1■ IdfcWM^U.一尉仇■臂H xlAftL lAMDf Jfit 1Q1?7r -iwns ■B-13磁MT 13 J 工 '-恫fl T l￡j v-IIHH M4Q J0W PW回沐神to 型 rwa： wm 1 H teiiy- 卩厲 4a13 4 ■ira 401?wa 70i-221 ?d'131fefl 加ifUnm 片nu t013*Ozmwkt他 w p1W址?囲血|淞：幽 11013 1 Qm Sft?t 121JJ V s? 014*」； 11 H?iKa； H013 5 *旳 ti a IM■ KK MS V；941 ti Q144T f 7W filwvjcfic OH