Diferenças

Aqui você vê as diferenças entre duas revisões dessa página.

--- 02_tutoriais:tutorial7b:start [2020/10/03 12:49]
adalardo [Interação entre preditoras]
+++ 02_tutoriais:tutorial7b:start [2020/10/05 16:36] (atual)
adalardo [Diagnóstico do modelo]
@@ Linha 297: / Linha 297: @@
 </WRAP>
-Para simplificar nosso tutorial vamos usar apenas as preditoras: tempo de gestação, idade da mãe e se ela é fumante ou não ((no exercício terão que usar os dados brutos e todas as variáveis)).
+Para simplificar nosso tutorial vamos usar apenas as preditoras: tempo de gestação, idade da mãe e se ela é fumante ou não.
 <code rsplus>
@@ Linha 371: / Linha 371: @@
 A única interação dupla que não parece fazer diferença quando retiramos do modelo é a ''age:smoke'', as outras explicam uma porção razoável da variação dos dados.
+Poderíamos continuar simplificando para garantir que não retemos nenhum termo que não é relevante para explicar o peso do bebê ao nascer. Entretanto, a menos que se tenha um bom motivo ((desenhos experimentais aninhados podem incluir a variável aninhada apenas na interação)), <wrap em>não retiramos os termos das variáveis isoladas quando ela está em algum termo de interação</wrap>.
 ===== Interpretação do modelo =====
@@ Linha 378: / Linha 379: @@
 <code rsplus>
 summary(ml02)
+</code>
+<code rsplus>
+Call:
+lm(formula = bwt ~ gestation + age + smoke + gestation:age +
+    gestation:smoke, data = bebes)
+Residuals:
+    Min      1Q  Median      3Q     Max
+-51.978 -10.769   0.108  10.027  50.599
+Coefficients:
+                      Estimate Std. Error t value Pr(>|t|)
+(Intercept)         135.598062  41.406657   3.275 0.001088 **
+gestation            -0.055381   0.147986  -0.374 0.708301
+age                  -4.248772   1.458653  -2.913 0.003650 **
+smokeTRUE           -75.235972  17.213833  -4.371 1.35e-05 ***
+gestation:age         0.015584   0.005224   2.983 0.002911 **
+gestation:smokeTRUE   0.239947   0.061676   3.890 0.000106 ***
+---
+Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
+Residual standard error: 16.1 on 1168 degrees of freedom
+Multiple R-squared:  0.2317,	Adjusted R-squared:  0.2284
+F-statistic: 70.45 on 5 and 1168 DF,  p-value: < 2.2e-16
+</code>
+Uma interpretação importante é com relação a variável ''smoke''. Onde foi parar o nível ''smokeFALSE''? Como é uma variável categórica de dois níveis, ''smoke''foi transformada em  variáveis indicadoras e um dos níveis deslocado para o intercepto. O que está representado no intercepto?  É a estimativa do modelo para uma mulher que não é fumante com tempo de gestação ''zero'' e  idade ''zero''. O que não faz sentido biológico nenhum.
+O intervalo de confiança dos coeficientes é retornado pela função ''confint'':
+<code rsplus>
+(coefml02 <- coef(ml02))
 confint(ml02)
+</code>
+==== Interpretação da tabela de Anova em Modelos Multiplos ====
+A função ''anova'' aplicada a um único modelo com múltiplas preditoras, nos fornece a comparação de múltiplos modelos na ordem em que as variáveis foram colocadas na fórmula. Vamos interpretar a tabela de ''anova'' do nosso modelo:
+<code rsplus>
 anova(ml02)
+</code>
+<code rsplus>
+Analysis of Variance Table
+Response: bwt
+                  Df Sum Sq Mean Sq  F value    Pr(>F)
+gestation          1  65450   65450 252.4963 < 2.2e-16 ***
+age                1    939     939   3.6241 0.0571933 .
+smoke              1  19024   19024  73.3941 < 2.2e-16 ***
+gestation:age      1   1964    1964   7.5776 0.0060012 **
+gestation:smoke    1   3923    3923  15.1354 0.0001057 ***
+Residuals       1168 302757     259
+---
+Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
 </code>
+A segunda linha nos diz que o modelo com ''gestação'' ao adicionar ''age'' não explica muita variação a mais. Na terceira linha a comparação é entre os modelos ''bwt ~ gestation + age'' com o modelo ''bwt ~ gestation + age + smoke'' a quarta é a comparação deste último com ''bwt ~ gestation + age + smoke + gestation:age''  e assim por diante, sempre comparando o modelo com tedos os termos anteriores e o que inclui todos os termos anteriores mais o termo que está na linha da tabela. Portanto, se colocarmos termos em outra ordem, as comparações serão outras.
+<code rsplus>
+ml02b <- lm(bwt ~ age + smoke + gestation + gestation:smoke
+           + gestation:age , data = bebes)
+anova(ml02b, ml02)
+anova(ml02b)
+</code>
+<code rsplus>
+Analysis of Variance Table
+Response: bwt
+                  Df Sum Sq Mean Sq  F value    Pr(>F)
+age                1    287     287   1.1068 0.2929867
+smoke              1  23757   23757  91.6509 < 2.2e-16 ***
+gestation          1  61370   61370 236.7568 < 2.2e-16 ***
+smoke:gestation    1   3580    3580  13.8130 0.0002115 ***
+age:gestation      1   2307    2307   8.9001 0.0029108 **
+Residuals       1168 302757     259
+---
+Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
+</code>
+Só para entendermos o que está apresentado nessa ''anova'', vamos comparar os modelos:
+  * 1. ''bwt ~ age + smoke + gestation''
+  * 2. ''bwt ~ age + smoke + gestation + smoke:gestation''
+<code rsplus>
+ml05 <-lm(bwt ~ age + smoke + gestation, data = bebes)
+ml06 <-lm(bwt ~ age + smoke + gestation + gestation:smoke, data = bebes)
+anova(ml05, ml06)
+</code>
+Pode haver pequenas variações nos valores por conta arredondamentos. O importante aqui é que um termo pode ser significativo ou não dependendo da ordem que for colocado, principalmente se há alguma colinearidade entre as variáveis incluídas. Ou seja, o termo que é colocado antes explica a variação que o termo que vem depois poderia explicar também!
 ===== Diagnóstico do modelo =====
+O diagnóstico das premissas do modelo é importante, para mais informações veja o tutorial da disciplina [[http://labtrop.ib.usp.br/doku.php?id=cursos:planeco:roteiro:07a-clasrcmdr| Princípios de Planejamento e Análise de Dados]] sobre o assunto. O basico pode ser interpretado nos gráficos que são feitos por padrão se usamos a função ''plot'' no objeto de modelo:
 <code rsplus>
@@ Linha 392: / Linha 487: @@
 </code>
-<WRAP center round important 60%>
-Os dados desse estudo serão usados também no exercício, porém lá, vamos partir dos dados brutos com mais variáveis
+Estando tudo certo com nosso modelo podemos passar para outras fases como preparar gráficos e interpretar os resultados.
+====== Videoaula Síncrona ======
+<WRAP center round box 80%>
+Aula síncrona gravada pelo Google Meet em 05 de outubro de 2020
+<WRAP center round tip 80%>
+{{youtube>F2TVNNZscmM}}
 </WRAP>
+</WRAP>

ecoR

Ferramentas do usuário

Ferramentas do site

Diferenças

Ferramentas da página