Diferenças

Aqui você vê as diferenças entre duas revisões dessa página.

--- 02_tutoriais:tutorial7b:start [2020/10/03 12:23]
adalardo
+++ 02_tutoriais:tutorial7b:start [2020/10/03 14:41]
adalardo [Interpretação do modelo]
@@ Linha 63: / Linha 63: @@
 **__Delineamentos Experimentais__**
-<WRAP center round tip 60%>
+<WRAP center round tip 100%>
 ^ Expressão ^ Significado ^
-| //Y ~ X// | Modele //Y// como função estatística de //X// |
+| ''y ~ x'' | Modele ''y'' como função estatística de ''x'' |
-| //A + B// | inclui ambos os fatores //A// e //B// |
+| ''y ~ x1 + x2'' | inclua as variáveis ''x1'' e ''x2'' como preditoras|
-| //A - B// | inclui todos os efeitos em //A//, exceto os que estão em //B// |
+| ''y ~ x1 + x2 + x1:x2'' | inclua também a interação de ''x1'' com ''x2''|
-| //A * B// | //A + B + A:B// |
+| ''y ~ x1 * x2'' | mesmo que ''y ~ x1 + x2 + x1:x2''  |
-| //A / B// | //A + B %in% (A)// modelos hierárquicos |
+| ''y ~ (x1 + x2 + x3)^2'' | Adiciona acima '' + x3 + x1:x3 + x2:x3''|
-| //A:B// | efeito da interação entre os fatores //A// e //B// |
+| ''y ~ (x1 + x2 + x3)^3'' | Adiciona acima '' + x1:x2:x3''|
-| //B %in% A// | efeitos de //B// dentro dos níveis de //A// |
+| ''y ~ (x1 + x2 + x3)^3 - x1:x2'' | Retira o termo ''x1:x2'' da fórmula acima|
-| //A^m// | todos os termos de //A// cruzados até à ordem //m// |
 </WRAP>
 </WRAP>
@@ Linha 301: / Linha 297: @@
 </WRAP>
-Para simplificar nosso tutorial vamos usar apenas as preditoras: tempo de gestação, idade da mãe e se ela é fumante ou não ((no exercício terão que usar os dados brutos e todas as variáveis)).
+Para simplificar nosso tutorial vamos usar apenas as preditoras: tempo de gestação, idade da mãe e se ela é fumante ou não.
 <code rsplus>
@@ Linha 375: / Linha 371: @@
 A única interação dupla que não parece fazer diferença quando retiramos do modelo é a ''age:smoke'', as outras explicam uma porção razoável da variação dos dados.
+Poderíamos continuar simplificando para garantir que não retemos nenhum termo que não é relevante para explicar o peso do bebê ao nascer. Entretanto, a menos que se tenha um bom motivo ((desenhos experimentais aninhados podem incluir a variável aninhada apenas na interação)), <wrap em>não retiramos os termos das variáveis isoladas quando ela está em algum termo de interação</wrap>.
 ===== Interpretação do modelo =====
@@ Linha 382: / Linha 379: @@
 <code rsplus>
 summary(ml02)
+</code>
+<code rsplus>
+Call:
+lm(formula = bwt ~ gestation + age + smoke + gestation:age +
+    gestation:smoke, data = bebes)
+Residuals:
+    Min      1Q  Median      3Q     Max
+-51.978 -10.769   0.108  10.027  50.599
+Coefficients:
+                      Estimate Std. Error t value Pr(>|t|)
+(Intercept)         135.598062  41.406657   3.275 0.001088 **
+gestation            -0.055381   0.147986  -0.374 0.708301
+age                  -4.248772   1.458653  -2.913 0.003650 **
+smokeTRUE           -75.235972  17.213833  -4.371 1.35e-05 ***
+gestation:age         0.015584   0.005224   2.983 0.002911 **
+gestation:smokeTRUE   0.239947   0.061676   3.890 0.000106 ***
+---
+Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
+Residual standard error: 16.1 on 1168 degrees of freedom
+Multiple R-squared:  0.2317,	Adjusted R-squared:  0.2284
+F-statistic: 70.45 on 5 and 1168 DF,  p-value: < 2.2e-16
+</code>
+Uma interpretação importante é com relação a variável ''smoke''. Onde foi parar o nível ''smokeFALSE''? Como é uma variável categórica de dois níveis, ''smoke''foi transformada em  variáveis indicadoras e um dos níveis deslocado para o intercepto. O que está representado no intercepto?  É a estimativa do modelo para uma mulher que não é fumante com tempo de gestação ''zero'' e  idade ''zero''. O que não faz sentido biológico nenhum.
+O intervalo de confiança dos coeficientes é retornado pela função ''confint'':
+<code rsplus>
+(coefml02 <- coef(ml02))
 confint(ml02)
+</code>
+==== Interpretação da tabela de Anova em Modelos Multiplos ====
+A função ''anova'' aplicada a um único modelo com múltiplas preditoras, nos fornece a comparação de múltiplos modelos na ordem em que as variáveis foram colocadas na fórmula. Vamos interpretar a tabela de ''anova'' do nosso modelo:
+<code rsplus>
 anova(ml02)
+</code>
+<code rsplus>
+Analysis of Variance Table
+Response: bwt
+                  Df Sum Sq Mean Sq  F value    Pr(>F)
+gestation          1  65450   65450 252.4963 < 2.2e-16 ***
+age                1    939     939   3.6241 0.0571933 .
+smoke              1  19024   19024  73.3941 < 2.2e-16 ***
+gestation:age      1   1964    1964   7.5776 0.0060012 **
+gestation:smoke    1   3923    3923  15.1354 0.0001057 ***
+Residuals       1168 302757     259
+---
+Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
 </code>
+A segunda linha nos diz que o modelo com ''gestação'' ao adicionar ''age'' não explica muita variação a mais. Na terceira linha a comparação é entre os modelos ''bwt ~ gestation + age'' com o modelo ''bwt ~ gestation + age + smoke'' a quarta é a comparação deste último com ''bwt ~ gestation + age + smoke + gestation:age''  e assim por diante, sempre comparando o modelo com tedos os termos anteriores e o que inclui todos os termos anteriores mais o termo que está na linha da tabela. Portanto, se colocarmos termos em outra ordem, as comparações serão outras.
+<code rsplus>
+ml02b <- lm(bwt ~ age + smoke + gestation + gestation:smoke
+           + gestation:age , data = bebes)
+anova(ml02b, ml02)
+anova(ml02b)
+</code>
+<code rsplus>
+Analysis of Variance Table
+Response: bwt
+                  Df Sum Sq Mean Sq  F value    Pr(>F)
+age                1    287     287   1.1068 0.2929867
+smoke              1  23757   23757  91.6509 < 2.2e-16 ***
+gestation          1  61370   61370 236.7568 < 2.2e-16 ***
+smoke:gestation    1   3580    3580  13.8130 0.0002115 ***
+age:gestation      1   2307    2307   8.9001 0.0029108 **
+Residuals       1168 302757     259
+---
+Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
+</code>
+Só para entendermos o que está apresentado nessa ''anova'', vamos comparar os modelos:
+  * 1. ''bwt ~ age + smoke + gestation''
+  * 2. ''bwt ~ age + smoke + gestation + smoke:gestation''
+<code rsplus>
+ml05 <-lm(bwt ~ age + smoke + gestation, data = bebes)
+ml06 <-lm(bwt ~ age + smoke + gestation + gestation:smoke, data = bebes)
+anova(ml05, ml06)
+</code>
+Pode haver pequenas variações nos valores por conta arredondamentos. O importante aqui é que um termo pode ser significativo ou não dependendo da ordem que for colocado, principalmente se há alguma colinearidade entre as variáveis incluídas. Ou seja, o termo que é colocado antes explica a variação que o termo que vem depois poderia explicar também!
 ===== Diagnóstico do modelo =====
+O diagnóstico das premissas do modelo é importante, para mais informações veja o tutorial da disciplina [[http://labtrop.ib.usp.br/doku.php?id=cursos:planeco:roteiro:07a-clasrcmdr| Princípios de Planejamento e Análise de Dados]] sobre o assunto. O basico pode ser interpretado nos gráficos que são feitos por padrão se usamos a função ''plot'' no objeto de modelo:
 <code rsplus>
@@ Linha 396: / Linha 487: @@
 </code>
-<WRAP center round important 60%>
-Os dados desse estudo serão usados também no exercício, porém lá, vamos partir dos dados brutos com mais variáveis
+Estando tudo certo com nosso modelo podemos passar para outras fases como preparar gráficos e interpretar os resultados.
-</WRAP>

ecoR

Ferramentas do usuário

Ferramentas do site

Diferenças

Ferramentas da página