Ferramentas do usuário

Ferramentas do site


02_tutoriais:tutorial6b:start

Diferenças

Aqui você vê as diferenças entre duas revisões dessa página.

Link para esta página de comparações

Ambos lados da revisão anterior Revisão anterior
Próxima revisão
Revisão anterior
02_tutoriais:tutorial6b:start [2020/10/02 17:50]
adalardo
02_tutoriais:tutorial6b:start [2023/08/29 19:35] (atual)
Linha 6: Linha 6:
 ====== 6b. Partição da Variação dos Dados ====== ====== 6b. Partição da Variação dos Dados ======
  
-<WRAP center round tip 80%> 
 <WRAP center round box 60%> <WRAP center round box 60%>
-Video gravado pelo Google Meet em aula síncrona no dia 30 de setembro de 2020. Sem edição. +== Vídeo ​gravado pelo Google Meet em aula síncrona no dia 30 de setembro de 2020. Sem edição. ​== 
-{{videotube>​7ExgVGTbvX0 }} +{{ youtube>​7ExgVGTbvX0 }}
-</​WRAP>​ +
 </​WRAP>​ </​WRAP>​
  
Linha 21: Linha 18:
 O teste t, apresentado no [[02_tutoriais:​tutorial6:​start|tutorial 6a]], é usado apenas para o caso de termos uma variável resposta numérica contínua e uma preditora categórica com **dois níveis**. Caso a preditora tenha mais do que dois níveis, precisamos usar um outro teste que é uma generalização do teste t, o teste de <wrap em>​Análise de Variância</​wrap>​ ou <wrap em>​ANOVA</​wrap>​. O teste está baseado no princípio de partição da variação dos dados. A variação total dos dados é particionada nos componentes do que é explicado e aquele que não é explicado pela variável preditora categórica. Esse conceito é aplicado de maneira mais ampla na estatística,​ utilizado em outros tipos de estatística e para a tomada de decisão do modelo que melhor explica a variação nos dados. Por isso, vamos focar este tutorial no <wrap em>​conceito da partição da variação</​wrap>​. ​ O teste t, apresentado no [[02_tutoriais:​tutorial6:​start|tutorial 6a]], é usado apenas para o caso de termos uma variável resposta numérica contínua e uma preditora categórica com **dois níveis**. Caso a preditora tenha mais do que dois níveis, precisamos usar um outro teste que é uma generalização do teste t, o teste de <wrap em>​Análise de Variância</​wrap>​ ou <wrap em>​ANOVA</​wrap>​. O teste está baseado no princípio de partição da variação dos dados. A variação total dos dados é particionada nos componentes do que é explicado e aquele que não é explicado pela variável preditora categórica. Esse conceito é aplicado de maneira mais ampla na estatística,​ utilizado em outros tipos de estatística e para a tomada de decisão do modelo que melhor explica a variação nos dados. Por isso, vamos focar este tutorial no <wrap em>​conceito da partição da variação</​wrap>​. ​
  
-Para exemplificar a partição da variância associada à ANOVA, vamos usar o exemplo de dados de colheita de um cultivar em diferentes tipos de solos, apresentado no livro de Robert Crawley, ​ [[http://​www.bio.ic.ac.uk/​research/​mjcraw/​therbook/​index.htm/​|The R Book]], como segue abaixo:+Para exemplificar a partição da variância associada à ANOVA, vamos usar o exemplo de dados de colheita de um cultivar em diferentes tipos de solos, apresentado no livro de Robert Crawley, [[http://​www.bio.ic.ac.uk/​research/​mjcraw/​therbook/​index.htm/​|The R Book]], como segue abaixo:
  
  
Linha 41: Linha 38:
 <code rsplus> <code rsplus>
 are <- c(6,​10,​8,​6,​14,​17,​ 9, 11, 7, 11) are <- c(6,​10,​8,​6,​14,​17,​ 9, 11, 7, 11)
-arg <-  c(17, 15, 3, 11, 14, 12, 12, 8, 10, 13)+arg <- c(17, 15, 3, 11, 14, 12, 12, 8, 10, 13)
 hum <- c(13, 16, 9, 12, 15, 16, 17, 13, 18, 14) hum <- c(13, 16, 9, 12, 15, 16, 17, 13, 18, 14)
 solo <- rep(c("​arenoso",​ "​argiloso",​ "​humico"​),​ each = 10) solo <- rep(c("​arenoso",​ "​argiloso",​ "​humico"​),​ each = 10)
Linha 102: Linha 99:
 No gráfico esta variação é representada pelos segmentos verticais coloridos. A grande média é definida como a média de produtividade de todos os campos de cultivo (n=30), independente do tipo de solo, e é representada pela linha preta horizontal tracejada. No gráfico esta variação é representada pelos segmentos verticais coloridos. A grande média é definida como a média de produtividade de todos os campos de cultivo (n=30), independente do tipo de solo, e é representada pela linha preta horizontal tracejada.
  
-Medimos essa variação total  pela ''​soma quadrática'':​ os valores dos desvios dos dados em relação à grande média (segmentos verticais no gráfico) elevados ao quadrado e posteriormente somados. Essa soma quadrática total é nossa medida de variação. ​ +Medimos essa variação total pela ''​soma quadrática'':​ os valores dos desvios dos dados em relação à grande média (segmentos verticais no gráfico) elevados ao quadrado e posteriormente somados. Essa soma quadrática total é nossa medida de variação. ​
  
 $$ SQ_{"​total"​} = \sum_{i=1}^k\sum_{j=1}^n (y_{ij} - \bar{\bar{y}})^2 $$ $$ SQ_{"​total"​} = \sum_{i=1}^k\sum_{j=1}^n (y_{ij} - \bar{\bar{y}})^2 $$
Linha 120: Linha 117:
 </​code>​ </​code>​
  
-Fizemos acima todos os passos isoladamente,​ pois, alguns desse valores intermediários ​iremos utilizar mais à frente. ​+Fizemos acima todos os passos isoladamente,​ pois iremos utilizar mais à frente ​alguns desses valores intermediários
  
 Vamos iniciar a construção da nossa tabela de ANOVA, incluindo a medida de variação total na sua posição: Vamos iniciar a construção da nossa tabela de ANOVA, incluindo a medida de variação total na sua posição:
Linha 182: Linha 179:
 par(mar = c(4,4,2,1), las = 1, cex = 1.5) par(mar = c(4,4,2,1), las = 1, cex = 1.5)
 plot(x = 1:30, y = cultivar$producao , ylim = c(0,20), xlim = c(0, 30), pch=(rep(c(0,​ 1 ,2), each=10)), col = colvector, ylab = "​Produtividade (ton/​ha)",​ xlab = "​Observações",​ cex = 1) plot(x = 1:30, y = cultivar$producao , ylim = c(0,20), xlim = c(0, 30), pch=(rep(c(0,​ 1 ,2), each=10)), col = colvector, ylab = "​Produtividade (ton/​ha)",​ xlab = "​Observações",​ cex = 1)
-points(x = 1:30, y = mSolosVetor,​ pch = rep(c(15,​16,​17),​ each=10), ​ col = colvector, cex = 1.5)+points(x = 1:30, y = mSolosVetor,​ pch = rep(c(15,​16,​17),​ each=10), col = colvector, cex = 1.5)
 segments(x0 = 1, y0 = mGeral, x1= 30, col = 1, lty = 2, lwd = 1.5) segments(x0 = 1, y0 = mGeral, x1= 30, col = 1, lty = 2, lwd = 1.5)
-segments(x0 = 1:30, y0 = mSolosVetor,​ y1 = rep(mGeral, 30), col = cols, lwd =1.5)+segments(x0 = 1:30, y0 = mSolosVetor,​ y1 = rep(mGeral, 30), col = colvector, lwd =1.5)
 legend("​bottomright",​ legend = c("​arenoso",​ "​argiloso",​ "​humico"​),​ pch = 15:17 ,col = cols, title = "​Solos",​ bty = "​n"​) legend("​bottomright",​ legend = c("​arenoso",​ "​argiloso",​ "​humico"​),​ pch = 15:17 ,col = cols, title = "​Solos",​ bty = "​n"​)
  
Linha 225: Linha 222:
  
 <code rsplus> <code rsplus>
-(fcultiva <-  msq[3]/​msq[2])+(fcultiva <- msq[3]/​msq[2])
 </​code>​ </​code>​
  
Linha 233: Linha 230:
  
  
-Só falta agora o cálculo do p-valor associado à estatística F.  O F-Fisher é uma distribuição probabilística que tem dois parâmetros:​ os graus de liberdade dos cálculos da (1) variação média entre e (2) intra. ​+Só falta agora o cálculo do p-valor associado ​ao [[https://​pt.wikipedia.org/​wiki/​Teste_F|teste F]] e à estatística F. O F-Fisher é uma distribuição probabilística que tem dois parâmetros:​ os graus de liberdade dos cálculos da (1) variação média entre e (2) intra grupos
  
 <code rsplus> <code rsplus>
Linha 252: Linha 249:
 === Distribuição de F === === Distribuição de F ===
  
-Os gráficos de outras aulas apresentaram a distribuição de densidade probabilística,​ onde a variável ''​y'' ​ é relacionada à probabilidade de cada valor em intervalos muito pequenos. O valor da probabilidade cumulativa é a área da curva até o valor fornecido, o que é retornado pela função ''​pf''​. No caso, como utilizamos o argumento ''​lower.tail = FALSE'',​ a função retorna a outra área da curva, representada pela figura a seguir:+Os gráficos de outras aulas apresentaram a distribuição de densidade probabilística,​ onde a variável ''​y''​ é relacionada à probabilidade de cada valor em intervalos muito pequenos. O valor da probabilidade cumulativa é a área da curva até o valor fornecido, o que é retornado pela função ''​pf''​. No caso, como utilizamos o argumento ''​lower.tail = FALSE'',​ a função retorna a outra área da curva, representada pela figura a seguir:
 <code rsplus> <code rsplus>
  
02_tutoriais/tutorial6b/start.1601671843.txt.gz · Última modificação: 2020/10/02 17:50 por adalardo