Ferramentas do usuário

Ferramentas do site


02_tutoriais:tutorial6b:start

Diferenças

Aqui você vê as diferenças entre duas revisões dessa página.

Link para esta página de comparações

Ambos lados da revisão anterior Revisão anterior
Próxima revisão
Revisão anterior
Próxima revisão Ambos lados da revisão seguinte
02_tutoriais:tutorial6b:start [2020/10/02 17:50]
adalardo
02_tutoriais:tutorial6b:start [2023/08/29 16:59]
127.0.0.1 edição externa
Linha 6: Linha 6:
 ====== 6b. Partição da Variação dos Dados ====== ====== 6b. Partição da Variação dos Dados ======
  
-<WRAP center round tip 80%> 
 <WRAP center round box 60%> <WRAP center round box 60%>
-Video gravado pelo Google Meet em aula síncrona no dia 30 de setembro de 2020. Sem edição. +== Vídeo ​gravado pelo Google Meet em aula síncrona no dia 30 de setembro de 2020. Sem edição. ​== 
-{{videotube>​7ExgVGTbvX0 }} +{{ youtube>​7ExgVGTbvX0 }}
-</​WRAP>​ +
 </​WRAP>​ </​WRAP>​
  
Linha 21: Linha 18:
 O teste t, apresentado no [[02_tutoriais:​tutorial6:​start|tutorial 6a]], é usado apenas para o caso de termos uma variável resposta numérica contínua e uma preditora categórica com **dois níveis**. Caso a preditora tenha mais do que dois níveis, precisamos usar um outro teste que é uma generalização do teste t, o teste de <wrap em>​Análise de Variância</​wrap>​ ou <wrap em>​ANOVA</​wrap>​. O teste está baseado no princípio de partição da variação dos dados. A variação total dos dados é particionada nos componentes do que é explicado e aquele que não é explicado pela variável preditora categórica. Esse conceito é aplicado de maneira mais ampla na estatística,​ utilizado em outros tipos de estatística e para a tomada de decisão do modelo que melhor explica a variação nos dados. Por isso, vamos focar este tutorial no <wrap em>​conceito da partição da variação</​wrap>​. ​ O teste t, apresentado no [[02_tutoriais:​tutorial6:​start|tutorial 6a]], é usado apenas para o caso de termos uma variável resposta numérica contínua e uma preditora categórica com **dois níveis**. Caso a preditora tenha mais do que dois níveis, precisamos usar um outro teste que é uma generalização do teste t, o teste de <wrap em>​Análise de Variância</​wrap>​ ou <wrap em>​ANOVA</​wrap>​. O teste está baseado no princípio de partição da variação dos dados. A variação total dos dados é particionada nos componentes do que é explicado e aquele que não é explicado pela variável preditora categórica. Esse conceito é aplicado de maneira mais ampla na estatística,​ utilizado em outros tipos de estatística e para a tomada de decisão do modelo que melhor explica a variação nos dados. Por isso, vamos focar este tutorial no <wrap em>​conceito da partição da variação</​wrap>​. ​
  
-Para exemplificar a partição da variância associada à ANOVA, vamos usar o exemplo de dados de colheita de um cultivar em diferentes tipos de solos, apresentado no livro de Robert Crawley, ​ [[http://​www.bio.ic.ac.uk/​research/​mjcraw/​therbook/​index.htm/​|The R Book]], como segue abaixo:+Para exemplificar a partição da variância associada à ANOVA, vamos usar o exemplo de dados de colheita de um cultivar em diferentes tipos de solos, apresentado no livro de Robert Crawley, [[http://​www.bio.ic.ac.uk/​research/​mjcraw/​therbook/​index.htm/​|The R Book]], como segue abaixo:
  
  
Linha 41: Linha 38:
 <code rsplus> <code rsplus>
 are <- c(6,​10,​8,​6,​14,​17,​ 9, 11, 7, 11) are <- c(6,​10,​8,​6,​14,​17,​ 9, 11, 7, 11)
-arg <-  c(17, 15, 3, 11, 14, 12, 12, 8, 10, 13)+arg <- c(17, 15, 3, 11, 14, 12, 12, 8, 10, 13)
 hum <- c(13, 16, 9, 12, 15, 16, 17, 13, 18, 14) hum <- c(13, 16, 9, 12, 15, 16, 17, 13, 18, 14)
 solo <- rep(c("​arenoso",​ "​argiloso",​ "​humico"​),​ each = 10) solo <- rep(c("​arenoso",​ "​argiloso",​ "​humico"​),​ each = 10)
Linha 102: Linha 99:
 No gráfico esta variação é representada pelos segmentos verticais coloridos. A grande média é definida como a média de produtividade de todos os campos de cultivo (n=30), independente do tipo de solo, e é representada pela linha preta horizontal tracejada. No gráfico esta variação é representada pelos segmentos verticais coloridos. A grande média é definida como a média de produtividade de todos os campos de cultivo (n=30), independente do tipo de solo, e é representada pela linha preta horizontal tracejada.
  
-Medimos essa variação total  pela ''​soma quadrática'':​ os valores dos desvios dos dados em relação à grande média (segmentos verticais no gráfico) elevados ao quadrado e posteriormente somados. Essa soma quadrática total é nossa medida de variação. ​ +Medimos essa variação total pela ''​soma quadrática'':​ os valores dos desvios dos dados em relação à grande média (segmentos verticais no gráfico) elevados ao quadrado e posteriormente somados. Essa soma quadrática total é nossa medida de variação. ​
  
 $$ SQ_{"​total"​} = \sum_{i=1}^k\sum_{j=1}^n (y_{ij} - \bar{\bar{y}})^2 $$ $$ SQ_{"​total"​} = \sum_{i=1}^k\sum_{j=1}^n (y_{ij} - \bar{\bar{y}})^2 $$
Linha 120: Linha 117:
 </​code>​ </​code>​
  
-Fizemos acima todos os passos isoladamente,​ pois, alguns desse valores intermediários ​iremos utilizar mais à frente. ​+Fizemos acima todos os passos isoladamente,​ pois iremos utilizar mais à frente ​alguns desses valores intermediários
  
 Vamos iniciar a construção da nossa tabela de ANOVA, incluindo a medida de variação total na sua posição: Vamos iniciar a construção da nossa tabela de ANOVA, incluindo a medida de variação total na sua posição:
Linha 182: Linha 179:
 par(mar = c(4,4,2,1), las = 1, cex = 1.5) par(mar = c(4,4,2,1), las = 1, cex = 1.5)
 plot(x = 1:30, y = cultivar$producao , ylim = c(0,20), xlim = c(0, 30), pch=(rep(c(0,​ 1 ,2), each=10)), col = colvector, ylab = "​Produtividade (ton/​ha)",​ xlab = "​Observações",​ cex = 1) plot(x = 1:30, y = cultivar$producao , ylim = c(0,20), xlim = c(0, 30), pch=(rep(c(0,​ 1 ,2), each=10)), col = colvector, ylab = "​Produtividade (ton/​ha)",​ xlab = "​Observações",​ cex = 1)
-points(x = 1:30, y = mSolosVetor,​ pch = rep(c(15,​16,​17),​ each=10), ​ col = colvector, cex = 1.5)+points(x = 1:30, y = mSolosVetor,​ pch = rep(c(15,​16,​17),​ each=10), col = colvector, cex = 1.5)
 segments(x0 = 1, y0 = mGeral, x1= 30, col = 1, lty = 2, lwd = 1.5) segments(x0 = 1, y0 = mGeral, x1= 30, col = 1, lty = 2, lwd = 1.5)
-segments(x0 = 1:30, y0 = mSolosVetor,​ y1 = rep(mGeral, 30), col = cols, lwd =1.5)+segments(x0 = 1:30, y0 = mSolosVetor,​ y1 = rep(mGeral, 30), col = colvector, lwd =1.5)
 legend("​bottomright",​ legend = c("​arenoso",​ "​argiloso",​ "​humico"​),​ pch = 15:17 ,col = cols, title = "​Solos",​ bty = "​n"​) legend("​bottomright",​ legend = c("​arenoso",​ "​argiloso",​ "​humico"​),​ pch = 15:17 ,col = cols, title = "​Solos",​ bty = "​n"​)
  
Linha 225: Linha 222:
  
 <code rsplus> <code rsplus>
-(fcultiva <-  msq[3]/​msq[2])+(fcultiva <- msq[3]/​msq[2])
 </​code>​ </​code>​
  
Linha 233: Linha 230:
  
  
-Só falta agora o cálculo do p-valor associado à estatística F.  O F-Fisher é uma distribuição probabilística que tem dois parâmetros:​ os graus de liberdade dos cálculos da (1) variação média entre e (2) intra. ​+Só falta agora o cálculo do p-valor associado à estatística F. O F-Fisher é uma distribuição probabilística que tem dois parâmetros:​ os graus de liberdade dos cálculos da (1) variação média entre e (2) intra. ​
  
 <code rsplus> <code rsplus>
Linha 252: Linha 249:
 === Distribuição de F === === Distribuição de F ===
  
-Os gráficos de outras aulas apresentaram a distribuição de densidade probabilística,​ onde a variável ''​y'' ​ é relacionada à probabilidade de cada valor em intervalos muito pequenos. O valor da probabilidade cumulativa é a área da curva até o valor fornecido, o que é retornado pela função ''​pf''​. No caso, como utilizamos o argumento ''​lower.tail = FALSE'',​ a função retorna a outra área da curva, representada pela figura a seguir:+Os gráficos de outras aulas apresentaram a distribuição de densidade probabilística,​ onde a variável ''​y''​ é relacionada à probabilidade de cada valor em intervalos muito pequenos. O valor da probabilidade cumulativa é a área da curva até o valor fornecido, o que é retornado pela função ''​pf''​. No caso, como utilizamos o argumento ''​lower.tail = FALSE'',​ a função retorna a outra área da curva, representada pela figura a seguir:
 <code rsplus> <code rsplus>
  
02_tutoriais/tutorial6b/start.txt · Última modificação: 2023/08/29 19:35 (edição externa)