Ferramentas do usuário

Ferramentas do site


02_tutoriais:tutorial6:start

Diferenças

Aqui você vê as diferenças entre duas revisões dessa página.

Link para esta página de comparações

Ambos lados da revisão anterior Revisão anterior
Próxima revisão
Revisão anterior
02_tutoriais:tutorial6:start [2023/08/29 16:08]
127.0.0.1 edição externa
02_tutoriais:tutorial6:start [2023/08/29 16:22] (atual)
Linha 14: Linha 14:
 O teste de hipótese é um instrumento poderoso para a tomada de decisão e é parte fundamental do procedimento científico de experimentos. Os testes estão baseados no conceito de variável aleatória, que são aquelas em que o resultado de um evento pode variar. Ou seja, quase tudo o que nos rodeia. Por exemplo, //​Eucalyptus saligna// em talhão de cultivo terão uma taxa de crescimento similar, mas não exatamente a mesma. O diâmetro do tronco, após sete anos de plantio, não será o mesmo para todas as árvores. Essa variabilidade tem várias fontes, genética, ambiental ou acidental, e é inerente aos dados biológicos. O esforço no cultivo é justamente no sentido de buscar as melhores taxas de crescimento e menor variação possível, para que o resultado seja eficiente e previsível. Por isso, mudas provenientes de clones a partir de cultura de tecido são usadas, visando controlar pelo menos essa fonte de variabilidade genética. ​ O teste de hipótese é um instrumento poderoso para a tomada de decisão e é parte fundamental do procedimento científico de experimentos. Os testes estão baseados no conceito de variável aleatória, que são aquelas em que o resultado de um evento pode variar. Ou seja, quase tudo o que nos rodeia. Por exemplo, //​Eucalyptus saligna// em talhão de cultivo terão uma taxa de crescimento similar, mas não exatamente a mesma. O diâmetro do tronco, após sete anos de plantio, não será o mesmo para todas as árvores. Essa variabilidade tem várias fontes, genética, ambiental ou acidental, e é inerente aos dados biológicos. O esforço no cultivo é justamente no sentido de buscar as melhores taxas de crescimento e menor variação possível, para que o resultado seja eficiente e previsível. Por isso, mudas provenientes de clones a partir de cultura de tecido são usadas, visando controlar pelo menos essa fonte de variabilidade genética. ​
  
-No teste de hipótese, assumimos que os dados variam e avaliamos se o resultado encontrado pode ter sido gerado pelo acaso e não pelo tratamento que estamos testando. No caso do //​Eucalyptus//​ poderíamos estar interessados no efeito, por exemplo, de um tipo específico de adubo. Comparando mudas que foram colocadas em tratamentos com e sem adubo iremos, quase certamente, encontrar diferenças nos tamanhos das árvores dos dois grupos. A pergunta subjacente é: será que essa diferença encontrada poderia ter sido gerada apenas por outros fatores ou ao acaso? Por exemplo, por sorte, poderíamos ter amostrado uma proporção de árvores que cresceram mais em um dos tratamentos e uma proporção menor no outro. Isso simplesmente por acaso! Considerando que há  variação no crescimento dos indivíduos,​ há uma probabilidade desse padrão emergir, nesse caso, simplesmente porque fizemos uma amostra das árvores nas duas condições. O teste de hipótese é o instrumento para nos guiar nessa interpretação. ​+No teste de hipótese, assumimos que os dados variam e avaliamos se o resultado encontrado pode ter sido gerado pelo acaso e não pelo tratamento que estamos testando. No caso do //​Eucalyptus//​ poderíamos estar interessados no efeito, por exemplo, de um tipo específico de adubo. Comparando mudas que foram colocadas em tratamentos com e sem adubo iremos, quase certamente, encontrar diferenças nos tamanhos das árvores dos dois grupos. A pergunta subjacente é: será que essa diferença encontrada poderia ter sido gerada apenas por outros fatores ou ao acaso? Por exemplo, por sorte, poderíamos ter amostrado uma proporção de árvores que cresceram mais em um dos tratamentos e uma proporção menor no outro. Isso simplesmente por acaso! Considerando que há variação no crescimento dos indivíduos,​ há uma probabilidade desse padrão emergir, nesse caso, simplesmente porque fizemos uma amostra das árvores nas duas condições. O teste de hipótese é o instrumento para nos guiar nessa interpretação. ​
 Vamos visitar estes e outros conceitos associados aos testes de hipóteses, utilizando as ferramentas disponíveis no R. Vamos visitar estes e outros conceitos associados aos testes de hipóteses, utilizando as ferramentas disponíveis no R.
  
Linha 41: Linha 41:
 ===== Dois Gráficos para ver os mesmos dados ===== ===== Dois Gráficos para ver os mesmos dados =====
  
-Vamos avaliar esses dados graficamente. O código abaixo produz um gráfico de caixa (boxplot) e também um gráfico, pouco usual, mas que nos permite visualizar a variação que existe nos dados. Vamos usar esse tipo de representação gráfica ao longo desse tutorial. Tenha certeza que entendeu o que está representado nessa figura! ​ +Vamos avaliar esses dados graficamente. O código abaixo produz um gráfico de caixa (boxplot) e também um gráfico, pouco usual, mas que nos permite visualizar a variação que existe nos dados. Vamos usar esse tipo de representação gráfica ao longo desse tutorial. Tenha certeza que entendeu o que está representado nessa figura! ​
  
 <code rsplus> <code rsplus>
Linha 49: Linha 49:
 plot(1:20, chacal, pch = rep(c(15, 16), each = 10), col = rep(1:2, each = 10), xlab = "​Observações",​ ylab = "​Comprimento da mandíbula (mm)") plot(1:20, chacal, pch = rep(c(15, 16), each = 10), col = rep(1:2, each = 10), xlab = "​Observações",​ ylab = "​Comprimento da mandíbula (mm)")
 medsex <- c(mean(macho),​ mean(femea)) medsex <- c(mean(macho),​ mean(femea))
-segments(x0 = 1:20, y0 =  chacal, y1 =  rep(medsex, each = 10), col= rep(1:2, each = 10))+segments(x0 = 1:20, y0 = chacal, y1 = rep(medsex, each = 10), col= rep(1:2, each = 10))
 lines(c(1,​10),​ c(medsex[1],​ medsex[1]),​col=1) lines(c(1,​10),​ c(medsex[1],​ medsex[1]),​col=1)
 lines(c(11,​20),​c(medsex[2],​ medsex[2]),​col=2) lines(c(11,​20),​c(medsex[2],​ medsex[2]),​col=2)
Linha 98: Linha 98:
 ==== Variável Aleatória ==== ==== Variável Aleatória ====
  
-A pergunta acima pode ser respondida se assumirmos alguns pressupostos sobre a variabilidade dos dados. Por exemplo, que a variável aleatória, tamanho de mandíbula, se ajusta a uma distribuição normal. ​ Vamos olhar os valores e compará-los com a distribuição normal com mesma média e desvio padrão dos dados. ​+A pergunta acima pode ser respondida se assumirmos alguns pressupostos sobre a variabilidade dos dados. Por exemplo, que a variável aleatória, tamanho de mandíbula, se ajusta a uma distribuição normal. Vamos olhar os valores e compará-los com a distribuição normal com mesma média e desvio padrão dos dados. ​
  
  
Linha 151: Linha 151:
 A função ''​for()''​ cria ciclos de eventos que se repetem, sua sintaxe é simples, basta eleger uma variável, no exemplo abaixo ''​i''​((pode ser qualquer nome como quando criamos um objeto. Classicamente,​ em programação utiliza-se ''​i'',​ ''​j'',​ ''​ii'',​ ''​jj''​... )) e indicar em um vetor, quais os valores que essa variável vai assumir em cada ciclo. No caso do código abaixo, os valores variam de 1 a 10. Entre ''​{ }''​ colocamos o procedimento que queremos repetir. A cada novo ciclo, ''​i''​ assume o valor seguinte do vetor que foi definido (''​1:​10''​). A função ''​for()''​ cria ciclos de eventos que se repetem, sua sintaxe é simples, basta eleger uma variável, no exemplo abaixo ''​i''​((pode ser qualquer nome como quando criamos um objeto. Classicamente,​ em programação utiliza-se ''​i'',​ ''​j'',​ ''​ii'',​ ''​jj''​... )) e indicar em um vetor, quais os valores que essa variável vai assumir em cada ciclo. No caso do código abaixo, os valores variam de 1 a 10. Entre ''​{ }''​ colocamos o procedimento que queremos repetir. A cada novo ciclo, ''​i''​ assume o valor seguinte do vetor que foi definido (''​1:​10''​).
  
-Veja o efeito do código abaixo. A função ''​cat()''​ mostra na tela (no console do R) o valor atribuído ao objeto que fornecemos. Os símbolos "​\t"​ e "​\n"​ são os caracteres no R que definem ​ tabulação e quebra de linha em uma cadeia de caracteres, respectivamente.+Veja o efeito do código abaixo. A função ''​cat()''​ mostra na tela (no console do R) o valor atribuído ao objeto que fornecemos. Os símbolos "​\t"​ e "​\n"​ são os caracteres no R que definem tabulação e quebra de linha em uma cadeia de caracteres, respectivamente.
  
  
Linha 182: Linha 182:
 </​code>​ </​code>​
  
 +É comum no R haver mais de uma maneira de fazer a mesma coisa. Dê uma olhada na função ''​replicate()''​ e no seu help para uma alternativa ao uso dos //loops// usando a função ''​for()''​. A função ''​replicate()''​ está internamente relacionada com o a função ''​lapply()''​ que vimos anteriormente e pode ser mais eficiente que os //loops// quando temos um grande volume de dados.
 ==== Visualizando a simulação ==== ==== Visualizando a simulação ====
  
Linha 188: Linha 188:
  
 <WRAP center round alert 60%> <WRAP center round alert 60%>
-Atenção usuários do RStudio: a função ''​simulaT()''​ não é tão animada assim na janela do RStudio. ​ Caso a animação não funcione, antes de submeter a linha de código contendo ''​simulaT()'',​ abra uma janela gráfica com o comando ''​x11()'' ​+Atenção usuários do RStudio: a função ''​simulaT()''​ não é tão animada assim na janela do RStudio. Caso a animação não funcione, antes de submeter a linha de código contendo ''​simulaT()'',​ abra uma janela gráfica com o comando ''​x11()'' ​
 </​WRAP>​ </​WRAP>​
  
Linha 227: Linha 227:
 str(histNull) str(histNull)
 histNull$breaks histNull$breaks
-cols <- rep(c(rgb(0,​ 0, 1, 0.3), rgb(1, 0, 0, 0.3)), ​  ​c(10, 2)) +cols <- rep(c(rgb(0,​ 0, 1, 0.3), rgb(1, 0, 0, 0.3)), ​ c(10, 2)) 
-plot(histNull, ​ main = "​Cenário Nulo", xlab = "​Diferença entre médias (mm)", ​ ylab = "​Frequência",​ col = cols)+plot(histNull,​ main = "​Cenário Nulo", xlab = "​Diferença entre médias (mm)", ylab = "​Frequência",​ col = cols)
 abline(v = difsex, lty = 2) abline(v = difsex, lty = 2)
 </​code>​ </​code>​
Linha 270: Linha 270:
 {{:​02_tutoriais:​tutorial6:​p_values.png?​300 ​ |}} {{:​02_tutoriais:​tutorial6:​p_values.png?​300 ​ |}}
 O p-valor está em crise! Muitos artigos têm sido publicados recentemente discutindo o <wrap em>​p-valor</​wrap>​. Um dos pontos mais atacados é o já consagrado limite de 5% de probabilidade para a significância do resultado. Outro ponto atacado é a própria palavra ​ O p-valor está em crise! Muitos artigos têm sido publicados recentemente discutindo o <wrap em>​p-valor</​wrap>​. Um dos pontos mais atacados é o já consagrado limite de 5% de probabilidade para a significância do resultado. Outro ponto atacado é a própria palavra ​
-<wrap em>​significância</​wrap>​ que é mal interpretada ou pior, não define bem o que o resultado do p-valor significa! Alguns autores sugerem que usemos algo como **clareza** do resultado. Por exemplo, o nosso resultado é claro, as mandíbulas de machos, em média, são maiores que as das fêmeas. Entretanto, será que essa diferença de ''​4.8 mm''​ é relevante ou significante? ​ Será que essa diferença, tão pequena, condiciona alguma variação biologicamente significativa?​+<wrap em>​significância</​wrap>​ que é mal interpretada ou pior, não define bem o que o resultado do p-valor significa! Alguns autores sugerem que usemos algo como **clareza** do resultado. Por exemplo, o nosso resultado é claro, as mandíbulas de machos, em média, são maiores que as das fêmeas. Entretanto, será que essa diferença de ''​4.8 mm''​ é relevante ou significante?​ Será que essa diferença, tão pequena, condiciona alguma variação biologicamente significativa?​
 Aqui uma seleção de artigos sobre o tema: Aqui uma seleção de artigos sobre o tema:
  
Linha 292: Linha 292:
   * <wrap em>​Existe diferença entre machos e fêmeas?</​wrap>​   * <wrap em>​Existe diferença entre machos e fêmeas?</​wrap>​
  
-Neste caso, não estamos preocupados se a diferença é macho maior que fêmea ou fêmea maior que macho. Apenas nos perguntamos se há diferença entre os sexos. Nesse caso, o cálculo do ''​p-valor''​ é diferente, pois podemos encontrar diferenças para qualquer dos dois lados da nossa distribuição de diferenças. Vamos calcular o ''​p-valor''​ para esse caso, para tanto, precisamos apenas fazer a mesma operação com os  [[https://​pt.wikipedia.org/​wiki/​Valor_absoluto_(%C3%A1lgebra)|valores absolutos]]. ​+Neste caso, não estamos preocupados se a diferença é macho maior que fêmea ou fêmea maior que macho. Apenas nos perguntamos se há diferença entre os sexos. Nesse caso, o cálculo do ''​p-valor''​ é diferente, pois podemos encontrar diferenças para qualquer dos dois lados da nossa distribuição de diferenças. Vamos calcular o ''​p-valor''​ para esse caso, para tanto, precisamos apenas fazer a mesma operação com os [[https://​pt.wikipedia.org/​wiki/​Valor_absoluto_(%C3%A1lgebra)|valores absolutos]]. ​
  
 <code rsplus> <code rsplus>
Linha 302: Linha 302:
    
 <code rsplus> <code rsplus>
-cols <- rep(c(rgb(1,​ 0, 0, 0.3), rgb(0, 0, 1, 0.3), rgb(1, 0, 0, 0.3)), ​  ​c(1, 9, 2)) +cols <- rep(c(rgb(1,​ 0, 0, 0.3), rgb(0, 0, 1, 0.3), rgb(1, 0, 0, 0.3)), ​ c(1, 9, 2)) 
-plot(histNull, ​ main = "​Cenário Nulo", xlab = "​Diferença entre médias (mm)", ​ ylab = "​Frequência",​ col = cols)+plot(histNull,​ main = "​Cenário Nulo", xlab = "​Diferença entre médias (mm)", ylab = "​Frequência",​ col = cols)
 abline(v = c(difsex, -1* difsex), lty = 2) abline(v = c(difsex, -1* difsex), lty = 2)
 savePlot("​biNula.png",​ type = "​png"​) savePlot("​biNula.png",​ type = "​png"​)
Linha 313: Linha 313:
  
  
-Acabamos de recriar um dos teste mais famosos da estatística frequentista clássica: <wrap em>o teste t de Student</​wrap>,​ apenas usamos ​ a diferença entre médias e não a estatística ''​t''​ criada por [[https://​en.wikipedia.org/​wiki/​William_Sealy_Gosset| William Gosset]]. ​+Acabamos de recriar um dos teste mais famosos da estatística frequentista clássica: <wrap em>o teste t de Student</​wrap>,​ apenas usamos a diferença entre médias e não a estatística ''​t''​ criada por [[https://​en.wikipedia.org/​wiki/​William_Sealy_Gosset| William Gosset]]. ​
  
 ===== O teste t de Gosset ===== ===== O teste t de Gosset =====
  
-William Gosset trabalhava na cervejaria [[https://​en.wikipedia.org/​wiki/​Guinness|Guinness]] em 1907 quando inventou o teste t.  Como havia cláusulas no contrato de trabalho que proibiam a publicação de dados da cervejaria, ele usou o pseudônimo de **Student**. Hoje o teste é conhecido como <wrap em>teste t de Student</​wrap>​. Esse teste está baseada na distribuição da estatística ''​t'': ​+William Gosset trabalhava na cervejaria [[https://​en.wikipedia.org/​wiki/​Guinness|Guinness]] em 1907 quando inventou o teste t. Como havia cláusulas no contrato de trabalho que proibiam a publicação de dados da cervejaria, ele usou o pseudônimo de **Student**. Hoje o teste é conhecido como <wrap em>teste t de Student</​wrap>​. Esse teste está baseada na distribuição da estatística ''​t'': ​
  
  
Linha 337: Linha 337:
 (resMF <- sqrt((varMacho/​10)+(varFemea/​10))) (resMF <- sqrt((varMacho/​10)+(varFemea/​10)))
 ## statistica t ## statistica t
-(tsex  <- difsex/​resMF)+(tsex <- difsex/​resMF)
 </​code>​ </​code>​
  
02_tutoriais/tutorial6/start.txt · Última modificação: 2023/08/29 16:22 (edição externa)