Ferramentas do usuário

Ferramentas do site


02_tutoriais:tutorial3:start

Diferenças

Aqui você vê as diferenças entre duas revisões dessa página.

Link para esta página de comparações

Ambos lados da revisão anterior Revisão anterior
Próxima revisão
Revisão anterior
02_tutoriais:tutorial3:start [2023/08/14 16:42]
127.0.0.1 edição externa
02_tutoriais:tutorial3:start [2023/08/23 12:24] (atual)
Linha 58: Linha 58:
 </​code>​ </​code>​
  
-O que aconteceu aqui? Por que não conseguimos mais operar o vetor "num"? Vamos agora voltar o vetor para sua forma original e operar novamente:+O que aconteceu aqui? Por que não conseguimos mais operar o vetor ''​num''​? Vamos agora voltar o vetor para sua forma original e operar novamente:
  
 <code rsplus| Retorno do elemento>​ <code rsplus| Retorno do elemento>​
Linha 86: Linha 86:
 ===== Leitura de Dados ===== ===== Leitura de Dados =====
  
-A principal função para a leitura de dados no R é ''​read.table''​. Ela é bem flexível e se aplica para a leitura de dados tabulares como uma planilha eletrônica usual, tendo colunas como variáveis e as linhas como observações. Esta estrutura é análoga a um conjunto de vetores lado a lado, de mesmo comprimento,​ como veremos a seguir. Antes da leitura de dados é importante garantir que temos eles bem organizados em uma planilha. O artigo [[https://​doi.org/​10.1080/​00031305.2017.1375989|Data Organization in Spreedsheets (Broman & Woo, 2018)]] faz uma ótima síntese de boas práticas para estruturar dados brutos em uma planilha, sua leitura é rápida e irá poupar muito tempo futuro e evitar muitos erros comuns que usuários de planilhas cometem. Os exemplos de [[https://​datacarpentry.org/​spreadsheet-ecology-lesson/​02-common-mistakes/|erros comuns em planilhas de ecologia do datacarpentry]] são também muito bons, uma forma interessante de aprender é ser exposto ao que não devemos fazer. ​+A principal função para a leitura de dados no R é ''​read.table''​. Ela é bem flexível e se aplica para a leitura de dados tabulares como uma planilha eletrônica usual, tendo colunas como variáveis e as linhas como observações. Esta estrutura é análoga a um conjunto de vetores lado a lado, de mesmo comprimento,​ como veremos a seguir. Antes da leitura de dados é importante garantir que temos eles bem organizados em uma planilha. O artigo [[https://​doi.org/​10.1080/​00031305.2017.1375989|Data Organization in Spreedsheets (Broman & Woo, 2018)]] faz uma ótima síntese de boas práticas para estruturar dados brutos em uma planilha, sua leitura é rápida e irá poupar muito tempo futuro e evitar muitos erros comuns que usuários de planilhas cometem. Os exemplos de [[https://​datacarpentry.org/​spreadsheet-ecology-lesson/​02-common-mistakes.html|erros comuns em planilhas de ecologia do datacarpentry]] são também muito bons, uma forma interessante de aprender é ser exposto ao que não devemos fazer. ​
  
 Tendo a planilha eletrônica com os dados brutos bem estruturados,​ precisamos exportá-la como arquivo texto puro para fazer a leitura no R. Os arquivos de texto são uma forma eficiente de armazenar dados que tem uma estrutura simples de linhas e colunas. Além de poderem ser abertos em qualquer programa simples de texto e sistema operacional,​ são reconhecidos nas planilhas eletrônicas como estrutura de dados. Normalmente,​ utilizamos as extensões ''​.txt''​ ou ''​.csv''​ para designar arquivos texto com campos de dados separados por tabulação e vírgula, respectivamente((existem muitos outros tipos de formatos de armazenamento de dados que incorporam dados mais complexos e georreferenciados)). ​ Tendo a planilha eletrônica com os dados brutos bem estruturados,​ precisamos exportá-la como arquivo texto puro para fazer a leitura no R. Os arquivos de texto são uma forma eficiente de armazenar dados que tem uma estrutura simples de linhas e colunas. Além de poderem ser abertos em qualquer programa simples de texto e sistema operacional,​ são reconhecidos nas planilhas eletrônicas como estrutura de dados. Normalmente,​ utilizamos as extensões ''​.txt''​ ou ''​.csv''​ para designar arquivos texto com campos de dados separados por tabulação e vírgula, respectivamente((existem muitos outros tipos de formatos de armazenamento de dados que incorporam dados mais complexos e georreferenciados)). ​
Linha 100: Linha 100:
 | file | nome do arquivo ((incluíndo a extensão e o caminho, caso não esteja no diretório de trabalho)) |<code rsplus> "​nome_arquivo.txt"</​code>​| <code rsplus>"/​caminho_dir/​nome_arquivo.txt"</​code> ​ | | file | nome do arquivo ((incluíndo a extensão e o caminho, caso não esteja no diretório de trabalho)) |<code rsplus> "​nome_arquivo.txt"</​code>​| <code rsplus>"/​caminho_dir/​nome_arquivo.txt"</​code> ​ |
 | header | nome das variáveis ((utiliza a primeira linha dos dados para o nome das colunas))| <code rsplus>​FALSE </​code>​| <code rsplus>​TRUE </​code>​| | header | nome das variáveis ((utiliza a primeira linha dos dados para o nome das colunas))| <code rsplus>​FALSE </​code>​| <code rsplus>​TRUE </​code>​|
-| sep | separador ((qual o símbolo separa os dados em uma linha. Ex: "​\t"​ é tabulação)) |<code rsplus>"​ " </​code>​| <code rsplus> "," ​   ";" ​   "​\t"</​code>​ |+| sep | separador ((qual o símbolo separa os dados de uma mesma linha em colunas. Ex: "​\t"​ é tabulação)) |<code rsplus>"​ " </​code>​| <code rsplus> "," ​   ";" ​   "​\t"</​code>​ |
 | dec | símbolo de decimal | <code rsplus>"​."​ </​code>​|<​code rsplus> ","​ </​code>​| | dec | símbolo de decimal | <code rsplus>"​."​ </​code>​|<​code rsplus> ","​ </​code>​|
 | as.is| mantenha caracteres ((O padrão até a versão 4.0 do R era transformar caracteres em fator na leitura. A partir dessa versão o padrão mudou e a versão mais recente da função não faz essa transformação automática. )) | <code rsplus> TRUE </​code>​ | <code rsplus>​FALSE </​code>​|  ​ | as.is| mantenha caracteres ((O padrão até a versão 4.0 do R era transformar caracteres em fator na leitura. A partir dessa versão o padrão mudou e a versão mais recente da função não faz essa transformação automática. )) | <code rsplus> TRUE </​code>​ | <code rsplus>​FALSE </​code>​|  ​
Linha 200: Linha 200:
 **__stringsAsFactors__** **__stringsAsFactors__**
  
-Por padrão, até a versão anterior a 4.0.0 de abril de 2020, o padrão das funções ''​read.table''​ e ''​data.frame''​ era classificar as variáveis com caracteres como sendo um fator. Isso era definido com os padrões dos argumentos ''​stringsAsFactors = TRUE''​ ou ''​as.is = FALSE''​. Desde da versão 4.0.0 o padrão é classificar as variáveis que contém caracteres como sendo ''​character''​. Essa conversão automática para fator é um legado da linguagem S((veja artigo sobre essa mudança em [[https://​developer.r-project.org/​Blog/​public/​2020/​02/​16/​stringsasfactors/​index.html| developer blog]])). ​ +Por padrão, até a versão anterior a 4.0.0 de abril de 2020, o padrão das funções ''​read.table''​ e ''​data.frame''​ era classificar as variáveis com caracteres como sendo um fator. Isso era definido com os padrões dos argumentos ''​stringsAsFactors = TRUE''​ ou ''​as.is = FALSE''​. Desde da versão 4.0.0 o padrão é classificar as variáveis que contém caracteres como sendo ''​character''​. ​ O que acontece é que a partir dessa versão o padrão para ''​as.is = !stringAsFactor''​ e a função ''​read.table''​ incorporou o argumento ''​stringAsFactors = TRUE''​. Ou seja, por padrão o ''​stringAsFactor''​ diz para a função transformar caracteres em fator, mas é sobreposto pelo argumento ''​as.is''​ que inverte o valor lógico com ''​!''​. ​  Essa conversão automática para fator é um legado da linguagem S((veja artigo sobre essa mudança em [[https://​developer.r-project.org/​Blog/​public/​2020/​02/​16/​stringsasfactors/​index.html| developer blog]])).
  
 </​WRAP>​ </​WRAP>​
02_tutoriais/tutorial3/start.1692042129.txt.gz · Última modificação: 2023/08/14 16:42 por 127.0.0.1