Aqui você vê as diferenças entre duas revisões dessa página.
Ambos lados da revisão anterior Revisão anterior Próxima revisão | Revisão anterior | ||
02_tutoriais:tutorial3:start [2023/08/14 16:42] 127.0.0.1 edição externa |
02_tutoriais:tutorial3:start [2023/08/23 12:24] (atual) |
||
---|---|---|---|
Linha 58: | Linha 58: | ||
</code> | </code> | ||
- | O que aconteceu aqui? Por que não conseguimos mais operar o vetor "num"? Vamos agora voltar o vetor para sua forma original e operar novamente: | + | O que aconteceu aqui? Por que não conseguimos mais operar o vetor ''num''? Vamos agora voltar o vetor para sua forma original e operar novamente: |
<code rsplus| Retorno do elemento> | <code rsplus| Retorno do elemento> | ||
Linha 86: | Linha 86: | ||
===== Leitura de Dados ===== | ===== Leitura de Dados ===== | ||
- | A principal função para a leitura de dados no R é ''read.table''. Ela é bem flexível e se aplica para a leitura de dados tabulares como uma planilha eletrônica usual, tendo colunas como variáveis e as linhas como observações. Esta estrutura é análoga a um conjunto de vetores lado a lado, de mesmo comprimento, como veremos a seguir. Antes da leitura de dados é importante garantir que temos eles bem organizados em uma planilha. O artigo [[https://doi.org/10.1080/00031305.2017.1375989|Data Organization in Spreedsheets (Broman & Woo, 2018)]] faz uma ótima síntese de boas práticas para estruturar dados brutos em uma planilha, sua leitura é rápida e irá poupar muito tempo futuro e evitar muitos erros comuns que usuários de planilhas cometem. Os exemplos de [[https://datacarpentry.org/spreadsheet-ecology-lesson/02-common-mistakes/|erros comuns em planilhas de ecologia do datacarpentry]] são também muito bons, uma forma interessante de aprender é ser exposto ao que não devemos fazer. | + | A principal função para a leitura de dados no R é ''read.table''. Ela é bem flexível e se aplica para a leitura de dados tabulares como uma planilha eletrônica usual, tendo colunas como variáveis e as linhas como observações. Esta estrutura é análoga a um conjunto de vetores lado a lado, de mesmo comprimento, como veremos a seguir. Antes da leitura de dados é importante garantir que temos eles bem organizados em uma planilha. O artigo [[https://doi.org/10.1080/00031305.2017.1375989|Data Organization in Spreedsheets (Broman & Woo, 2018)]] faz uma ótima síntese de boas práticas para estruturar dados brutos em uma planilha, sua leitura é rápida e irá poupar muito tempo futuro e evitar muitos erros comuns que usuários de planilhas cometem. Os exemplos de [[https://datacarpentry.org/spreadsheet-ecology-lesson/02-common-mistakes.html|erros comuns em planilhas de ecologia do datacarpentry]] são também muito bons, uma forma interessante de aprender é ser exposto ao que não devemos fazer. |
Tendo a planilha eletrônica com os dados brutos bem estruturados, precisamos exportá-la como arquivo texto puro para fazer a leitura no R. Os arquivos de texto são uma forma eficiente de armazenar dados que tem uma estrutura simples de linhas e colunas. Além de poderem ser abertos em qualquer programa simples de texto e sistema operacional, são reconhecidos nas planilhas eletrônicas como estrutura de dados. Normalmente, utilizamos as extensões ''.txt'' ou ''.csv'' para designar arquivos texto com campos de dados separados por tabulação e vírgula, respectivamente((existem muitos outros tipos de formatos de armazenamento de dados que incorporam dados mais complexos e georreferenciados)). | Tendo a planilha eletrônica com os dados brutos bem estruturados, precisamos exportá-la como arquivo texto puro para fazer a leitura no R. Os arquivos de texto são uma forma eficiente de armazenar dados que tem uma estrutura simples de linhas e colunas. Além de poderem ser abertos em qualquer programa simples de texto e sistema operacional, são reconhecidos nas planilhas eletrônicas como estrutura de dados. Normalmente, utilizamos as extensões ''.txt'' ou ''.csv'' para designar arquivos texto com campos de dados separados por tabulação e vírgula, respectivamente((existem muitos outros tipos de formatos de armazenamento de dados que incorporam dados mais complexos e georreferenciados)). | ||
Linha 100: | Linha 100: | ||
| file | nome do arquivo ((incluíndo a extensão e o caminho, caso não esteja no diretório de trabalho)) |<code rsplus> "nome_arquivo.txt"</code>| <code rsplus>"/caminho_dir/nome_arquivo.txt"</code> | | | file | nome do arquivo ((incluíndo a extensão e o caminho, caso não esteja no diretório de trabalho)) |<code rsplus> "nome_arquivo.txt"</code>| <code rsplus>"/caminho_dir/nome_arquivo.txt"</code> | | ||
| header | nome das variáveis ((utiliza a primeira linha dos dados para o nome das colunas))| <code rsplus>FALSE </code>| <code rsplus>TRUE </code>| | | header | nome das variáveis ((utiliza a primeira linha dos dados para o nome das colunas))| <code rsplus>FALSE </code>| <code rsplus>TRUE </code>| | ||
- | | sep | separador ((qual o símbolo separa os dados em uma linha. Ex: "\t" é tabulação)) |<code rsplus>" " </code>| <code rsplus> "," ";" "\t"</code> | | + | | sep | separador ((qual o símbolo separa os dados de uma mesma linha em colunas. Ex: "\t" é tabulação)) |<code rsplus>" " </code>| <code rsplus> "," ";" "\t"</code> | |
| dec | símbolo de decimal | <code rsplus>"." </code>|<code rsplus> "," </code>| | | dec | símbolo de decimal | <code rsplus>"." </code>|<code rsplus> "," </code>| | ||
| as.is| mantenha caracteres ((O padrão até a versão 4.0 do R era transformar caracteres em fator na leitura. A partir dessa versão o padrão mudou e a versão mais recente da função não faz essa transformação automática. )) | <code rsplus> TRUE </code> | <code rsplus>FALSE </code>| | | as.is| mantenha caracteres ((O padrão até a versão 4.0 do R era transformar caracteres em fator na leitura. A partir dessa versão o padrão mudou e a versão mais recente da função não faz essa transformação automática. )) | <code rsplus> TRUE </code> | <code rsplus>FALSE </code>| | ||
Linha 200: | Linha 200: | ||
**__stringsAsFactors__** | **__stringsAsFactors__** | ||
- | Por padrão, até a versão anterior a 4.0.0 de abril de 2020, o padrão das funções ''read.table'' e ''data.frame'' era classificar as variáveis com caracteres como sendo um fator. Isso era definido com os padrões dos argumentos ''stringsAsFactors = TRUE'' ou ''as.is = FALSE''. Desde da versão 4.0.0 o padrão é classificar as variáveis que contém caracteres como sendo ''character''. Essa conversão automática para fator é um legado da linguagem S((veja artigo sobre essa mudança em [[https://developer.r-project.org/Blog/public/2020/02/16/stringsasfactors/index.html| developer blog]])). | + | Por padrão, até a versão anterior a 4.0.0 de abril de 2020, o padrão das funções ''read.table'' e ''data.frame'' era classificar as variáveis com caracteres como sendo um fator. Isso era definido com os padrões dos argumentos ''stringsAsFactors = TRUE'' ou ''as.is = FALSE''. Desde da versão 4.0.0 o padrão é classificar as variáveis que contém caracteres como sendo ''character''. O que acontece é que a partir dessa versão o padrão para ''as.is = !stringAsFactor'' e a função ''read.table'' incorporou o argumento ''stringAsFactors = TRUE''. Ou seja, por padrão o ''stringAsFactor'' diz para a função transformar caracteres em fator, mas é sobreposto pelo argumento ''as.is'' que inverte o valor lógico com ''!''. Essa conversão automática para fator é um legado da linguagem S((veja artigo sobre essa mudança em [[https://developer.r-project.org/Blog/public/2020/02/16/stringsasfactors/index.html| developer blog]])). |
</WRAP> | </WRAP> |