Aqui você vê as diferenças entre duas revisões dessa página.
Ambos lados da revisão anterior Revisão anterior Próxima revisão | Revisão anterior | ||
02_tutoriais:tutorial3:start [2023/08/14 17:44] 127.0.0.1 edição externa |
02_tutoriais:tutorial3:start [2023/08/23 12:24] (atual) |
||
---|---|---|---|
Linha 90: | Linha 90: | ||
Tendo a planilha eletrônica com os dados brutos bem estruturados, precisamos exportá-la como arquivo texto puro para fazer a leitura no R. Os arquivos de texto são uma forma eficiente de armazenar dados que tem uma estrutura simples de linhas e colunas. Além de poderem ser abertos em qualquer programa simples de texto e sistema operacional, são reconhecidos nas planilhas eletrônicas como estrutura de dados. Normalmente, utilizamos as extensões ''.txt'' ou ''.csv'' para designar arquivos texto com campos de dados separados por tabulação e vírgula, respectivamente((existem muitos outros tipos de formatos de armazenamento de dados que incorporam dados mais complexos e georreferenciados)). | Tendo a planilha eletrônica com os dados brutos bem estruturados, precisamos exportá-la como arquivo texto puro para fazer a leitura no R. Os arquivos de texto são uma forma eficiente de armazenar dados que tem uma estrutura simples de linhas e colunas. Além de poderem ser abertos em qualquer programa simples de texto e sistema operacional, são reconhecidos nas planilhas eletrônicas como estrutura de dados. Normalmente, utilizamos as extensões ''.txt'' ou ''.csv'' para designar arquivos texto com campos de dados separados por tabulação e vírgula, respectivamente((existem muitos outros tipos de formatos de armazenamento de dados que incorporam dados mais complexos e georreferenciados)). | ||
- | Ao exportar os dados deve ficar atento para algumas opções de exportação da planilha, as principais são os caracteres para designar a separação de campo e o símbolo de decimal. Evite, sempre que possível, caracteres especiais como acentos e aspas (''''', ''`'', ''"''), se houver a opção de escolher a codificação de caracteres ("enconding") opte pelo [[https://pt.wikipedia.org/wiki/UTF-8|UTF-8]]. | + | Ao exportar os dados deve ficar atento para algumas opções de exportação da planilha, as principais são os caracteres para designar a separação de campo e o símbolo de decimal. Evite, sempre que possível, caracteres especiais como acentos e aspas ('' ' '', ''`'', ''"''), se houver a opção de escolher a codificação de caracteres ("enconding") opte pelo [[https://pt.wikipedia.org/wiki/UTF-8|UTF-8]]. |
Sabendo o formato que os dados foram salvos no arquivo texto, na maioria dos casos, precisamos apenas do seguintes argumentos para fazer a leitura dos dados no R ((''read.table'' é muito flexível, veja a documentação!)): | Sabendo o formato que os dados foram salvos no arquivo texto, na maioria dos casos, precisamos apenas do seguintes argumentos para fazer a leitura dos dados no R ((''read.table'' é muito flexível, veja a documentação!)): | ||
Linha 200: | Linha 200: | ||
**__stringsAsFactors__** | **__stringsAsFactors__** | ||
- | Por padrão, até a versão anterior a 4.0.0 de abril de 2020, o padrão das funções ''read.table'' e ''data.frame'' era classificar as variáveis com caracteres como sendo um fator. Isso era definido com os padrões dos argumentos ''stringsAsFactors = TRUE'' ou ''as.is = FALSE''. Desde da versão 4.0.0 o padrão é classificar as variáveis que contém caracteres como sendo ''character''. Essa conversão automática para fator é um legado da linguagem S((veja artigo sobre essa mudança em [[https://developer.r-project.org/Blog/public/2020/02/16/stringsasfactors/index.html| developer blog]])). | + | Por padrão, até a versão anterior a 4.0.0 de abril de 2020, o padrão das funções ''read.table'' e ''data.frame'' era classificar as variáveis com caracteres como sendo um fator. Isso era definido com os padrões dos argumentos ''stringsAsFactors = TRUE'' ou ''as.is = FALSE''. Desde da versão 4.0.0 o padrão é classificar as variáveis que contém caracteres como sendo ''character''. O que acontece é que a partir dessa versão o padrão para ''as.is = !stringAsFactor'' e a função ''read.table'' incorporou o argumento ''stringAsFactors = TRUE''. Ou seja, por padrão o ''stringAsFactor'' diz para a função transformar caracteres em fator, mas é sobreposto pelo argumento ''as.is'' que inverte o valor lógico com ''!''. Essa conversão automática para fator é um legado da linguagem S((veja artigo sobre essa mudança em [[https://developer.r-project.org/Blog/public/2020/02/16/stringsasfactors/index.html| developer blog]])). |
</WRAP> | </WRAP> |