Traduções desta página:

Ferramentas do usuário

Ferramentas do site


05_curso_antigo:r2016:alunos:trabalho_final:jdalapicolla:proposta_a_-_analise_exploratoria_dos_dados

TESTE DE PREMISSAS


Função


explore.data ()

Entrada de dados: Será realizado por meio de uma tabela de classe data.frame no R. Essa tabela terá linhas correspondendo às observações medidas e as colunas corresponderão às variáveis. Essas variáveis poderão ser quantitativas (numéricas) ou qualitativas (categóricas/fatores). Algumas abordagens serão utilizadas apenas com um tipo de variável e outras com ambas.

Argumentos: a função terá 4 argumentos;

explore.data(x, quali=, quant=, group=OPCIONAL) 

Onde:

  1. x: é o data frame, a tabela com todas as colunas e linhas;

  2. quali: um vetor contendo as posições das colunas que representem variáveis qualitativa/categórica/fatores;

  3. quant: um vetor com as posições das colunas que contenham variáveis quantitativas;

  4. group: argumento opcional que indica apenas uma coluna do data frame que contém a informação dos subgrupos de interesses (pode ser espécies, áreas, experimentos, idades, sexo, etc.). Com essa coluna indicada, a função a transformará em um objeto da classe factor e os testes serão realizados para todos os níveis desse fator separadamente. Se não for definido, o teste será feito considerando todas as observações do data frame como pertencentes ao mesmo grupo.


Objeto de Saída: Para cada uma das cinco abordagens de análise exploratória serão geradas no máximo 2 tipos de objetos: tabelas em formato .csv e gráficos salvos em formato .jpeg. Dependendo da abordagem, apenas um deles será produzido.

Gráficos Gerados: Como os gráficos gerados serão usados para análise exploratória e não em publicações ou trabalho final, eles serão produzidos em qualidade baixa, e em uma resolução que preze mais pelo tamanho do arquivo do que pela qualidade da imagem. Todos os gráficos, para cada uma das cinco abordagens, serão apresentados em uma única prancha.

Passos da Função: Essa função pretender realizar criar 5 abordagens. Para cada uma delas será criada uma pasta de diretório separada, onde serão salvos os objetos de saída. Essas pastas novas serão criadas no diretório de trabalho do R e se chamarão: Outliers, NA, Normality, Covariables e Variance.

  • Outliers: com a ajuda de gráficos criados pela função boxplot() pretende-se identificar possíveis outliers e gerar um arquivo .csv com esses dados. Os gráficos de pontos com a função dotchart() serão para a visualização dos mesmos outliers;

  • NA: com funções simples como summary() e table() identificar quantos e em quais posições se encontram os NA. O arquivo gerado será um .csv com esses dados;

  • Normality: verificar se os dados segue um padrão normal de distribuição, realizando um teste de normalidade para todas as variáveis quantitativas, com as funções qqplot(), qqline() e shapiro.test(), sendo que o resultado e do teste de Shapiro-Wilk será acrescentado abaixo do eixo x, usando o a função mtext();

  • Covariables: visa a identificação de co-variáveis. Para isso serão construídos gráficos de dispersão (como os gráficos de pontos de Cleveland) para todas as variáveis, par-a-par. Além disso será acrescentado uma linha de tendência para verificar mais facilmente se há uma relação bidirecional. Também será calculado o índice de correlação de Spearman que não presume normalidade nos dados, para ver quais são mais correlacionadas. E o resultado e do teste de correlação será acrescentado abaixo do eixo x, usando o a função mtext();

  • Variance: verificar se a variância entre os agrupamentos são semelhantes. Primeiramente pretende-se calcular a variância e o coeficiente de variância para cada grupo de cada variável qualitativa e gerar os dados em uma tabela em formato .csv. Depois a função irá gerar gráficos de dispersão de pontos em torno da média como o boxplot() para verificar se as barras de erros são semelhantes.

Referências:
ZUUR, Alain F.; IENO, Elena N.; ELPHICK, Chris S. A protocol for data exploration to avoid common statistical problems. Methods in Ecology and Evolution, v. 1, n. 1, p. 3-14, 2010.

Alunos de Cursos Passados com Funções Semelhantes:
Ricardo Bertoncello
Juan Pablo Hurtado-Gómez

05_curso_antigo/r2016/alunos/trabalho_final/jdalapicolla/proposta_a_-_analise_exploratoria_dos_dados.txt · Última modificação: 2020/08/12 06:04 (edição externa)