data.check package:unknown R Documentation Identificacao de inconsistencias em bases de dados (data frames) e, futuramente, entre duas bases de dados distintas. Description: Retorna os valores unicos (sem repeticao) de colunas dos data frames em ordem crescente, permitindo a identificacao de possiveis erros de digitacao; retorna tambem possiveis linhas repetidas encontradas nos data frames, facilitando a consulta e verificacao dos dados. No futuro, retornara ainda as linhas presentes em uma base de dados e ausentes na outra. Usage: data.check(a, b, unicos=1, lista_col_uni=NULL, repetidos=1, lista_col_rep=NULL) Arguments: a,b objetos que guardam os dois data frames a serem comparados (a e b). A funcao exige que ambos os data frames sejam inseridos. A importacao dos data frames para os objetos a e b deve ser feita com o argumento as.is=TRUE, da funcao read.table(). unicos define as colunas cujos valores unicos (sem repeticao) serao retornados. Se unicos=0, nao serao retornados os valores unicos de nenhuma coluna; se unicos=1, serao retornados os valores unicos de todas as colunas, de ambos os data frames; se unicos=2, serao retornados apenas os valores unicos das colunas especificadas pelo usuario, por meio do argumento lista_col_uni (ver a seguir). lista_col_uni lista com dois vetores numericos, que contem as colunas cujos valores unicos se deseja obter: o primeiro vetor se refere ao data frame a e o segundo, ao data frame b. Deve ser especificado apenas se unicos=2. repetidos define as colunas que serao consideradas na busca por linhas repetidas. Se repetidos=0, nao sera feita a busca por linhas repetidas; se repetidos=1, serao retornadas as linhas exatamente identicas, ie, aquelas que possuem elementos iguais com relacao a todas as colunas; se repetidos=2, serao retornadas apenas as linhas com elementos iguais nas colunas especificadas pelo usuario, por meio do argumento lista_col_rep (ver a seguir). lista_col_rep lista com dois vetores numericos, que contem as colunas que serao consideradas ao se buscar linhas repetidas: o primeiro vetor se refere ao data frame a e o segundo, ao data frame b. Deve ser especificado apenas se repetidos=2. Details: A funcao gera valores unicos para todas as colunas (argumento "unicos=1") ou para colunas especificadas pelo usuario (argumento "unicos=2") por meio da funcao unique(), organizando as informacoes geradas em arquivos .txt separados para cada coluna, em ordem crescente. Na busca por possiveis linhas repetidas em um data frame, a funcao compara todas as linhas, par a par, quanto a todos os seus elementos (argumento "repetidos"=1) ou quanto aos elementos presentes em colunas determinadas (argumento "repetidos=2"), retornando um arquivo .txt com as linhas repetidas no diretorio de trabalho. Alem dos arquivos .txt, a funcao retorna os resultados em objetos na area de trabalho (veja a seguir). Value: Objetos gerados na area de trabalho: Objetos da classe "list" contendo os valores unicos encontrados nos objetos a e b: Se unicos=1: "v.unicos.a", "v.unicos.b" Se unicos=2: "v.unicos.a.c", "v.unicos.b.c" Objetos da classe "data.frame" contendo as linhas repetidas encontradas nos objetos a e b: Se repetidos=1: "reg.duplicados.a", "reg.duplicados.b" Se repetidos=2: "reg.duplicados.ac", "reg.duplicados.bc" Arquivos .txt gerados no diretorio de trabalho: Se unicos=1 ou unicos=2: sera gerado um arquivo .txt para cada coluna de cada data frame, contendo seus respectivos valores unicos. Os nomes dos arquivos gerados terao a seguinte estrutura: Para unicos=1: "unicos1_a ou b_nome da coluna.txt" Para unicos=2: "unicos2_a ou b_nome da coluna.txt" Se repetidos=1 ou repetidos=2: sera gerado um unico arquivo .txt para cada data frame, contendo as linhas repetidas. Os nomes dos arquivos gerados terao a seguinte estrutura: Para repetidos=1: "registros_repetidos_a ou b.txt" Para repetidos=2: "registros_repetidos_a ou b_colunas_especificas.txt" Warning: Note: A funcao foi pensada de modo a incluir a comparacao entre data frames, etapa ainda nao implementada. Esta intencao justifica a necessidade dos dois data frames (a e b) na funcao, assim como a presenca das opcoes de nao realizar as consultas de valores unicos e linhas repetidas. Author(s): Mariana Morais Vidal marimvidal@yahoo.com.br References: See Also: Para guardar os data frames nos objetos a e b: read.table (as.is=TRUE) Examples: library(datasets) a<- OrchardSprays b<- cars data.check(a,b,unicos=1,repetidos=1) data.check(a,b,unicos=2,repetidos=0,lista_col_uni=list(c(1,2,4),c(1,2))) data.check(a,b,unicos=0,repetidos=2,lista_col_rep=list(c(1,4),c(1)))