Jonathan W. Lawley
Biólogo, Mestrando em Zoologia pelo Instituto de Biociências da Universidade de São Paulo
Laboratório de Cultivo e Estudos de Cnidaria
Currículo Lattes: http://lattes.cnpq.br/3208016919493506
Contato: jonathan.lawley@yahoo.com.br | jwlawley@ib.usp.br
Trabalho com sistemática e biogeografia de Aurelia (Cnidaria, Scyphozoa), comumente cultivadas em aquários ao redor do mundo. Mais especificamente, estudo a delimitação e distribuição das espécies deste gênero.
O título do meu projeto é: “A identidade da água-viva Aurelia (Cnidaria, Scyphozoa) do litoral brasileiro e discussões sobre a sistemática do gênero”, orientado pelo Prof. Dr. André C. Morandini.
Meus Exercícios
Clique para a acessar meus exercícios resolvidos
Trabalho Final
Plano A: Teste de isometria e correção de tamanho para dados morfométricos
Contextualização
Para levar em consideração diferenças na forma, a morfologia deve ser caracterizada independente do tamanho. Sendo assim, ao comparar dados morfométricos pertencentes a indivíduos de diferentes tamanhos, deve haver uma correção para que todos estejam na mesma escala. Para tanto, há uma variável operacional de tamanho que serve de referência para a correção dos outros dados morfométricos medidos. Porém, a relação entre esta variável de referência e a(s) variável(is) resposta pode ser isométrica ou alométrica. Se a variação entre as duas for proporcional, seguindo a ordem de potência das variáveis medidas, a relação será isométrica, e se não, alométrica. Por exemplo, se medirmos dados de envergadura e altura de indivíduos, em centímetros, a relação entre eles será isométrica se o logaritmo desses dados plotados se adequarem a uma reta de inclinação 1/1, que são os expoentes das potências de centímetros. Em outro exemplo, se a relação fosse entre massa e altura, a inclinação da reta para isometria deveria ser 3/1, já que o expoente da potência do volume (massa) é 3. A correção dos dados se dá então pela fórmula demonstrada em Lleonart et al. (2000):
Nesta equação, Yi* é a variável resposta corrigida do espécime i, enquanto que Yi é a variável resposta medida deste mesmo espécime. X0 representa a média da variável referência no conjunto de dados, e Xi, o valor da variável referência para o espécime em questão. A inclinação da reta entre a variável resposta e referência medidas é representada por b. Se a relação entre as variáveis for isométrica, b será a inclinação da reta que segue a razão entre os expoentes das variáveis resposta e referência. Se a relação for alométrica, b será a inclinação da reta obtida pelo modelo linear entre os dados. Sendo a relação alométrica ou isométrica, a variável referência transformada será a média da variável referência observada, pois removemos a variação de tamanho. Para mais detalhes e exemplos veja Colton (1999).
Planejamento da função
Entrada: isometry.test (response, reference, specimen.id, expected.slope, alpha)
response= variável(is) resposta medida(s) (classe: numeric).reference= variável de referência para correção, geralmente a variável operacional de tamanho (classe: numeric).specimen.id= nome dos espécimes medidos (classe: character).expected.slope= inclinação da reta esperada para isometria (classe: numeric).alpha= nível de significância a ser utilizado, expresso como probabilidade (classe: numeric, 0 < alpha < 1).
Verificando os parâmetros:
responseestá presente, não é um fator e é coercível para numérico? Se não, para e escreve: “response should be specified as a numeric vector containing the response measurement(s) for isometry test”.referenceestá presente, não é um fator, é coercível para numérico e tem o mesmo número de espécimes que response? Se não, para e escreve: “reference should be specified as a numeric vector containing the reference measurements for isometry test”.specimen.idestá presente, é um caráter e tem o mesmo número de espécimes quereference? Se não, para e escreve “specimen.id should be specified as a character vector containing the names of specimens in data table”.expected.slopeestá presente, é numérico e corresponde ao número de variáveis resposta inseridas? Se não, 1 é atribuído a todas as variáveis resposta e escreve “expected.slope should be a concatenation of the ratios: power of response variable/power of the reference variable; herein default set to 1 for all”.alphaestá presente, é numérico e > 0 e < 1? Se não, 0.05 é atribuído aalphae escreve “alpha should be numeric and >0 or <1; herein default set to 0.05”.
Pseudo-código:
- Pede o nome da variável de referência e salva no objeto
ref.name(para nomear os dados correspondentes na tabela final). - Cria o objeto
resultcom um data frame de NAs de 1 linha eresponsecolunas. - Cria o objeto
result2com uma matriz de NAs deresponselinhas eresponse+referencecolunas. - Atribui
referencepara a primeira coluna deresult2. - Se só há uma variável resposta, a função pede o nome dessa variável e salva no objeto
res.name(para nomear os dados correspondentes na tabela final). - Cria o objeto
response.allcom a matriz deresponse, poisresponseentrará no ciclo a seguir. - Entra em um ciclo
forcom contadorkde 1 até o comprimento deresponse.- Cria
responsecomo a colunakderesponse.all. - Atribui log(
response) aresponse. - Atribui log(
reference) areference2, para não sobrepor oreferencecriado antes do ciclo. - Cria o objeto
response.mcom o modelo linear deresponseem função dereference2. - Cria o objeto
fcom os valores da estatística F deresponse.m. - Cria o objeto
pcom o valor de p associado ao valor de F emf. - Se
p>alpha, escreve “lm not significant” emresult[k]. - Se a condição acima não for atendida, segue normalmente como abaixo.
- Cria o objeto
slopecom a inclinação da reta emresponse.m. - Cria o objeto
slope.secom o erro padrão da inclinação da reta emresponse.m. - Cria o objeto
tvaluecom o valor absoluto do t-test para checar seslopeé significativamente diferente deexpected.slope. - Cria o objeto
pvaluecom o valor de p referente aotvalueacima. - Se
pvalue>alpha, escreve “Isometry” emresult[k]e faz a correção isométrica como descrito na contextualização, e a coloca emresult2[,k+1]. - Se a condição acima não for atendida, escreve “Allometry” em
result[k]e faz a correção alométrica como descrito na contextualização, e a coloca emresult2[,k+1]. - Para terminar o ciclo, atribui o nome da coluna
kemresponse.allà colunakderesponse.
- A primeira coluna de
result2passa a ser a média dereference, que é a correção feita para a variável de referência. - Atribui o nome da variável referência e da(s) variável(is) resposta ao nome das colunas de
result2. - Atribui
specimen.idaos nomes das linhas deresult2. - Cria o objeto
all, que é um array com uma lista, a qual contémresulteresult2.
Saída:
- Um array com dois itens:
- A primeira lista contém um data frame com as variáveis resposta nas colunas, e a única linha indica se há uma relação de isometria ou alometria com a variável de referência;
- A segunda lista contém uma matriz com os dados transformados de acordo com a relação determinada no passo anterior. Dessa forma, contém as variáveis transformadas nas colunas (referência e resposta(s)) e os espécimes nas linhas.
Plano B: Composição nucleotídica de sequenciamentos de nova geração
Contextualização
Com o advento de novas tecnologias e o crescimento exponencial na informação gerada por sequenciamentos, torna-se necessário um esforço tanto computacional quanto de programação para melhorar a eficiência da análise destes dados. Uma das informações importantes para serem extraídas de sequenciamentos, principalmente de sequenciamentos de nova geração (NGS), que muitas vezes involvem dados não só da estrutura do genoma como de expressão gênica, é a composição nucleotídica dos fragmentos obtidos. A proporção de A, T, G e C, assim como de AT em relação a GC, pode trazer informações importantes sobre o papel de alguns genes na determinação do viés de códons, sobre a eficiência na tradução de sequências codificantes (Halder et al., 2017), assim como outras informações sobre eficiência e calibragem dos próprios sequenciamentos (Dohm et al., 2008).
Planejamento da função
Entrada: nuc.prop (filename, identifier)
filename= nome do arquivo de entrada que se encontra no diretório de trabalho (classe: character).identifier= nome do identificador dos fragmentos sequenciados, que fica logo após o “@” no início da linha de cada fragmento (classe: character).
Verificando os parâmetros:
filenameestá presente, é um caráter e existe no diretório de trabalho? Se não, para e escreve: “filename should be a character and present in the current working directory”.identifierestá presente e é um caráter? Se não, para e escreve: “identifier should be a character that specifies the few letters and or numbers after the @, common to all fragments’ names”.
Pseudo-código:
- Cria o objeto
seqfile, que contém a leitura de linhas do arquivo texto de sequênciasfilename. - Cria o objeto
start, que inclui oidentifier. - Cria o objeto
lines, que faz a busca de padrões pelogrep, identificando o número das linhas que contém as sequências, as quais vem logo após a linha com oidentifier. - Cria o objeto
seqscomlinesNAs. - Entra em um ciclo
forcom o contadoride 1 até o comprimento delines.- Retira a linha
ideseqfile, identificada porlinescomo as sequências de interesse, e atribui ao elementoideseqs.
- Cria o objeto
unique, que conterá as sequências não-ambíguas deseqs. - Cria os objetos
ratios.A,ratios.T,ratios.Geratios.C,uniqueNAs. - Entra em um ciclo
forcom o contadorkde 2 até o comprimento deunique(começa de dois pois a primeira sequência deuniquesempre é composta exclusivamente por Ns).- Cria o objeto
seqsplit, que retorna a sequênciakdeuniquecom cada letra separada como um caráter. - Utiliza o
greppara identificar as posições emseqsplitem que se encontra um determinado nucleotídeo, e atribui a proporção deste nucleotídeo no fragmento aratios.X[k](Xequivale a um determinado nucleotídeo).
- Inicia um dispositivo gráfico através de
x11()e estabelecepar(mfrow=c(2,2)). - Para cada nucleotídeo, constroe o histograma de
ratios.Xcomfreq=Feylim=c(0,10). - Para cada histograma, coloca a linha vertical da média esperada em vermelho, e a linha vertical da média observada em azul, com
na.rm=TRUEpara o cálculo demean. - Retorna
parpara o default (par(mfrow=c(1,1))). - Cria o objeto
base.summary, que consiste em uma lista comsummary(ratios.X)para cada base, e também a proporção combinada AT e GC, somando a média de cada um para a combinação, usandona.rm=TRUEpara o cálculo demean.
Saída:
- Quatro histogramas na mesma tela que contém a distribuição das frequências de cada uma das bases nucleotídicas (A, T, C e G) nos fragmentos. Para cada histograma, haverá uma linha vertical vermelha com a média esperada (distribuição homogênea das bases = 0.25 cada) e uma linha azul com a média encontrada.
- Uma lista dos
summarydas frequências de cada base no sequenciamento e também com a proporção combinada de AT e GC.
Referências
Comentários Danilo
Jonathan, seus pseudocódigos estão bem claros, mas, para mim, suas propostas parecem muito simples.
Se eu entendi bem, seu plano A basicamente roda um modelo linear e re-organiza os resultados em um formato útil para quem trabalha com morfometria. E o plano B conta ocorrências de bases e pares de bases, de forma que ficou parecendo uma espécie de table() vitaminado.
O ideal, na minha avaliação, seria você bolar uma terceira proposta (um plano C) que exija um algoritmo um pouco mais complexo. Se vc for bolar um plano C, eu sugiro incluir depois da contextualização uma frase resumindo o que a função faz (antes da especificação dos parâmetros).
Mas, se você não tiver nenhuma ideia, eu sugiro fazer o plano B, pois aparentemente ele pode ser um desafio mais interessante.
Links para o trabalho final
Para o trabalho final, resolvi seguir com o Plano A, pois achei que seria mais útil e mais desafiador, principalmente pelos vários fatores que encontrei que podem complicar a leitura de um data frame e das variáveis, da forma que o usuário deseja transformá-las. Como mencionei, a função checa se a relação entre cada variável resposta e a variável referência é isométrica ou alométrica, e faz a transformação destas variáveis de acordo com a relação, gerando uma tabela com os dados transformados. Nessa nova tabela, as diferenças de tamanho entre os espécimes analisados foram eliminadas, e portanto agora são comparáveis e podem ser submetidos a outras análises.
* Link para a página da função: Isometry test and size correction
* Link para a página de ajuda da função: Help

