Feeds:
Posts
Comentários

Essa semana estive na disciplina Spatial Analysis ministrada pela Marie-Josée Fortin. Reparei a tendencia em que a alguns duvidas eram sobre como os coeficientes espaciais “roubavam” a explicação das outras variáveis. O momento era de regressões com fatores aleatórios que capturavam o ruido criado pela autocorrelação espacial.

Correlação não significa causalidade! Vamos imaginar que você esta interessado em saber se o motoristas de caminhão são geralmente acima do peso. Logo você realiza sua coleta e quer quantificar essa relação por uma regressão. Você um resultado maravilhoso com inclinação do modelo diferente de zero e conclui que dirigir caminhões deixa as pessoas acima do peso.

Você esta errado mas não fique triste muita gente erra como você. O excesso de peso é causado por N fatores que você pode ter ignorado e estão influenciando o peso dos motoristas. O fato é que a maioria acima do peso possui uma predisposição inata e combinada com falta de exercícios e alimentação não balanceada causa o aumento do peso.

Quando você fez a regressão imagino um mundo perfeito onde A -> B (A causa B), mas o mundo não é perfeito e A&C -> B (A e C causam B) é bem possível. Se você não é capaz de controlar todos os fatores que afetam seu experimento é incorreto afirmar causa em uma correlação. É por isso que experimentos controlados em laboratório são tão valorizados, isolamento de fatores permite inferir causa. Existe um cenário ainda pior e possível tanto A como C são influenciados por um outro fator Z que causa o aumento de B. Neste caso você pode estar simplesmente trabalhando com um uma variável que serve de via de acesso (proxy).

Isso não invalida suas regressões, apenas muda suas conclusões. Correlações são mais fáceis de serem executas e dão grande poder preditivo dado que os fatores se repitam. Então para os ecólogos de plantão: sim, a abundancia de suas plantas pode ser correlacionada apenas com uma variável que tenta capturar o espaço em vez da qualidade do solo.

Como alguns devem saber eu presto consultoria usando exclusivamente o R. Com isso você acaba criando algumas funções próprias. Em uma consultoria que posso acabar vindo a prestar para uma empresa terei que utilizar alguns cálculos comuns em inventários florestais. Observando as opções de software no momento percebi que constituem uma caixa preta para modificações e verificações dos algoritmos usados. Então resolvi implementar algumas dessas funções no R e disponibilizar o pacote criado para qualquer pessoa.

O pacote se chama FI (forest inventory) e implementa três métodos de cubagem rigorosa assim como os fatores de empilhamento e forma. As funções estão muito bem documentadas e possui até uma planilha de exemplo (instale o pacote e digita ?FI ou ?volume no console do R). Para as pessoas que entendem um pouquinho mais de R ou querem reportar um bug também existe a página de desenvolvimento do pacote, onde podem verificar as últimas modificações realizadas assim como criar um issue informando um bug.

Em um futuro não muito distante deve ser criado uma extensão do pacote FI que acomodo o ajuste dos modelos volumétricos comumente usados. São modelos gerais (utilizando DAP e altura das árvores) e locais (somente DAP), no total resultando em 19 equações.

Devo alguns agradecimentos acadêmicos pelo conhecimento que adquiri utilizando o R. Bruno Spacek Godoy em meu último ano de graduação me introduziu o R e a inferência Bayesiana. A partir desse ponto minha curiosidade por ambas as áreas cresceu bastante e sinto que sem esse chute eu não teria despertado a curiosidade por conta própria. Obrigado Bruno, sei que perdeu muito do seu precioso tempo se esforçando para me fazer entender um novo mundo naquela época.

Atualmente tento virar um guRu na linguagem R aprendendo os três sistema de classes disponíveis (S3, S4 e R5), isso permitira a criação de pacotes realmente grandes como o famoso vegan usado por muitos ecólogos.

Parâmetros são características que usamos para descrever algo. Essa é a resposta curta e que não é focada apenas em estatística. Já a estatística é um pouquinho maior, então pegue um xícara de café e senta que lá vem muita informação nova se você não é de ler sobre estatística.

Muitos de vocês devem conhecer a distribuição Normal. Ela é caracterizada por média e desvio padrão, ambas são parâmetros da mesma. O que significa eu conhecer os parâmetros da distribuição que estou trabalhando? Significa que alguém como eu pode recriar a sua distribuição de forma teórica no R. Outras pessoas podem conhecer características dos seus dados coletados mesmo sem você transmitir uma tabela completa com eles.

Existem outras distribuições e outros parâmetros para cada uma delas. A distribuição Poisson por exemplo possui apenas um parâmetro chamado lambda. Abaixo um gráfico demonstrando como a forma da distribuição Poisson varia de acordo com o parâmetro lambda usado.

Distribuição Poisson. Diversas formas variando apenas um parâmetro.

A distribuição Beta possui ainda mais formas possíveis quando se transmite parâmetros (alfa e beta) diferentes.

Distribuição Beta. Com dois parâmetros (alfa e beta) ainda mais formas possíveis.

Parâmetros também são usados para descrever equações como a função linear usada na regressão simples:

F. linear

onde x é a variável e a e b são parâmetros que desejamos estimar.

E finalmente no sentido mais formal dos professores de estatística. Parâmetros são características que descrevem uma população de números.

Também existem as diferenças entre testes paramétricos e não paramétricos, parâmetros na inferência clássica (frequentista) e Bayesiana. Mas tudo isso vai ficar para outra postagem.

Requisito para entender a postagem:

  • saber o que são índices de dissimilaridade

Vamos começar pelos casos especiais, os índices assimétricos.

Digamos que você está interessado em saber como algumas espécies de aranhas estão se distribuindo e estabelecendo ao longo de um fragmento. Você realizou coleta de suas três espécies em suas cinco parcelas e obteve a seguinte tabela depois de tabular os dados.

Vamos interpretar algumas coisas fáceis de observa na tabela acima.

Sp 1

Sp 2

Sp 3

Parcela 1

0

15

10

Parcela 2

0

11

16

Parcela 3

1

6

3

Parcela 4

5

19

15

Parcela 5

13

14

8

O que significa uma espécie ocorrer em dois locais diferentes?

Vocês vão me dizer que pode significar muitas coisas mas o que temos alguma confiança para responder é que. Ambas as parcelas ofereceram condições e/ou recursos mínimos para que a espécie ocorresse.

E no caso oposto? Ausência em dois locais diferentes?

Também pode ter múltiplos significados mas nesse caso a nossa confiança em arriscar um motivo caiu drasticamente. De acordo com a teoria do nicho ecológico de Hutchinson, o nicho é N-dimensional mas cada dimensão provavelmente é unimodal. Ser unimodal significa que temos apenas um ponto no intervalo do gradiente como sendo considerado ótimo.

Então sempre que houver um zero em minha tabela a espécie  estará fora do intervalo ótimo?

Infelizmente não é tão simples na natureza o significado do zero. Além da possibilidade de significar que a espécie está fora do seu intervalo de nicho que permite sua ocorrência, também pode significar que indivíduos não conseguiram chegar ao local, que seu método de amostragem falhou nessa parcela devido a topografia, etc. Então não temos confiança do que realmente significa os dois zeros na tabela. Na literatura esse problema é conhecido como double-zeros. Legendre & Legendre 1998 afirma que não devemos tirar nenhuma conclusão quando isso ocorre. Para resolver esse problema foram criadas versões dos índices de similaridade que tratam os double-zeros de forma diferenciada (geralmente ignorando eles), conhecidos como índices assimétricos. Este problema só existe em casos onde a origem de zeros é incerta (abundância e ocorrência de espécies), em todos os outros casos você não precisa se preocupar com eles.

Bom eu iria fazer um video disso mas como minha voz fica (ou ela é) horrível acho melhor tentar escrever.  Reparei que uma grande quantidade de pessoas não consegue entender os perigos de se trabalhar com máxima verossimilhança. Eu não irei explicar o que é como funciona de forma formal as inferências baseadas em máxima verossimilhança, mas irei dar um exemplo prático de como alguns desses algoritmos funcionam.

A maioria dos ecólogos não são bons programadores e não gostam/querem aprender como os softwares de estatística que usam durante suas analises pode apresentar um resultado incorreto se não conseguem entender como o processo ocorre. Os algoritmos que usam máxima verossimilhança tem como objetivo encontrar o parâmetro que maximiza a verossimilhança para o dado conjunto de dados.

Vamos ver um gráfico:

Distribuição normal padrão, média zero e desvio padrão um.

O algoritmo faz o produto das verossimilhanças com diversos parâmetros até encontrar um valor que melhor se ajusta aos dados.  Vamos supor que estamos interessados em saber qual a média e o desvio padrão de uma amostra retirada de uma população fictícia. Essa população segue a distribuição normal padrão e vamos retirar uma amostra de 100 elementos. O script usado pode ser encontrado aqui.

Os gráficos abaixo mostram o resultado satisfatório do método:

Linha solida representa a distribuição real e a linha tracejada a distribuição prevista pelas amostras utilizando o método de máxima verossimilhança.

Mudança dos parâmetros (média e desvio padrão) em relação ao número de iterações do algoritmo. As linhas tracejadas representam os valores reais dos parâmetros.

Podemos ver que o método funciona relativamente bem nesse caso. Na vida real não temos certeza das distribuições que governam a população. Isso sempre é motivo de discussão já que estamos expressando nossa ignorância sobre algum fenômeno de forma arbitraria em algum nível. Aqui pode começar todo o problema…podemos acabar escolhendo distribuições a priori que não adequadas para o problema ou o dado real pode ser uma mistura delas. Abaixo um exemplo de como pode ficar difícil realizar uma inferência com dados um pouco mais complexos.

Vamos supor que a distribuição dos dados é uma combinação de distribuições normais. O meu algoritmo faz o possível para conseguir ajustar os parâmetros a toda nova variação.

 

O pico da distribuição prevista agora é justamente em um “vale” na distribuição real. Para solucionar isso é necessário adicionar mais parâmetros no modelo, aumentando assim sua dimensionalidade e complexibilidade. Devo assumir que meu algoritmo é apenas uma implementação simples, porém é um ótimo exemplo de como podemos acabar fazendo inferências de forma incorreta. É importante fazer uma inspeção visual dos dados primeiro antes de rodar qualquer analise. Um simples histograma já demonstraria o comportamento dos dados e a necessidade de um modelador/estatístico acostumado a trabalhar com distribuições ia ser requisitada.

Outros cuidados importantes são os parâmetros iniciais. Deve verificar como a distribuição se comporta modificando os parâmetros iniciais de forma aleatória. Caso todas as soluções apresentem a tendência de convergir para o mesmo valor sua simulação ocorreu de forma apropriada. Se ocorrer o contrario provavelmente você ficou preso em um local optima. O local optima é um ponto no espaço de parâmetros onde aparentemente você encontrou a verossimilhança máxima e o algoritmo assume que deve parar. Porém como o nome sugere é apenas um pico local, não é o maior pico possível de ser encontrado. Geralmente é um problema comum de problemas com muitas dimensões (grande número de parâmetros) e algoritmos não reativos/self-tuning. Devido ao tamanho desse post irei deixar para o próximo a explicação com exemplos.

Resumo: max L é bom mas tem que ter um bom conhecimento do assunto para usar de forma correta, métodos complexos não fazem mágica. O que deve ter de coisa errada nesse post não é brincadeira :D

Próximo post local optima ou lei dos grandes numeros e teorema do limite central (tenho um ǵrafico perfeito pra explicar isso).

Cya

Honestidade da menos citações mas permite que as pessoas percam menos tempo de suas amáveis vidas. Lembro que durante a graduação minha querida orientadora Tania disse que não deviamos ter vergonha do nosso passado. Não lembro o que exatamente disse, mas lembro que achei algo que eu tinha feito ridículo. Ela sabiamente disse que todo mundo acha que seus trabalhos antigos ridículos, quanto mais velho é o trabalho, melhor você acha que ele poderia estar.

Por que estou escrevendo sobre isso? Simples. Li o meu artigo de graduação ainda não publicado e estou achando ridícula a forma como apresentei os dados no resultado. Mesmo a banca me dando 96/100 pelo trabalho me senti terrivelmente incompetente para realizar uma simples apresentação dos dados. Saber comunicar o que fez é mais importante em si do que você fez! Parece absurdo mas faz muito sentido. Do que adiantar fazer um trabalho que é inédito e você considera que mudaria os rumos da ciência se você não consegue fazer a sua mãe entender?

Durante duas disciplinas do INPA percebi essa importância. Bill dizia durante suas aulas que caso você não consegue se comunicar de forma eficiente caso escreva mais do que o necessário. O quanto é necessário em um artigo por exemplo David? Escrever adjetivos e substantivos exóticos e até mesmo frases apenas pra chamar a atenção sem possuir realmente um conteúdo nela. Seu objetivo é que sua mãe entenda o que você fez, se conseguir isso você é um gênio. Você deseja que a informação tenha fácil acesso e seja compreendida rapidamente, por quê insistir em escrever “bonito”? Estamos em uma sociedade que não possui tempo para as pessoas que amam, por quê você quer gastar ainda mais tempo delas apenas pra chamar a atenção pro seu artigo?!

Eu particularmente acho que as pessoas no mundo acadêmico tentam “vender o peixe” de uma forma muito egoísta. “Olha escrevi uma frase super atrativa sem ter muito a ver com o que realmente faço! Os leitores ficaram curiosos e vão acabar lendo e me citando!!!”. Você acha isso bonito? Não gosto de você se a resposta for sim. Não seria mais interessante se a primeira frase do trabalho fosse a conclusão do mesmo? Isso economiza tempo das pessoas e economias de qualquer coisa hoje em dia é motivo de louvor. O leitor vai ler o título do seu trabalho e assim que se deparar com a primeira frase já conhece o que realmente importa: conclusões. O interesse no trabalho ainda pode surgir nessa primeira frase, conclusões interessantes obrigaram o leitor a ler seu trabalho querendo saber como você chegou a tal constatação intrigante. É além disso é uma forma de se perceber perguntas óbvias. Existem mais espécies em reservas maiores? A primeira frase de um trabalho desse é óbvia: existem mais espécies em reservas maiores, devido ao fato que cabem mais seres vivos se possuirmos mais espaço.

Enfim, escrevendo esse post comecei falando de algo terminei com outra coisa que surgiu do “nada”. Ser honesto da menos citações mas permite que as pessoas percam menos tempo com farsas. Te amo Lilian.

Atualizando tudo

Olá meus leitores anônimos,

Eu não gosto de vocês.

Estou sem postar a algum tempo devido a enorme preguiça e o trabalho de conclusão de curso. Agora tenho um Bacharel em Ciências Biológicas e estou feliz com isso! Agora entrei em uma nova fase da minha vida acadêmica…Mestrando em Ecologia no INPA (Instituto Nacional de Pesquisas da Amazônia). Fiz a prova sem muita esperança e estudo pois tinha acabado de entregar o TCC (Trabalho de Conclusão de Curso). Quando olhei os resultados e estava com meu nome já achei uma grande vitória, algum tempo depois a Coordenadora da Ecologia me envia um e-mail dizendo que a vaga era minha caso tivesse interesse. Obviamente pirei muito com a noticia e hoje estou aqui em Manaus lhes escrevendo. Nesse intervalo também quase virei socio do meu irmão no ramo da fotografia http://www.segredosdafotografia.com/

Enfim, já fiz a maioria das matérias obrigatórias do programa e estou adorando os desafios de tentar dominar tudo isso. Já comecei a incluir algumas coisas interessantes no meus modelos bayesianos como a temida auto-correlação espacial. Existem vários livros dedicados ao assunto e irei explicar o motivo das preocupações disso na pesquisa.

Deu preguiça novamente de escrever uma revisão de literatura. Mas a auto-correlação pode ser imaginada como algo que influencia a independência dos seus dados. Por que as amostras deveriam ser independentes? Oh meu jovem padawan, como vai analisar seu dados com uma estatística que tem como pressuposto fundamental independência das amostras?

Mas como atingar essa independência no campo? A regra que deve ser memorizada sem pensar muito é: amostras distantes umas das outras. Mas com tudo depende da escala isso pode acabar adicionando mais problemas. Exemplo disso são os trabalhos de Biogeografia onde a coleta em enormes escalas pode incluir diversos ambientes e consequemente variações ambientais que podem literalmente FUDER a analise.

Agora imagine que você não precisa mais se preocupar com isso e fazer a coleta divertida (pegar tudo sem se preocupar com independência) como os museus fazem! Isso não seria ótimo?! Já tem gente fazendo isso, o exemplo mais simples que pude encontrar é de Sberze et al 2010. Originalmente seriam apenas três amostras como o editor apontou. Mas como a modelagem bayesiana facilita as coisas e nos evita fazer uma matemática pesada, eles apenas tiveram que se preocupar como quantificar a influencia dos pontos vizinhos no atual. Assim a amostragem aumentou de três pra mais de 20 amostras analisáveis.

Então fica a mensagem: modela a sua dependência devido a preguiça/custo de coleta e seja feliz como os pesquisadores ricos e com muitos escravos! Em breve postarei um modelo que estou desenvolvendo.

Até anônimos.

Seguir

Obtenha todo post novo entregue na sua caixa de entrada.

Junte-se a 138 outros seguidores