Essa é uma revisão anterior do documento!
Tabela de conteúdos
Estatística Experimental Aplicada
Descrição
Curso ministrado pelo Professor M.Sc. Walmes Marques Zeviani aos Pesquisadores da Embrapa Arroz e Feijão. O Curso tem o objetivo de apresentar o programa R e sua aplicação na análise de dados de experimentos agronômicos. O Curso será ministrado na sede Embrapa Arroz e Feijão no período de 07 à 11 de novembro de 2011, das 08:00 às 12:00 e 13:00 às 17horas.
Ementa da disciplina
Introdução a linguagem e interface de trabalho; Importação de dados; Análise exploratória de dados; Testes de significâncias; Análise de regressão linear e não linear; Análise de dados em delineamentos experimentais; Análise de experimentos com respostas do tipo proporção e contagem.
Justificativa
O Curso será importante para aprofundar a teoria de planejamento e análise de experimentos além de instrumentalizar os participantes com as funcionalidades do aplicativo estatístico R e expandir o conhecimento em métodos de análise de dados.
Conteúdo
- Revisão sobre download, instalação do programa e da interface gráfica;
- Revisão sobre manipulação de objetos e funções no R: definição de objeto, tipos de objeto, criação, acesso e modificação de objetos, criação e aplicação de funções;
- Importação de dados e análise exploratória: entrada de dados por arquivo externo, análise gráfica exploratória;
- Estatística básica: estatísticas descritivas de posição, dispersão, assimetria, curtose, gráficos de distribuição de frequência, teste de normalidade, teste de aderência, geração de números aleatórios, teste de hipótese e intervalos de confiança para médias, proporções, variâncias e correlações.
- Regressão linear: preparação dos dados, definição do modelo e pressuposições, estimação dos parâmetros, interpretação dos parâmetros, análise de resíduos e checagem das pressuposições do modelo, medidas de influência, inferência para os parâmetros (teste de hipótese, intervalos de confiança, regiões de confiança), predição de valores, elaboração de gráficos, procedimento stepwise, critério de AIC e BIC, remoção de outliers, transformação de dados;
- Regressão não linear: definição, exemplos, preparação dos dados, definição do modelo, estimação dos parâmetros, análise de resíduos, inferência para os parâmetros (teste de hipótese, intervalos de confiança, teste da razão de verossimilhança), comparação de curvas ajustadas, ajuste de modelos com restrição na estimação dos parâmetros, predição de valores, elaboração de gráficos;
- Análise de experimentos balanceados: experimento em delineamento inteiramente casualizado com fator qualitativo (um fator e fatorial duplo), experimento em blocos casualizados com fator qualitativo (um fator e fatorial duplo), experimento fatorial duplo com tratamentos adicionais (testemunhas), análise de covariância, modelos de regressão polinomial na análise de variância (fatorial qualitativo x quantitativo), fatorial com fatores quantitativos (modelos de superfície de resposta), experimento em parcela subdividida e subsubdividida, faixa e medida repetida no tempo, análise de resíduos, checagem das pressuposições do modelo, transformação de dados, testes de médias e contrastes,
- Análise de experimentos não balanceados/ortogonais: experimento com um fator em delineamento inteiramente casualizado e blocos casualizados, anova e teste de médias, análise de experimento em blocos incompletos, alfa-látices, análise de experimentos com fator de efeito aleatório, inclusão de co-variáveis nos modelos,
- Introdução a análise de experimentos com respostas não normais: definição de modelo linear generalizado, estimação de parâmetros, métodos de inferência, análise respostas do tipo proporção, análise de respostas do tipo contagem;
Materiais do curso
- Diretório com todos os arquivos do Curso;
Links úteis
- Página de download do RStudio, a interface mais amigável do R;
- Material do Curso do Professor Paulo Justiniano Ribeiro Júnior (UFPR);
- Material do Cursos do Professor Daniel Furtado Ferreira (UFLA);
- Dicas curtas sobre R, as Rídiculas do LEG;
- Página de descrição da [R-br], a lista Brasileira oficial de usuários do R;
- Arquivo de mensagens da [R-br] hospedada pelo Nabble;
- Página de R por Vincent Zoonekynd (muuuita coisa!);
- Página de tutoriais em R para estatística, R tutorial;
- R-bloggers, o blog dos blogs de R;
- MarkMail, maior gerenciador de listas de discussão sobre R;
- Quick-R, blog de como fazer coisas com o R;
- Aniwiki, animações didáticas com o R;
- Emacs para Windows;
- R-tricks, dicas e malandragens com o R;
- Gráficos básicos com o R;
- Materiais em português sobre R;
- R gallery, a galeria de gráficos requintados do R;
- Página WIKI do R;
- Learn R da página do Departamento de Ecologia da Wright State University.
- O básico de delineamento experimental;
- R-tutor, tutoriais sobre R;
- Compendio R de delineamento experimental;
- Compendio R para análise de delineamento experimental em psicologia;
- Manual R de biometria, por Katharina Hoff;
- Material do John Faraway, Anova e regressão com o R;
- Tutorial do Rense Nieuwenhuis, R aplicado para o cientista social quantitativo;
- Manual R que acompanha o livro Categorical Data Analysis, por Laura Thompson.
- Página do Professor Eric Batista Ferreira desenvolvedor do pacote não oficial ExpDes;
- Apostila de Estatística Experimental da Pesquisadora Janaína Ribeiro Costa (Embrapa);
- Cartilha de referência do R por Tom Short, traz um resumo das funções mais usadas;
- Lista das abreviações dos pacotes e funções do R por Jeromy Anglim;
- Página da disciplina de Estatística Computacional que ensina o R como aplicativo estatístico e ferramenta computacional. Os scripts usados em aula estão disponíveis e são arquivos reproduzíveis.
Cronograma de atividades do Curso
Data | Conteúdo |
---|---|
SEG 07 | Introdução sobre o R, páginas de download e IDEs. Objetos, importação, análise gráfica exploratória, estatística descritiva básica, testes de hipótese e intervalos de confiança, ajuste de modelos de regressão linear. |
TER 08 | Medidas de influência em regressão linear múltipla, predição, considerações sobre o R², testes de hipóteses e contrastes em modelos de regressão. Modelos de regressão não linear, modelos aplicados às ciências agrárias, considerações sobre estimação e obtenção de valores iniciais, ajuste de uma ou mais curvas, teste de hipótese sobre igualdade de parâmetros. |
QUA 09 | Análise de experimentos em delineamento inteiramente casualizado, experimentos em blocos completos casualizados e blocos incompletos. |
QUI 10 | Análise de experimento fatorial duplo com fatores categóricos, análise de covariância, análise de fatorial com fatores contínuos, modelagem da heterogeneidade de variâncias, uso de pesos no ajuste. |
SEX 11 | Análise de experimento fatorial com ajuste de polinômios, análise de experimentos em parcela subdivida, subsubdividida e dados longitudinais, análise conjunta de experimentos, análise de dados de proporção (glm binomial). |
Referências bibliográficas
- [2009, techreport | www]
- Ribeiro Júnior, P. J. (2009). Introdução ao Ambiente Estatístico R.
- [2002, techreport | www]
- Faraway, J. J. (2002). Practical Regression and Anova using {R}.
- [2005, book | www]
- Faraway, J. J. (2005). Linear models with R Chapman \& Hall/{CRC}.
- [2002, book | www]
- Venables, W. N., & Ripley, B. D. (2002). Modern applied statistics with S Birkhäuser.
- [2009, book | www]
- Everitt, B. S., & Hothorn, T. (2009). A Handbook of Statistical Analyses Using R, Second Edition (2 ed.) Chapman \& Hall.
- [2008, book | www]
- Dalgaard, P. (2008). Introductory Statistics with R (2nd ed.) Springer.
- [2008, book | www]
- Dobson, A. J., & Barnett, A. (2008). An Introduction to Generalized Linear Models, Third Edition (3 ed.) Chapman and {Hall/CRC}.
- [2008, book | www]
- Ritz, C., & Streibig, J. C. (2008). Nonlinear Regression with R (1 ed.) Springer.
- [2008, book | www]
- Sarkar, D. (2008). Lattice: Multivariate Data Visualization with R (1 ed.) Springer.
- [2005, book | www]
- Murrell, P. (2005). R Graphics (1 ed.) Chapman and {Hall/CRC}.
- [2010, book | www]
- Maindonald, J., & Braun, J. W. (2010). Data Analysis and Graphics Using R: An Example-Based Approach (3 ed.) Cambridge University Press.
- [2009, book | www]
- Pinheiro, J., & Bates, D. (2009). Mixed-Effects Models in S and {S-PLUS} (1st ed. 2000. 2nd printing ed.) Springer.
- [2000, book | www]
- D.R., & Reid, N. (2000). The Theory of the Design of Experiments (1 ed.) Chapman and {Hall/CRC}.
- [2004, techreport | www]
- Beasley, C. R. (2004). Bioestatística usando o R - apostila de exemplos para o biólogo.
- [2002, techreport | www]
- Correa, J. C., & González, N. (2002). Gráficos Estadísticos con R.
- [2005, techreport | www]
- de Souza, E. F. M., Peternelli, L. A., & de Mello, M. P. (2005). Software Livre R: aplicação estatística.
- [2006, techreport | www]
- Monteiro, L. R. (2006). Introdução à biometria usando o R.
Questionário de avaliação do Curso
Clique para responder o questionário sobre avaliação do Curso. Não é necessário identificação. O questionário serve para aperfeiçoamento do Curso, portanto, resposta às questões com total sinceridade. Certo de sua colaboração, agradeço.
Pacotes necessários a serem instalados
# instala os pacotes oficiais usados durante curso via web install.packages(c('agricolae', 'aod', 'car', 'contrast', 'DTK', 'ellipse', 'fBasics', 'fmsb', 'GAD', 'geoR', 'gmodels', 'gplots', 'HH', 'laercio', 'lattice', 'latticeExtra', 'lme4', 'MASS', 'multcomp', 'mutoss', 'nlme', 'nls2', 'nlstools', 'plotrix', 'plyr', 'reshape', 'rpanel', 'ScottKnott', 'gWidgetsRGtk2'), dep=TRUE, repos='http://cran-r.c3sl.ufpr.br/') # link para a página de download do pacote ExpDes browseURL(URLencode("https://sites.google.com/site/ericbferreira/unifal/downloads-1"))
Download de arquivos pelo R no Linux
#----------------------------------------------------------------------------- # diretório web onde estão os arquivos dire <- "http://www.leg.ufpr.br/~walmes/ensino/ce223-2011-01/" #----------------------------------------------------------------------------- # lendo a tabela com nome dos arquivos (via ctrol+c) tab <- read.table("clipboard", header=FALSE, sep="\t", stringsAsFactors=FALSE) str(tab) #----------------------------------------------------------------------------- # segunda coluna corresponde ao nome dos arquivos arq <- tab$V2 #----------------------------------------------------------------------------- # suponha que eu queira apenas os arquivos de extensão *.R, eles são extR <- grep(".R$", arq, value=TRUE) #----------------------------------------------------------------------------- # formar o nome dos links para download, colocar o wget antes pois é o comando links <- paste("wget ", dire, extR, sep="") links[1] #----------------------------------------------------------------------------- # usar a função system() para fazer download com wget sapply(links, system) #----------------------------------------------------------------------------- # pronto, todos os downloads foram feitos. Agora você pode ir na página desses # caras sabidões e ter as notas de aulas, arquivos, seminários para poder # aprender. Visite essas páginas: # http://www.commanster.eu/ # http://socserv.mcmaster.ca/jfox/ # http://www.stat.wisc.edu/~bates/ # http://www.stat.missouri.edu/~ferreiram/ # http://www.isid.ac.in/~deepayan/ # http://www.math.mcmaster.ca/~bolker/ #-----------------------------------------------------------------------------
Procedimento para o ajuste de diversos modelos lineares
# gera dados da <- data.frame(x=runif(100), z=5*rpois(100, lambda=7), w=runif(100, 50, 100)) da$y <- with(da, 12+0.1*x+0.05*z+0.34*w+0.2*sqrt(z)+0.1*x*w)+rnorm(100,0,0.1) # vetor com as fórmulas específicando diferentes modelos lineares form <- c(mod1=y~x, mod2=y~x+z, mod3=y~x+I(x^2), mod4=y~x+z+w) # ajuste dos modelos ajustes <- lapply(form, function(f){ m0 <- lm(f, data=da); m0 }) lapply(ajustes, summary) # quadro geral de estimativas e qualidade lapply(ajustes, anova) # quadro de anova sequencial lapply(ajustes, coef) # vetor de estimativas sapply(ajustes, function(a){ summary(a)$r.squared}) # R² sapply(ajustes, function(a){ summary(a)$adj.r.squared}) # R² ajustado sapply(ajustes, function(a){ summary(a)$sigma}) # QMR sapply(ajustes, deviance) # SQR sapply(ajustes, df.residual) # GLR lapply(ajustes, function(a){ summary(a)$coeff}) # tabela de estimativas do.call(rbind, lapply(ajustes, function(a){ summary(a)$coeff})) # junta das tabelas sapply(ajustes, fitted) # valores ajustados sapply(ajustes, residuals) # resíduos da análise sapply(ajustes, vcov) # matriz de covariância das estimativas apply(sapply(ajustes, residuals), 2, shapiro.test) # normalidade dos resíduos
Procedimento para obter a análise de variância de diversas respostas
# importa dados soja <- read.table("http://www.leg.ufpr.br/~walmes/cursoR/soja.txt", header=TRUE, sep="\t", dec=",") str(soja) # ajusta um modelo e pede anova m1 <- aov(rengrao~bloco+agua*potassio, soja) anova(m1) # cria uma lista com as variáveis resposta respostas <- do.call(c, apply(soja[,4:7], 2, list)) do.call(c, respostas) # faz o ajuste para todas as respostas ajustes <- lapply(respostas, function(r){ m0 <- aov(r~bloco+agua*potassio, data=soja) m0 }) # pede todas as anovas lapply(ajustes, anova) # extrai o QMR com o sinal da significância e salva numa planilha xls QMR <- do.call(cbind, lapply(ajustes, function(a){ qmr <- anova(a)[,"Mean Sq"] sig <- anova(a)[,"Pr(>F)"] sig <- ifelse(sig<=0.01,"**", ifelse(sig<=0.05,"*","ns")) sig[is.na(sig)] <- "" qmr <- formatC(qmr, digits=4, format="f") paste(qmr, sig, sep="") })) quadro <- cbind(FV=rownames(anova(m1)), GL=anova(m1)[,"Df"], QMR) write.table(quadro, file="resumoanova.xls", quote=FALSE, row.names=FALSE, sep="\t")
Lista de afazeres
- usar os dados de secagem de solo em micro-ondas na parte de modelos não lineares.
- mostrar algum ajuste de blocos incompletos.
- ✔ usar pacote ExpDes.
- ✔ usar o RStudio, na versão mais nova descobrir como usar os controladores interativos.
- usar os dados de semente da Lívia/Aline para glm(…, family=bionomial),
- dados do Miguel para glm(…, family=Poisson),
- ✔ dados do Flávio para glm(…, family=Poisson),
- dados da sua TCC para experimentos em faixa,
- ✔ dados do Fábio Ono para fatorial (soja),
- dados do Fábio Régis para parcela subdivida com outras estruturas de correlação na profundidade,
- dados da Carla para ajuste do duplo van Genuchten,
- dados da sua Tese para ajuste de modelos não lineares de liberação,
- dados da Nani para crescimento de goiaba,
- dados do André para fatorial com 1 e 2 tratamentos adicionais,
- ✔ dados do Caique para dados desbalanceados e análise de covariância,
- usar dados do Maicon Inocencio para modelo de mistura e fatorial com adicionais,
- usar gráficos com deslizadores para controlar uma observação e ver o que acontece com os gráficos de diagnóstico de resíduo ao deslocar uma observação.
- ✔ tratar os casos de dic, dbc com um e dois fatores desbalanceados.
- nos dados de DAP discutir a coisa de usar os valores preditos como dependentes de uma análise subsequente, a coisa do viés.
- procurar o livro Optimal Experimental Design with R.
- revisar a análise dos dados
volume.txt
, aplicar uma transformação para corrigir a heterogeneidade de variâncias. - fazer uma enquete para avaliar a qualidade do curso.
- análise em blocos aumentados de Federer;
- análise em alpha-lattice;
Espaço do participante (feedback)
Dê sua opinião e me ajude a melhorar o curso. Critique, comente, sugira, tire dúvidas, peça a inclusão de novos procedimentos, discuta, expresse-se. Sua opinião é muito importante.
~~DISCUSSION~ ~