====== CE-064: Introdução ao Machine Learning ====== Atenção: O exame será dia 11/07 às 19h na sala CT04. Favor confirmar a presença até dia 09/07. ==== Detalhes da oferta da disciplina ==== * **Professor:** [[http://www.leg.ufpr.br/~eferreira|Eduardo Vargas Ferreira]], ([[http://www.leg.ufpr.br|LEG: Laboratório de Estatística e Geoinformação]]) * **Curso:** Estatística. * **Período:** 2016/1. * **Horários e Locais:** * Terça-feira 20:40 - 22:00 (LABEST) * Quinta-feira 17:30 - 19:00 (LABEST) * **Atendimento:** Sexta, 17h30-18h30. ===== Avaliações ===== {{http://www.leg.ufpr.br/~eferreira/CE064/Instrut.pdf|Instruções para o trabalho final}} {{http://www.leg.ufpr.br/~eferreira/CE064/Trabalho_pratico.pdf|Tópicos para o trabalho prático}} {{http://www.leg.ufpr.br/~eferreira/CE064/pratica1.pdf|Grupos para o trabalho prático}} ===== Aulas ===== ^ Assunto ^ Teoria ^ Prática ^ Sabatina ^ Material complementar ^ | Introdução |{{http://www.leg.ufpr.br/~eferreira/CE064/Introdução.pdf|Aula 1}} | | | {{http://www.leg.ufpr.br/~eferreira/CE064/Breiman's Two Cultures paper.pdf|Statistical Modeling: The Two Cultures}}| | Regressão Linear - Revisão |{{http://www.leg.ufpr.br/~eferreira/CE064/Regressão Linear - Revisão.pdf|Aula 2}} |{{http://www.leg.ufpr.br/~eferreira/CE064/pratica2.zip|Prática 2}} |{{http://www.leg.ufpr.br/~eferreira/CE064/Alcides.pdf|Exemplo 2}} | {{https://www.quora.com/When-do-you-use-machine-learning-vs-statistical-regression|When do you use machine learning vs. statistical regression?}} | | Gradiente descendente |{{http://www.leg.ufpr.br/~eferreira/CE064/gradiente descendente.pdf|Aula 3}} |{{http://www.leg.ufpr.br/~eferreira/CE064/Aula3/master.html|Prática 3}} |{{http://www.leg.ufpr.br/~eferreira/CE064/work2.html|Exemplo 3}} | {{http://www.leg.ufpr.br/~eferreira/CE064/tricks-2012.pdf|Stochastic Gradient Descent Tricks}}| | Regularização |{{http://www.leg.ufpr.br/~eferreira/CE064/Regularização.pdf|Aula 4}} |{{http://www.leg.ufpr.br/~eferreira/CE064/ridge.html|Prática 4}} |{{http://www.leg.ufpr.br/~eferreira/CE064/script.html|Exemplo 4}} |{{http://statweb.stanford.edu/~tibs/lasso/lasso.pdf| Regression shrinkage and selection via the lasso}}| | Métodos de reamostragem |{{http://www.leg.ufpr.br/~eferreira/CE064/Métodos de reamostragem.pdf|Aula 5}} |{{http://www.leg.ufpr.br/~eferreira/CE064/metodosDeReamostragem.html|Prática 5}} |{{http://www.leg.ufpr.br/~eferreira/CE064/script1.html|Exemplo 5}} | {{http://www.leg.ufpr.br/~eferreira/CE064/ency-cross-validation.pdf|Cross-validation}} | | Classificação |{{http://www.leg.ufpr.br/~eferreira/CE064/Classificação.pdf|Aula 6}} |{{http://www.leg.ufpr.br/~eferreira/CE064/pratica6.html|Prática 6}} |{{http://www.leg.ufpr.br/~eferreira/CE064/work5.html|Exemplo 6}} | {{http://www.leg.ufpr.br/~eferreira/CE064/Regularized Discriminant Analysis.pdf|Regularized Discriminant Analysis}}| | Support Vector Machines |{{http://www.leg.ufpr.br/~eferreira/CE064/Support Vector Machines.pdf|Aula 7}} |{{http://www.leg.ufpr.br/~eferreira/CE064/work6.html|Prática 7}} |{{http://www.leg.ufpr.br/~eferreira/CE064/svm_ex.html|Exemplo 7}} |{{http://www.leg.ufpr.br/~eferreira/CE064/learning-with-kernels.pdf|Learning with kernels}} | | Métodos baseados em árvores |{{http://www.leg.ufpr.br/~eferreira/CE064/Arvores.pdf|Aula 8}} |{{http://www.leg.ufpr.br/~eferreira/CE064/Aula_-_Random_Forest.html|Prática 8}} |{{http://www.leg.ufpr.br/~eferreira/CE064/script7.html|Exemplo 8}} |{{http://www.leg.ufpr.br/~eferreira/CE064/10.1.1.60.3232.pdf|An Empirical Comparison of Supervised Learning Algorithms}} | | Manipulação de textos e imagens |{{http://www.leg.ufpr.br/~eferreira/CE064/Manipulando textos e imagens.pdf|Aula 9}} | {{http://www.leg.ufpr.br/~eferreira/CE064/Sabatina - Text Mining.rar|Prática 9}} |{{http://www.leg.ufpr.br/~eferreira/CE064/work8.html|Exemplo 9}} |{{http://www.leg.ufpr.br/~eferreira/CE064/dissertacao_larissa_sayuri.pdf|Dissertacao Larissa Sayuri}} | | Aprendizado não supervisionado |{{http://www.leg.ufpr.br/~eferreira/CE064/Aprendizado não supervisionado.pdf|Aula 10}} |{{http://www.leg.ufpr.br/~eferreira/CE064/Não_supervisionado.rar|Prática 10}} |{{http://www.leg.ufpr.br/~eferreira/CE064/Exercício 9 Aprendizado não supervisionado.html|Exemplo 10}} |{{http://www.leg.ufpr.br/~eferreira/CE064/nihms-345818.pdf|Brief Review of Regression-Based and Machine Learning Methods}} | ===== Notas ===== * {{http://www.leg.ufpr.br/~eferreira/CE064/sabatina_todas.pdf|Sabatinas}} * {{http://www.leg.ufpr.br/~eferreira/CE064/final.pdf|Resultado final}} ===== Programa da disciplina ===== - Introdução: * Aprendizado supervisionado e não supervisionado; * Função custo; * Revisão de Álgebra matricial. - Regressão Linear: * Regressão linear simples e múltipla; * Estimação dos parâmetros; * Preditor quantitativo e qualitativo; * Interpretação. - Gradiente descendente: * Batch; * Stochastic; * Boosting. - Seleção de modelos e regularização: * Seleção por Forward e Backward; * Estimação do erro do teste utilizando Mallow’s Cp, AIC, BIC, R quadrado ajustado; * Regressão Ridge; * Regressão Lasso; * Horseshoe; * Elastic net. - Métodos de reamostragem: * Estimando o erro de previsão; * Validação cruzada; * Bootstrap. - Classificação: * Regressão logística; * Análise de discriminante linear; * Análise de discriminante quadrática; * Naive Bayes. - Support Vector Machines: * Maximal Margin Classifier; * Support vector Classifier; * Kernels. - Métodos baseados em árvores: * Árvores de decisão; * Randon Forest; * Bootstrap Aggregation (Bagging); * Boosting. - Aprendizado não supervisionado: * Análise de componentes principais; * K-means Clustering; * Hierarchical Clustering. - Manipulação de textos e imagens. ===== Referências Bibliográficas ===== * James, G., Witten, D., Hastie, T. e Tibshirani, //[[http://www-bcf.usc.edu/~gareth/ISL/ISLR%20Sixth%20Printing.pdf|An Introduction to Statistical Learning]]//, 2013 (livro-texto), [[http://blog.princehonest.com/stat-learning|Unofficial Solutions]]; * Hastie, T., Tibshirani, R. e Friedman, J., //[[http://statweb.stanford.edu/~tibs/ElemStatLearn/|The Elements of Statistical Learning]]//, 2009; * Tan, Steinbach, and Kumar, //[[http://www-users.cs.umn.edu/~kumar/dmbook/index.php|Introduction to Data Mining]]//, Addison-Wesley, 2005; * Bishop, //Pattern Recognition and Machine Learning//, 2006; * Ripley, //Pattern Recognition and Neural Networks//, 1996. ===== Referência complementar ===== * Scholkopf and Smola, Learning with Kernels, 2002; * Mardia, Kent, and Bibby, Multivariate Analysis, 1979; * Duda, Hart, and Stork, Pattern Classification, 2nd Ed., 2002. ===== Data Repositories ===== * [[http://www.kaggle.com/|Kaggle]] * [[http://archive.ics.uci.edu/ml/|UCI Machine Learning Repository]] * [[http://www.kdnuggets.com/datasets/|KDD Nugets]] * [[http://cran.r-project.org/web/packages/twitteR/index.html|TwitteR]] * [[http://cran.r-project.org/web/packages/rfigshare/index.html|rfigshare]] * Open Gov. Data: [[http://dados.gov.br/|dados.gov.br]], [[http://www.data.gov/|www.data.gov]], [[http://www.data.gov.uk/|www.data.gov.uk]]; ===== Referências sobre como fazer um seminário científico ===== * {{http://www.leg.ufpr.br/~eferreira/CE064/scientific presentation.pdf|How to give a scientific presentation}} * [[http://www.indiana.edu/~halllab/grad-student-resources.html#talksandposters|Advice on giving good talks and posters]] ===== Links úteis ===== * [[http://en.wikibooks.org/wiki/Data_Mining_Algorithms_In_R|Data Mining Algorithms in R]] * [[http://www.jstatsoft.org/v24/i06/paper|A detailed introduction to Social Network Analysis with package sna]]