Não foi possível enviar o arquivo. Será algum problema com as permissões?
Diferenças
Aqui você vê as diferenças entre duas revisões dessa página.
Ambos lados da revisão anterior Revisão anterior Próxima revisão | Revisão anterior | ||
projetos:hipertensao [2007/12/06 09:50] joel |
projetos:hipertensao [2007/12/17 20:27] (atual) joel |
||
---|---|---|---|
Linha 1: | Linha 1: | ||
- | [[http://www.leg.ufpr.br/~joel/tcc.pdf|Versão parcial do TCC]] | ||
- | |||
- | |||
===== Participantes ===== | ===== Participantes ===== | ||
- [[pessoais:peccin|Flaviane Peccin]], Graduanda (UFPR) | - [[pessoais:peccin|Flaviane Peccin]], Graduanda (UFPR) | ||
Linha 10: | Linha 7: | ||
===== Objetivos ===== | ===== Objetivos ===== | ||
- | Geral : Aplicar técnicas multivariadas para encontrar possíveis fatores de risco para idosas hipertensas. | + | Geral : Aplicar técnicas multivariadas em um conjunto de dados sobre hipertensão. |
- | Específicos | + | Específicos : |
- | - Aplicar métodos de clusterização | + | - aplicar métodos de clusterização; |
- | - Aplicar métodos de classificação | + | - aplicar métodos de classificação; |
- | - Comparar os métodos de classificação | + | - comparar os métodos de classificação em relação à capacidade preditiva; |
- | - Avaliar a importância das variáveis explicativas | + | - levantar, por diferentes metodologias, os potenciais fatores de risco para hipertensão. |
===== Metodologia ===== | ===== Metodologia ===== | ||
- | |||
- | |||
- | |||
- | |||
==== Métodos Multivariados. ==== | ==== Métodos Multivariados. ==== | ||
+ | * Clusterização pelo método das k-médias | ||
* Regressão Logística | * Regressão Logística | ||
- | * Clusterização | ||
* Análise Linear Discriminante | * Análise Linear Discriminante | ||
* Árvores de Decisão | * Árvores de Decisão | ||
Linha 36: | Linha 29: | ||
=== Análise de Cluster === | === Análise de Cluster === | ||
- | Análise de Cluster é um conjunto de técnicas utilizadas na identificação de padrões de comportamento em bancos de dados através da formação de grupos homogêneos. (SEAGRO) | ||
- | O objetivo da analise de cluster é agrupar as observações semelhantes de forma que cada grupo seja homogêneo internamente e sejam diferentes entre si. | ||
- | O primeiro passo da analise de cluster é encontrar as medidas de similaridade. Em seguida deve-se decidir qual a técnica de clusterização será utilizada (hierárquica ou não hierárquica). O terceiro passo é decidir o método de clusterização para a técnica que já foi selecionada (exemplo: método do centróide para a técnica hierárquica de clusterização). Quarto, a decisão considerando o número de clusters serão feitos. Finalmente, a solução dos clusters é interpretada. | ||
- | |||
- | 3.2.1 Medidas de similaridade | ||
- | |||
- | Cada objeto é representado por um ponto no espaço n-dimensional e, portanto, pode ser agrupado com outros que estejam próximos e mais se assemelham a ele. Dois critérios de melhor associação podem ser utilizados. | ||
- | |||
- | 1. Covariância e Correlação | ||
- | |||
- | Partindo da matriz de dados D (mxn), obtém-se a matriz de covariância C, onde seus elementos são dados por: | ||
- | |||
- | |||
- | ckl é grande e positivo quando, para a maior parte das amostras, os valores das variáveis k e l desviam da média na mesma direção. Portanto, a covariância de duas variáveis é uma medida de sua associação. Para cada elemento da matriz de covariância pode ser calculado o coeficiente de correlação, consequentemente a matriz de covariância pode ser transformada numa matriz de correlação R, onde seus elementos são dados por: | ||
- | | ||
- | onde sk e s1 são os desvios padrões das variáveis K e 1 | ||
- | Os valores de rkl são uma covariância padronizada entre -1 e +1. | ||
- | |||
- | 2. Medidas de distâncias | ||
- | |||
- | Na análise de agrupamentos (cluster analysis) a similaridade entre duas amostras pode ser expressa como uma função da distância entre os dois pontos representativos destas amostras no espaço n-dimensional. Existem várias formas de de calcular a distância entre dois pontos a e b no espaço n-dimensional: | ||
- | |||
- | Distancia Euclidiana | ||
- | É a maneira mais usual de calcular a distância entre dois pontos (xab). É uma medida invariante a translações, porém assume covariâncias iguais entre as classes e em geral não é invariante a transformações lineares (Costa, 1999). É dada por: | ||
- | |||
- | |||
- | |||
- | Distância de Mahalanobis: | ||
- | Considera que as superfícies de cada classe são elipsóides centradas na média. No caso especial em que a covariância é zero e a variância é a mesma para todas as variáveis, as superfícies são esferas e a distancia de Mahalanobis fica equivalente a distancia euclidiana. Pode ser utilizada para medir a distância entre classes de padrões. Isso pode ser feito através da soma ou da média da distância entre todos os padrões de duas classes diferentes. | ||
- | |||
- | Distancia de Manhattan ou “city-block” | ||
- | A distancia de manhattan é uma simplificação da distancia euclidiana, por isso é mais simples e sua emplementação é mais fácil. É mais eficiente para aplicações em tempo real devido a sua simplicidade (Kugler, 2003). | ||
- | |||
+ | Denomina-se Análise de Cluster ou Análise de Agrupamentos o conjunto de técnicas utilizadas na identificação de padrões de comportamento em bancos de dados através da formação de grupos homogêneos. O objetivo da analise de cluster é agrupar objetos ou variáveis semelhantes de forma que cada grupo seja homogêneo internamente e sejam diferentes entre si. | ||
=== Árvores de Decisão === | === Árvores de Decisão === | ||
Linha 87: | Linha 48: | ||
Neste trabalho será realizada somente a análise linear discriminante (LDA). Outros tipos de análise discriminante são: QDA(Quadratic Discriminant Analysis), FDA(Flexible Discriminant Analysis), PDA(Penalized Discriminant Analysis) e MDA(Mixture Discriminant Analysis). A função lda() presente no pacote MASS do R realiza análise linear discriminante. É importante notar que para a construção da função linear discriminante os preditores devem ser quantitativos e assume-se matrizes de covariância iguais nos grupos. | Neste trabalho será realizada somente a análise linear discriminante (LDA). Outros tipos de análise discriminante são: QDA(Quadratic Discriminant Analysis), FDA(Flexible Discriminant Analysis), PDA(Penalized Discriminant Analysis) e MDA(Mixture Discriminant Analysis). A função lda() presente no pacote MASS do R realiza análise linear discriminante. É importante notar que para a construção da função linear discriminante os preditores devem ser quantitativos e assume-se matrizes de covariância iguais nos grupos. | ||
- | |||
=== Redes Neurais Artificiais === | === Redes Neurais Artificiais === | ||
- | |||
Apesar de todo mito que envolve o uso de Redes Neurais Artificiais, o que está por trás desta técnica é a utilização de modelos não-lineares. Redes Neurais Artificiais para classificação estão implementadas no pacote nnet() presente na biblioteca MASS do R. A construção de uma rede neural associa-se a definição de sua topologia que no caso das redes do tipo feed-forward envolve a definição de 3 ou mais camadas. A primeira camada, chamada de camada de entrada necessita de tantos neurônios quanto forem o número de variáveis independentes, enquanto a última camada, denominada camada de saída, apresenta tantos neurônios quantas forem as variáveis resposta. Entre estas duas camadas podem existir uma ou mais camadas intermediárias, chamadas de camadas escondidas. O Teorema de Kolmogorov garante que uma camada escondida é suficiente para aproximar qualquer relação não-linear entre a resposta e as variáveis independentes, desde que satisfeitas algumas condições. | Apesar de todo mito que envolve o uso de Redes Neurais Artificiais, o que está por trás desta técnica é a utilização de modelos não-lineares. Redes Neurais Artificiais para classificação estão implementadas no pacote nnet() presente na biblioteca MASS do R. A construção de uma rede neural associa-se a definição de sua topologia que no caso das redes do tipo feed-forward envolve a definição de 3 ou mais camadas. A primeira camada, chamada de camada de entrada necessita de tantos neurônios quanto forem o número de variáveis independentes, enquanto a última camada, denominada camada de saída, apresenta tantos neurônios quantas forem as variáveis resposta. Entre estas duas camadas podem existir uma ou mais camadas intermediárias, chamadas de camadas escondidas. O Teorema de Kolmogorov garante que uma camada escondida é suficiente para aproximar qualquer relação não-linear entre a resposta e as variáveis independentes, desde que satisfeitas algumas condições. | ||
Linha 138: | Linha 97: | ||
* {{projetos:usingr-2.pdf|Using-R - parte 2}} | * {{projetos:usingr-2.pdf|Using-R - parte 2}} | ||
* {{projetos:obesidade:rnalogistichepatite.pdf|Redes Neurais e Regressão Logística para Diagnóstico de Hepatite}} | * {{projetos:obesidade:rnalogistichepatite.pdf|Redes Neurais e Regressão Logística para Diagnóstico de Hepatite}} | ||
+ | * {{projetos:artigo.pdf|Fatores de Hipertensão usando Redes Neurais Kohonen}} | ||
===== Funções do R ===== | ===== Funções do R ===== | ||
Linha 144: | Linha 104: | ||
[[http://cran.at.r-project.org/src/contrib/Descriptions/som.html |Pacote para Mapas Auto-Organizáveis | [[http://cran.at.r-project.org/src/contrib/Descriptions/som.html |Pacote para Mapas Auto-Organizáveis | ||
(SOM) de Kohonen no R]] | (SOM) de Kohonen no R]] | ||
- | |||
===== Scripts do R ===== | ===== Scripts do R ===== | ||
- | <code> | + | <code R> |
# pacotes necessarios | # pacotes necessarios | ||
require(MASS) | require(MASS) | ||
+ | |||
require(tree)# arvores de decisao | require(tree)# arvores de decisao | ||
+ | |||
require(rpart)# arvores de decisao | require(rpart)# arvores de decisao | ||
# Leitura do conjunto de dados | # Leitura do conjunto de dados | ||
dados<-read.csv2('http://www.leg.ufpr.br/~joel/dados/hiipertensao.csv',na.strings="") | dados<-read.csv2('http://www.leg.ufpr.br/~joel/dados/hiipertensao.csv',na.strings="") | ||
- | |||
- | # Re-expressão das variáveis | ||
- | dados<-transform(dados,sexo=factor(sexo,labels=c('feminino','masculino'))) | ||
</code> | </code> | ||
Linha 322: | Linha 280: | ||
==== Criação das Bases de Desenvolvimento e de Validação ==== | ==== Criação das Bases de Desenvolvimento e de Validação ==== | ||
- | <code> | + | <code R> |
<echo=F,results=hide>>= | <echo=F,results=hide>>= | ||
ind<-1:989 # Criacao de vetor de indices | ind<-1:989 # Criacao de vetor de indices | ||
Linha 333: | Linha 291: | ||
- | <code> | + | <code R> |
dadostrein<-read.table("http://www.leg.ufpr.br/~joel/dados/dadostrein.txt",h=T) | dadostrein<-read.table("http://www.leg.ufpr.br/~joel/dados/dadostrein.txt",h=T) | ||
dadostest<-read.table("http://www.leg.ufpr.br/~joel/dados/dadostest.txt",h=T) | dadostest<-read.table("http://www.leg.ufpr.br/~joel/dados/dadostest.txt",h=T) | ||
</code> | </code> | ||
- | |||
===== Bibliografias ===== | ===== Bibliografias ===== | ||
Linha 357: | Linha 314: | ||
address = {}, | address = {}, | ||
year = {2002}, | year = {2002}, | ||
+ | } | ||
+ | </bibtex> | ||
+ | |||
+ | <bibtex> | ||
+ | @Book{hair+tatham+anderson+black:2006, | ||
+ | author = {Hair, Joseph F. AND Tatham; Ronald L. AND Anderson, Rolph E. AND Black, William}, | ||
+ | title = {Multivariate Data Analysis}, | ||
+ | note = {Tradu\c{c}\~{a}o: Adonai Schulup Sant'Anna e Anselmo Chaves Neto}, | ||
+ | pages = {}, | ||
+ | publisher = {Bookman}, | ||
+ | address = {Porto Alegre}, | ||
+ | year = {2006}, | ||
} | } | ||
</bibtex> | </bibtex> | ||
Linha 364: | Linha 333: | ||
@article{ABC2422007, | @article{ABC2422007, | ||
author = {ABC da Saúde}, | author = {ABC da Saúde}, | ||
- | title = {{Hipertensão Arterial - Crise Hipertensiva}}, | + | title = {Hipertensão Arterial - Crise Hipertensiva}, |
language = {pt}, | language = {pt}, | ||
note = {http://www.abcdasaude.com.br/artigo.php?242}, | note = {http://www.abcdasaude.com.br/artigo.php?242}, | ||
Linha 426: | Linha 395: | ||
} | } | ||
- | @Book{HAIR2006, | + | |
- | author = {Hair, Joseph F. AND Tatham; Ronald L. AND Anderson, Rolph E. AND Black, William}, | + | |
- | title = {{Multivariate Data Analysis}}, | + | |
- | note = {Tradu\c{c}\~{a}o: Adonai Schulup Sant'Anna e Anselmo Chaves Neto}, | + | |
- | pages = {}, | + | |
- | publisher = {Bookman}, | + | |
- | address = {Porto Alegre}, | + | |
- | year = {2006}, | + | |
- | } | + | |
@Book{HOFFMANN1977, | @Book{HOFFMANN1977, | ||
Linha 650: | Linha 611: | ||
@book{COSTANETO1977, | @book{COSTANETO1977, | ||
author = {Costa Neto, Pedro Luís de Oliveira}, | author = {Costa Neto, Pedro Luís de Oliveira}, | ||
- | title = {{Estatística}}, | + | title = {Estatística}, |
note = {14ª reimpressão}, | note = {14ª reimpressão}, | ||
pages = {39 - 45}, | pages = {39 - 45}, | ||
Linha 682: | Linha 643: | ||
} | } | ||
- | @Manual{GIOLO2006, | + | @unpublished{GIOLO2006, |
author = {Giolo, Suely Ruiz}, | author = {Giolo, Suely Ruiz}, | ||
- | title = {{Análise de Dados Categóricos}}, | + | title = {Análise de Dados Categóricos}, |
- | note = {Apostila e Notas de Aula}, | + | note = {notas de aula para o Curso de Estatística da UFPR}, |
- | pages = {}, | + | |
- | publisher = {UFPR}, | + | |
address = {Curitiba}, | address = {Curitiba}, | ||
year = {2006}, | year = {2006}, | ||
Linha 693: | Linha 652: | ||
- | @Manual{GIOLO2007, | + | @unpublished{GIOLO2007, |
author = {Giolo, Suely Ruiz}, | author = {Giolo, Suely Ruiz}, | ||
- | title = {{Análise de Regressão}}, | + | title = {Análise de Regressão}, |
- | note = {Apostila e Notas de Aula}, | + | note = {Notas de aula para o Curso de Estatística da UFPR}, |
pages = {}, | pages = {}, | ||
- | publisher = {UFPR}, | ||
address = {Curitiba}, | address = {Curitiba}, | ||
year = {2007}, | year = {2007}, | ||
Linha 717: | Linha 675: | ||
@Manual{OGLIARI2007, | @Manual{OGLIARI2007, | ||
author = {Ogliari, Paulo José}, | author = {Ogliari, Paulo José}, | ||
- | title = {{Regressão Logística}}, | + | title = {Regressão Logística}, |
note = {Curso On-Line - http://www.inf.ufsc.br/~ogliari/cursoderegressao.html}, | note = {Curso On-Line - http://www.inf.ufsc.br/~ogliari/cursoderegressao.html}, | ||
pages = {}, | pages = {}, | ||
Linha 738: | Linha 696: | ||
- | ===== Laboratórios de Estatística ===== | ||
- | |||
- | === == ==== Flaviane Peccin ==== == === | ||
- | |||
- | Artigo: {{projetos:artigo.pdf|Fatores de Hipertensão usando Redes Neurais Kohonen}} | ||
- | |||
- | Apresentação: 05/09/2007 - Grupo II | ||
- | |||
- | Apresentação 2: 24/10/2007 - Grupo II | ||
- | |||
- | |||
- | === == ==== Christine Cardozo de Araujo ==== == === | ||
- | |||
- | Artigo: Projeto Bambuí-MG | ||
- | |||
- | Apresentação 1: 05/09/2007 - Grupo I | ||
- | Apresentação 2: 24/10/2007 - Grupo I | ||
===== Modelos para Redação do TCC ===== | ===== Modelos para Redação do TCC ===== |