projetos:hipertensao - Wiki do LEG

Não foi possível enviar o arquivo. Será algum problema com as permissões?

Você está aqui: start » projetos » hipertensao

Diferenças

Aqui você vê as diferenças entre duas revisões dessa página.

--- projetos:hipertensao [2007/12/06 09:50]
joel
+++ projetos:hipertensao [2007/12/17 20:27] (atual)
joel
@@ Linha 1: / Linha 1: @@
-[[http://www.leg.ufpr.br/~joel/tcc.pdf|Versão parcial do TCC]]
 ===== Participantes =====
   - [[pessoais:peccin|Flaviane Peccin]], Graduanda (UFPR)
@@ Linha 10: / Linha 7: @@
 ===== Objetivos =====
-Geral : Aplicar técnicas multivariadas para encontrar possíveis fatores de risco para idosas hipertensas.
+Geral : Aplicar técnicas multivariadas em um conjunto de dados sobre hipertensão.
-Específicos
+Específicos :
-  - Aplicar métodos de clusterização
+  - aplicar métodos de clusterização;
-  - Aplicar métodos de classificação
+  - aplicar métodos de classificação;
-  - Comparar os métodos de classificação
+  - comparar os métodos de classificação em relação à capacidade preditiva;
-  - Avaliar a importância das variáveis explicativas
+  - levantar, por diferentes metodologias, os potenciais fatores de risco para hipertensão.
 ===== Metodologia =====
 ==== Métodos Multivariados. ====
+    * Clusterização pelo método das k-médias
     * Regressão Logística
-    * Clusterização
     * Análise Linear Discriminante
     * Árvores de Decisão
@@ Linha 36: / Linha 29: @@
 === Análise de Cluster ===
-Análise de Cluster é um conjunto de técnicas utilizadas na identificação de padrões de comportamento em bancos de dados através da formação de grupos homogêneos. (SEAGRO)
-O  objetivo da analise de cluster é agrupar as observações semelhantes de forma que cada grupo seja homogêneo internamente e sejam diferentes entre si.
-O primeiro passo da analise de cluster é encontrar as medidas de similaridade. Em seguida deve-se decidir qual a técnica de clusterização será utilizada (hierárquica ou não hierárquica). O terceiro passo é decidir o método de clusterização para a técnica que já foi selecionada (exemplo: método do centróide  para a técnica hierárquica de clusterização). Quarto, a decisão considerando o número de clusters serão feitos. Finalmente, a solução dos clusters é interpretada.
-.2.1 Medidas de similaridade
-Cada objeto é representado por um ponto no espaço n-dimensional e, portanto, pode ser agrupado com outros que estejam próximos e mais se assemelham a ele. Dois critérios de melhor associação podem ser utilizados.
-.	Covariância e Correlação
-Partindo da matriz de dados D (mxn), obtém-se a matriz de covariância C, onde seus elementos são dados por:
-ckl é grande e positivo quando, para a maior parte das amostras, os valores das variáveis k e l desviam da média na mesma direção. Portanto, a covariância de duas variáveis é uma medida de sua associação. Para cada elemento da matriz de covariância pode ser calculado o coeficiente de correlação, consequentemente a matriz de covariância pode ser transformada numa matriz de correlação R, onde seus elementos são dados por:
-onde sk e s1 são os desvios padrões das variáveis K e 1
-Os valores de rkl são uma covariância padronizada entre -1 e +1.
-.	Medidas de distâncias
-Na análise de agrupamentos (cluster analysis) a similaridade entre duas amostras pode ser expressa como uma função da distância entre os dois pontos representativos destas amostras no espaço n-dimensional. Existem várias formas de de calcular a distância entre dois pontos a e b no espaço n-dimensional:
-	Distancia Euclidiana
-É a maneira mais usual de calcular a distância entre dois pontos (xab). É uma medida invariante a translações, porém assume covariâncias iguais entre as classes e em geral não é invariante a transformações lineares (Costa, 1999). É dada por:
-	Distância de Mahalanobis:
-Considera que as superfícies de cada classe são elipsóides centradas na média. No caso especial em que a covariância é zero e a variância é a mesma para todas as variáveis, as superfícies são esferas e a distancia de Mahalanobis fica equivalente a distancia euclidiana. Pode ser utilizada para medir a distância entre classes de padrões. Isso pode ser feito através da soma ou da média da distância entre todos os padrões de duas classes diferentes.
-	Distancia de Manhattan ou “city-block”
-A distancia de manhattan é uma simplificação da distancia euclidiana, por isso é mais simples e sua emplementação é mais fácil. É mais eficiente para aplicações em tempo real devido a sua simplicidade (Kugler, 2003).
+Denomina-se Análise de Cluster ou Análise de Agrupamentos o conjunto de técnicas utilizadas na identificação de padrões de comportamento em bancos de dados através da formação de grupos homogêneos. O  objetivo da analise de cluster é agrupar objetos ou variáveis semelhantes de forma que cada grupo seja homogêneo internamente e sejam diferentes entre si.
 === Árvores de Decisão ===
@@ Linha 87: / Linha 48: @@
 Neste trabalho será realizada somente a análise linear discriminante (LDA). Outros tipos de análise discriminante são: QDA(Quadratic Discriminant Analysis), FDA(Flexible Discriminant Analysis), PDA(Penalized Discriminant Analysis) e MDA(Mixture Discriminant Analysis). A função lda() presente no  pacote MASS do  R  realiza análise linear discriminante. É importante notar que para a construção da função linear discriminante os preditores devem ser quantitativos e assume-se matrizes de covariância iguais nos grupos.
 === Redes Neurais Artificiais ===
 Apesar de todo mito que envolve o uso de Redes Neurais Artificiais, o que está por trás desta técnica é a utilização de modelos não-lineares. Redes Neurais Artificiais para classificação estão implementadas no pacote nnet() presente na biblioteca MASS do R. A construção de uma rede neural associa-se a definição de sua topologia que no caso das redes do tipo feed-forward envolve a definição de 3 ou mais camadas. A primeira camada, chamada de camada de entrada necessita de tantos neurônios quanto forem o número de variáveis independentes, enquanto a última camada, denominada camada de saída, apresenta tantos neurônios quantas forem as variáveis resposta. Entre estas duas camadas podem existir uma ou mais camadas intermediárias, chamadas de camadas escondidas. O Teorema de Kolmogorov garante que uma camada escondida é suficiente para aproximar qualquer relação não-linear entre a resposta e as variáveis independentes, desde que satisfeitas algumas condições.
@@ Linha 138: / Linha 97: @@
   * {{projetos:usingr-2.pdf|Using-R - parte 2}}
   * {{projetos:obesidade:rnalogistichepatite.pdf|Redes Neurais e Regressão Logística para Diagnóstico de Hepatite}}
+  * {{projetos:artigo.pdf|Fatores de Hipertensão usando Redes Neurais Kohonen}}
 ===== Funções do R =====
@@ Linha 144: / Linha 104: @@
 [[http://cran.at.r-project.org/src/contrib/Descriptions/som.html |Pacote para Mapas Auto-Organizáveis
 (SOM) de Kohonen no R]]
 ===== Scripts do R =====
-<code>
+<code R>
 # pacotes necessarios
 require(MASS)
 require(tree)# arvores de decisao
 require(rpart)# arvores de decisao
 # Leitura do conjunto de dados
 dados<-read.csv2('http://www.leg.ufpr.br/~joel/dados/hiipertensao.csv',na.strings="")
-# Re-expressão das variáveis
-dados<-transform(dados,sexo=factor(sexo,labels=c('feminino','masculino')))
 </code>
@@ Linha 322: / Linha 280: @@
 ==== Criação das Bases de Desenvolvimento e de Validação ====
-<code>
+<code R>
 <echo=F,results=hide>>=
 ind<-1:989 # Criacao de vetor de indices
@@ Linha 333: / Linha 291: @@
-<code>
+<code R>
 dadostrein<-read.table("http://www.leg.ufpr.br/~joel/dados/dadostrein.txt",h=T)
 dadostest<-read.table("http://www.leg.ufpr.br/~joel/dados/dadostest.txt",h=T)
 </code>
 ===== Bibliografias =====
@@ Linha 357: / Linha 314: @@
   address =      {},
   year =        {2002},
+}
+</bibtex>
+<bibtex>
+@Book{hair+tatham+anderson+black:2006,
+author = {Hair, Joseph F. AND Tatham; Ronald L. AND Anderson, Rolph E. AND Black, William},
+title = {Multivariate Data Analysis},
+note = {Tradu\c{c}\~{a}o: Adonai Schulup Sant'Anna e Anselmo Chaves Neto},
+pages = {},
+publisher = {Bookman},
+address = {Porto Alegre},
+year = {2006},
 }
 </bibtex>
@@ Linha 364: / Linha 333: @@
 @article{ABC2422007,
 author = {ABC da Saúde},
-title = {{Hipertensão Arterial - Crise Hipertensiva}},
+title = {Hipertensão Arterial - Crise Hipertensiva},
 language = {pt},
 note = {http://www.abcdasaude.com.br/artigo.php?242},
@@ Linha 426: / Linha 395: @@
 }
-@Book{HAIR2006,
-author = {Hair, Joseph F. AND Tatham; Ronald L. AND Anderson, Rolph E. AND Black, William},
-title = {{Multivariate Data Analysis}},
-note = {Tradu\c{c}\~{a}o: Adonai Schulup Sant'Anna e Anselmo Chaves Neto},
-pages = {},
-publisher = {Bookman},
-address = {Porto Alegre},
-year = {2006},
-}
 @Book{HOFFMANN1977,
@@ Linha 650: / Linha 611: @@
 @book{COSTANETO1977,
 author = {Costa Neto, Pedro Luís de Oliveira},
-title = {{Estatística}},
+title = {Estatística},
 note = {14ª reimpressão},
 pages = {39 - 45},
@@ Linha 682: / Linha 643: @@
    }
-@Manual{GIOLO2006,
+@unpublished{GIOLO2006,
 author = {Giolo, Suely Ruiz},
-title = {{Análise de Dados Categóricos}},
+title = {Análise de Dados Categóricos},
-note = {Apostila e Notas de Aula},
+note = {notas de aula para o Curso de Estatística da UFPR},
-pages = {},
-publisher = {UFPR},
 address = {Curitiba},
 year = {2006},
@@ Linha 693: / Linha 652: @@
-@Manual{GIOLO2007,
+@unpublished{GIOLO2007,
 author = {Giolo, Suely Ruiz},
-title = {{Análise de Regressão}},
+title = {Análise de Regressão},
-note = {Apostila e Notas de Aula},
+note = {Notas de aula para o Curso de Estatística da UFPR},
 pages = {},
-publisher = {UFPR},
 address = {Curitiba},
 year = {2007},
@@ Linha 717: / Linha 675: @@
 @Manual{OGLIARI2007,
 author = {Ogliari, Paulo José},
-title = {{Regressão Logística}},
+title = {Regressão Logística},
 note = {Curso On-Line - http://www.inf.ufsc.br/~ogliari/cursoderegressao.html},
 pages = {},
@@ Linha 738: / Linha 696: @@
-===== Laboratórios de Estatística =====
-=== == ==== Flaviane Peccin ==== == ===
-Artigo: {{projetos:artigo.pdf|Fatores de Hipertensão usando Redes Neurais Kohonen}}
-Apresentação: 05/09/2007 - Grupo II
-Apresentação 2: 24/10/2007 - Grupo II
-=== == ==== Christine Cardozo de Araujo ==== == ===
-Artigo: Projeto Bambuí-MG
-Apresentação 1: 05/09/2007 - Grupo I
-Apresentação 2: 24/10/2007 - Grupo I
 ===== Modelos para Redação do TCC =====

Diferenças

Navegação

Busca

Ferramentas

QR Code