A Estatística é um conjunto de métodos desenvolvidos com a finalidade de auxiliar a responder, de forma objetiva e segura, problemas que envolvem uma grande quantidade de informações.
No dicionário Aurélio, encontra-se como a primeira definição para Estatística:
[Do fr. statistique.] S. f. 1. Parte da matemática em que se investigam os processos de obtenção, organização e análise de dados sobre uma população ou sobre uma coleção de seres quaisquer, e os métodos de tirar conclusões e fazer ilações ou predições com base nesses dados.
A quantificação de toda espécie de informações tem aumentado nas últimas décadas e é parte do nosso cotidiano desde a popularização dos computadores. No passado, tratar uma grande massa de números era uma tarefa custosa e cansativa, que exigia horas de trabalho tedioso. Recentemente, grande quantidade de informações pode ser analisada rapidamente com um computador pessoal e programas adequados. Desta forma, o computador contribui positivamente na difusão e uso de métodos estatísticos. Por outro lado, este possibilita uma automação que pode levar um indivíduo sem preparo a utilizar técnicas inadequadas para resolver um dado problema. Assim, é necessário a compreensão dos conceitos básicos da Estatística, bem como as suposições necessárias para o seu uso de forma criteriosa.
Estatística é um conjunto de técnicas que permite, de forma sistemática, organizar, descrever, analisar e interpretar dados oriundos de estudos ou experimentos.
A grosso modo podemos dividir a Estatística em três áreas:
Estudos complexos que envolvem o tratamento estatístico dos dados, usualmente, incluem as três áreas acima.
Como dito, a Estatística refere-se a um conjunto de métodos para coleta e descrição dos dados, e então a verificação da força da evidência nos dados pró ou contra certas idéias científicas. A presença de uma variação não previsível nos dados faz disso uma tarefa pouco trivial.
Um exemplo em que a variação está presente nos dados:
Função pulmonar em pacientes com fibrose cística: A pressão inspiratória estática máxima (PImax) é um índice de vigor respiratório muscular. Os seguintes dados mostram a idade (anos) e uma medida de PImax (cm H$_2$O) de 25 pacientes com fibrose cística.
Sujeito | Idade | PImax |
1 | 7 | 80 |
2 | 7 | 85 |
3 | 8 | 110 |
4 | 8 | 95 |
5 | 8 | 95 |
6 | 9 | 100 |
7 | 11 | 45 |
8 | 12 | 95 |
9 | 12 | 130 |
10 | 13 | 75 |
11 | 13 | 80 |
12 | 14 | 70 |
13 | 14 | 80 |
14 | 15 | 100 |
15 | 16 | 120 |
16 | 17 | 110 |
17 | 17 | 125 |
18 | 17 | 75 |
19 | 17 | 100 |
20 | 19 | 40 |
21 | 19 | 75 |
22 | 20 | 110 |
23 | 23 | 150 |
24 | 23 | 75 |
25 | 23 | 95 |
Dado um conjunto de dados, como tratar os valores numéricos ou não, a fim de se extrair informações a respeito de uma ou mais características de interesse? Fazendo uso de tabelas e gráficos.
Um questionário foi aplicado aos alunos do primeiro ano de uma escola fornecendo as seguintes informações:
Tabela 1.1: Informações de questionário estudantil - dados brutos
Note que:
Resumimos a classificação das variáveis no esquema abaixo:
A partir da tabela de dados brutos, podemos construir uma (tabela de frequências) com informações resumidas para cada variável.
Tabela 1.2: Tabela de frequências para a variável Sexo
Sexo | ni | fi |
F | 37 | 0,74 |
M | 13 | 0,26 |
total | n=50 | 1 |
Para variáveis cujos valores possuem ordenação natural faz sentido incluirmos também uma coluna contendo frequências acumuladas fac. Sua utilidade principal é ajudar a estabelecer pontos de corte com uma determinada frequência de valores da variável.
Tabela 1.3: Tabela de frequências para a variável Idade
Idade | ni | fi | fac |
17 | 9 | 0,18 | 0,18 |
18 | 22 | 0,44 | 0,62 |
19 | 7 | 0,14 | 0,76 |
20 | 4 | 0,08 | 0,84 |
21 | 3 | 0,06 | 0,90 |
22 | 0 | 0 | 0,90 |
23 | 2 | 0,04 | 0,94 |
24 | 1 | 0,02 | 0,96 |
25 | 2 | 0,04 | 1,00 |
total | n=50 | 1 |
Observe que 90% dos alunos têm idades até 21 anos, de fato até 22, uma vez que este valor tem frequência zero.
Com relação à variável Peso (classificado como quantitativa contínua) podemos construir classes ou faixas de valores e contar o número de ocorrências em cada faixa (aqui usamos faixas de amplitude 10).
Tabela 1.4: Tabela de frequências para a variável Peso
Peso | ni | fi | fac |
40,0 ¦− 50,0 | 8 | 0,16 | 0,16 |
50,0 ¦− 60,0 | 22 | 0,44 | 0,60 |
60,0 ¦− 70,0 | 8 | 0,16 | 0,76 |
70,0 ¦− 80,0 | 6 | 0,12 | 0,88 |
80,0 ¦− 90,0 | 5 | 0,10 | 0,98 |
90,0 ¦− 100,0 | 1 | 0,02 | 1,00 |
total | 50 | 1 |
Quando a variável é discreta, mas com conjunto de valores muito grande (ex. variável TV) o caminho adequado é tratar a variável como se fosse contínua e criar faixas para representar seus valores.
Tabela 1.5: Tabela de frequências para a variável TV
TV | ni | fi | fac |
0 ¦− 6 | 14 | 0,28 | 0,28 |
6 ¦− 12 | 17 | 0,34 | 0,62 |
12 ¦− 18 | 11 | 0,22 | 0,84 |
18 ¦− 24 | 4 | 0,08 | 0,92 |
24 ¦−¦ 36 | 4 | 0,08 | 1,00 |
total | 50 | 1 |
Muitas vezes as informações contidas em tabelas podem ser mais facilmente entendidas se visualizadas através de gráficos. Graças à proliferação recursos gráficos, existe hoje uma infinidade de tipos de gráficos que podem ser utilizados (veja Figura 1.3, pág 12).
Note no entanto que a utilização de recursos visuais deve ser feita cuidadosamente; um gráfico desproporcional em suas medidas pode dar falsa impressão de desempenho e conduzir a conclusões equivocadas (Reis & Reis (2001), exemplo da pág 23).
Vamos definir três tipos básicos de gráficos: setores ou pizza, barras e histograma.
Adequado para representar variáveis qualitativas. Consiste em repartir um disco em setores circulares correspondentes às porcentagens de cada valor.
A Figura 1.4 abaixo apresenta o diagrama de disco para a variável Toler, obtida a partir da Tabela 1.1.
Mais adequado para variáveis discretas ou qualitativas ordinais. Utiliza o plano cartesiano com os valores da variável no eixo das abscissas e as frequências no eixo das ordenadas. Para cada valor da variável desenha-se uma barra com altura correspondendo à sua frequência.
Consiste em retângulos contíguos com base nas faixas de valores da variável e com área igual à frequência relativa da faixa. A altura de cada retângulo é denominada densidade de frequência ou simplesmente densidade definida pelo quociente da frequência relativa pela amplitude da faixa.
Para a variável Peso, as densidades de cada faixa podem ser obtidas dividindo-se a a coluna fi da Tabela 1.4 por 10, que é a amplitude de cada faixa. Veja o histograma obtido na Figura 1.6.
Nota: Alguns autores usam a frequência absoluta ou porcentagem na construção do histograma. O uso da densidade impede que o histograma fique distorcido quando as faixas têm amplitudes diferentes.
O histograma também pode ser utilizado no cálculo da mediana (mdobs), que é o valor da variável que divide o conjunto de dados ordenados em dois subgrupos de mesmo tamanho. Isto é, das observações ordenadas, 50% estão abaixo e 50% estão acima da mediana.
Exemplo 1.1: Vamos calcular a mediana da variável Peso através do histograma.
O conceito de mediana pode ser generalizado para situações em que o conjunto de dados é dividido em mais do que dois subgrupos. No caso de 4 subgrupos, além da mediana, dois valores tais que 25% das observações ordenadas estarão abaixo de um deles (primeiro quartil (Q1)) e 75% estarão abaixo do outro (terceiro quartil (Q3)).
Note que a mediana representa o segundo quartil (Q2).
O cálculo dos valores dos quartis também pode ser feito através do histograma.
Exemplo 1.2: No histograma da variável Peso, vemos que o valor de Q1 se encontra no intervalo [50,0; 60,0), ie corresponderá ao valor Q1 que determinará um percentual de 9% no retângulo correspondente:
O terceiro quartil pode ser obtido de forma semelhante (Q3=69,38).
Para o cálculo de quartis usando a tabela de dados brutos, precisamos ordenar as observações e escolher os valores que dividem os dados nas proporções desejadas. Em alguns casos pode ser necessário tomar médias de valores vizinhos.
É uma forma de representação gráfica dos quartis.
Exemplo 1.3: Suponha que um produtor de laranjas costuma guardar as frutas em caixas e está interessado em estudar o número de laranjas por caixa. Após um dia de colheita, 20 caixas foram contadas. Os resultados brutos, após a ordenação, são:
22 29 33 35 35 37 38 43 43 44 48 48 52 53 55 57 61 62 67 69
Para estes dados temos que:
O box-plot correspondente é apresentado na Figura 1.7.
A representação gráfica através do box-plot informa, dentre outras coisas, a variabilidade e simetria dos dados. Na Figura 1.7 os dados apresentam simetria acentuada2).
O box-plot para a variável Peso (Figura 1.8) por outro lado, apresenta uma pequena assimetria.
Gráficos do tipo box-plot também são úteis para detectar, descritivamente, diferenças nos comportamentos de grupos de variáveis (veja exemplo na Figura 1.9).
Podemos notar que os homens apresentam peso mediano superior ao das mulheres, além de uma maior variablidade e mais assimetria nos dados.