Últimas atualizações
Novo endereço do Cognosco: http://www.cognoscomm.com
Diário das pequenas descobertas da vida.
Sexta-feira, 25 de Julho de 2008
Tremor estimado
Esta sondagem, realizada pelo Centro de Sondagens e Estudos de Opinião, tem uma margem de erro de 2,2 por cento e um grau de confiança de 95 por cento. Para a sua elaboração, foram feitos 2 023 inquéritos telefónicos, entre 07 e 10 de Julho, a eleitores recenseados, escolhidos em 21 freguesias seleccionadas aleatoriamente.

Sempre que são mostradas sondagens, em jornais impressos ou televisivos, aparece, no final, sempre uma ficha técnica semelhante a esta. Fala-se em «margem de erro» e «grau de confiança». Mas ao certo o que significa isto?
É compreensível que não se possa perguntar a todos os eleitores de um país em quem tencionam votar (pelo menos não a tempo das eleições!) ou, semelhantemente, numa fábrica não se pode experimentar todas as bolachas produzidas para ver se estão boas (ficava-se sem ter o que vender!)
Por isso, o procedimento usual é tirar uma amostra, analisar uma pequena quantidade da população que se quer estudar e verificar aí aquilo que se pretende estudar na população total. Mas como poderá isto funcionar? Como se pode ter a certeza que uma parte pode representar o todo?

Suponhamos que queríamos saber a percentagem de pessoas do sexo feminino que moram numa cidade de 1 milhão de habitantes. Podíamos tirar uma amostra de 100 pessoas para averiguar a percentagem do sexo feminino presente. Mas o que impede que a amostra tenha valores bem diferentes da população total? Pode ter 67 mulheres (67% da amostra) mas a população ter 532 mil (53,2%), por exemplo. A amostra que tirámos pode não representar adequadamente o parâmetro que queremos estudar da população...

Aqui entramos no reino da Matemática, esse bicho papão que não o é, essa jóia do pensamento humano, em especial na Inferência Estatística. Termos como «amostra», «população», «margem de erro», «grau de confiança», «parâmetros» fazem parte da sua linguagem mas não se esgota neles. A Inferência Estatística surge como uma forma de se poder tirar conclusões válidas para uma população que se quer estudar mas apenas analisando uma amostra, uma parte dela.
Infere-se, i.e., deduz-se por meio de raciocínio; tira-se por conclusão os valores que se pretende estudar de uma população grande de mais ou sensível de mais para uma recolha sistemática e exaustiva dos elementos em estudo.

Dois valores surgem, como traves-mestras, para este ramo matemático: a média e o desvio-padrão. Já antes se falou neles, no artigo Erros normais, quando se abordou a Curva de Gauss. Esta simples relação estatística, que desenha um elegante gráfico em forma de sino, é a ligação entre variados e díspares fenómenos naturais. O que há, parafraseando Pessoa, é poucas pessoas a saberem-no.
A média (valor esperado) é o valor que se situa a meio de todos os outros, uma espécie de representante de todos os outros;
o desvio-padrão indica qual a diferença entre os valores e a média, a dispersão dos dados. É diferente, por exemplo, que, na altura de um grupo de pessoas, a média das alturas seja 1,70m e haja alturas como 1,50m e 1,80m e outro grupo em que a média seja também 1,80m mas haja valores como 1,45m e 2,11m. A média é a mesma mas a dispersão das alturas é maior, o seu desvio-padrão é maior.
Há várias medidas de dispersão que se podem usar, além do desvio-padrão, como a ampitude, mas esta tem apenas em consideração o valor mais alto e o valor mais baixo, enquanto o desvio-padrão, que é usado a generalidade das fórmulas estatísticas, tem em consideração a totalidade dos valores e a sua diferença à média.

Mas, voltando à questão, como é que podemos tirar uma amostra e daí inferir resultados para toda a população? Os valores da média populacional e da média amostral; do desvio-padrão populacional e do desvio-padrão amostral; da proporção populacional e da proporção amostral nem sempre são, de forma directa, iguais.
Suponhamos o seguinte exemplo simples:
A um grupo de 5 pessoas, perguntou-se, após o almoço, quantos cafés tinham tomado até àquela hora, nesse dia. Para facilitar as contas, suponhamos que a primeira pessoa inquirida tomou 1, a segunda pessoa 2, a terceira 3, a quarta 4 e a quinta 5.
Para os ordinais para diferentes números, ver Termos ordinais.
Obtemos a seguinte população de cafés tomados {1; 2; 3; 4; 5}, cuja média (populacional) é (1+2+3+4+5)/5 = 15/5 = 3. A média populacional é de 3 cafés tomados.
Mas suponhamos (ao contrário deste exemplo simples) que não tínhamos como calcular directamente a média populacional, pelo que teríamos de tirar amostras.
Tiremos amostras de tamanho dois da população, podendo então obter qualquer uma das seguintes dez amostras:
{1; 2} - média 1,5; {1; 3} - média 2; {1; 4} - média 2,5; {1; 5} - média 3;
{2; 3} - média 2,5; {2; 4} - média 3; {2; 5} - média 3,5;
{3; 4} - média 3,5; {3; 5} - média 4; {4; 5} - média 4,5;
Conforme a amostra que se tirasse, a média que obtermos é diferente e é diferente da média populacional. Os valores situam-se entre os 1,5 e os 4,5 (a dispersão, a diferença entre os valores e a média pretendida é muito grande).
Se fizermos agora a média das média obtemos:
(1,5+2+2,5+3+2,5+3+3,5+3,5+4+4,5)/10 = 30/10 = 3, que corresponde à média populacional.
Suponhamos que fazíamos amostras de tamanho 3. Obteríamos as seguintes possíveis dez amostras:
{1; 2; 3} - média 2; {1; 2; 4} - média 2,33; {1; 2; 5} - média 2,66;
{1; 3; 4} - média 2,66; {1; 3; 5} - média 3; {1; 4; 5} - média 3,33;
{2; 3; 4} - média 3; {2; 3; 5} - média 3,33; {2; 4; 5} - média 3,66;
{3; 4; 5} - média 4;
Os valores situam-se entre os 2 e os 4: a dispersão é já menor, os valores possíveis aproximam-se mais da média populacional. Se fizermos agora a média das médias obtemos novamente 3.
Se fizéssemos amostras de quatro elementos, obteríamos um total de 5 amostras:
{1; 2; 3; 4} - média 2,5; {1; 2; 3; 5} - média 2,75; {1; 2; 4; 5} - média 2,66;
{1; 3; 4; 5} - média 3,25; {2; 3; 4; 5} - média 3,5;
Aqui, os valores situam-se entre os 2,5 e os 3,5: a dispersão é ainda menor, estando os valores cada vez mais próximos da média populacional, que é de 3.

Portanto, aumentando o tamanho da amostra recolhida, obtemos valores mais próximos da média populacional. A exacta média populacional só é atingida com uma amostra do tamanho da população em si. Isto, como se viu anteriormente, nem sempre é praticável ou desejável. Então como saber qual o tamanho da amostra que devemos tirar para que seja praticável (quanto menor melhor) e o mais aproximada da correcta possível (quanto maior melhor)?

Aqui entra em cena a Curva Normal, de que já se falou em Erros normais. Devido às suas características, providencia uma forma de encontrar percentagens e a valores correctos para uma enorme variedade de situações. Se todas as amostras seguissem uma distribuição normal, muitas questões seriam facilmente respondidas. Mas nem todas são... Nomeadamente, partindo da média amostral e do desvio-padrão amostral, seria possível saber se os valores que obtivémos são ou não próximos dos da população em estudo: quanto menor o desvio-padrão mais a média amostral se aproxima da média populacional.

Marquês de PombalMas há um teorema matemático que nos permite trabalhar com a média e desvio-padrão amostrais como uma distribuição normal. É o Teorema do Limite Central, que nos diz que «para amostras de dimensão grande (tipicamente superior a 30), a distribuição das médias é aproximadamente normal". Este Teorema, importantíssimo na Estatística (e na Inferência Estatística), foi primeiro cogitado pelo matemático francês Abraham de Moivre, num artigo datado de 1733 (situe-se historicamente tendo em conta que o Grande Terremoto de Lisboa, era o Marquês de Pombal primeiro-ministro do Reino, ocorreu em 1755, 22 anos depois). Desse teorema obtemos que a média populacional, para amostras suficientemente grandes, é igual à média populacional e o desvio padrão populacional é igual ao desvio-padrão amostral a dividir pela raíz quadrada do tamanho da amostra considerada.
Por exemplo, temos uma amostra de tamanho 50 de uma população de que desconhecemos a dimensão ou quaisquer valores. A média amostral é de 20 e o desvio-padrão é 5.
Então, a média populacional é 20 é o desvio-padrão populacional é 5/√ 50 ≈ 0,7071.


Em muitas situações, não é possível obter um valor exacto para o parâmetro que queremos estudar da população. Para obter esse valor exacto seira necessário uma amostra tão grande e próxima do tamanho da população que é impraticável fazê-lo. Temos de reduzir o nosso grau de certeza no valor que estamos a estimar, de forma a tornar as amostras necessárias de tamanho mais manejável. Assim, poderíamos baixar a fasquia dos 100% de certeza para os 90%, 95% ou 99% (percentagens suficientemente elevadas para serem úteis). Desta forma, estaríamos a garantir que 90%, 95% ou 99% das amostras que recolhemos têm o valor correcto que queremos estimar. Por exemplo, querendo estudar a altura média de uma população, poderíamos retirar uma amostra (idealmente de mais de 30 pessoas) e afirmar que «a altura média da população se situa entre ]1,62; 1,66[, com um grau de confiança de 95%».

Mas numa situação concreta, como determinamos esse intervalos e esse grau de confiança?
Bem, aqui depende do grau de confiança que pretendemos (tendo em conta que quanto maior o grau de confiança maior terá de ser a amostra). Depois, construímos o intervalo desta forma:


Aqui, o x com a barra por cima indica a média amostral, σ o desvio-padrão, N o tamanho da amostra, o que está acima da braa da fracção é a margem de erro admitida e o Z o grau de confiança que pretendemos. Assim, se pretendemos um grau de confiança de 68,3%, Z =1; grau de confiança de 90%, Z=1,65; grau de confiança de 95%, Z=1,96; grau de confiança de 99%, Z=2,58. Quanto maior o grau de confiança que pretendemos, maior será o intervalo dos valores possíveis.
Estes valores para Z surgem de uma forma natural a partir das propriedades da Distribuição Normal e da sua tabela de percentagens tendo em conta os valores pretendidos.

Vejamos um caso concreto: numa empresa, trabalham duzentas pessoas. Pretende-se saber a média das alturas dos empregados, de forma a ajustar a farda de trabalho. Para isso, recolheu-se uma amostra de 40 pessoas e mediu-se a sua altura. Obteve-se a seguinte tabela:

Colocando estes dados numa folha de cálculo, é possível, utilizando as fórmulas já contidas no programa, calcular a média e o desvio-padrão da amostra. Neste caso, a média é de 1,80 e o desvio-padrão 0,256145. Usando a fórmula, podemos então os intervalos de confiança apropriados.

Caso o que se pretende estimar seja a proporção populacional (como no caso das sondagens para as eleições), a forma de o fazer é a mesma, apenas mudando alguns aspectos na fórmula para a determinação do intervalo de confiança:


Assim, se numa eleição para a qual há um milhão de potenciais eleitores, se perguntar a
cem em que partido irão votar, obtemos a proporção amostral. Tendo em conta o tamanho da amostra e colocando depois na fórmula indicada, obtemos os intervalos de confiança pretendidos.

É claro que isto é visão muito simplificada tanto do processo como na quantidade de fórmulas usadas, servindo apenas como forma de mostrar que nada há de fora do normal naquela ficha técnica.


Publicado por Mauro Maia às 12:22
Atalho para o Artigo | Cogitar | Adicionar aos favoritos

2 comentários:
De Maria Papoila a 1 de Agosto de 2008 às 22:00
Querido Mauro: Análise estatística, amostra representativa, desvio padrão, tudo termos e matérias de grande interesse em Medicina para epidemiologia e investigação... Aguardo o desenvolvimento do tema. Beijos.


De Mauro a 1 de Agosto de 2008 às 22:42
Bem, minha querida «Papoila», que saudades tinha o Cognosco e eu das tuas palavras. Há muito não nos «vemos». Sim, o assunto é interessante e tem várias aplicações práticas. A principal (para a generalidade das pessoas) é saber exactamente o que significam aquelas palavras que surgem sempre que referem os resultados de uma qualquer sondagem. Mas, como bem referes, não se esgotam aí. Curiosamente, apesar da sua óbvia importância prática neste Mundo dominado pela Matemática, este não é um tema que seja dado na vertente tecnológica do Ensino Secundário em Portugal. Estranhas contradições... Como sempre, é um prazer ter-te neste meu pequeno espaço virtual.


Comentar artigo

Cognosco ergo sum

Conheço logo sou

Estatísticas

Nº de dias:
Artigos: 336
Comentários: 2358
Comentários/artigo: 7,02

Visitas:
(desde 26 de Abril de 2005)
no Cognosco
 
Cogitações recentes
Obrigado, João, pela contribuição. Não está no art...
Estive lendo sua cogitação à respeito do cálculo d...
Obrigado, Aleff, pelo apreço pelo artigo. Exatamen...
achei muito interessante essa sua forma de ver a l...
Obrigado, Desejo um bom 2014 também.
Artigos mais cogitados
282 comentários
74 comentários
66 comentários
62 comentários
44 comentários
Artigos

Agosto 2017

Julho 2017

Junho 2017

Maio 2017

Abril 2017

Março 2017

Fevereiro 2017

Janeiro 2017

Dezembro 2016

Novembro 2016

Outubro 2016

Julho 2016

Março 2015

Dezembro 2014

Outubro 2013

Maio 2013

Fevereiro 2013

Outubro 2012

Setembro 2012

Agosto 2012

Junho 2012

Janeiro 2012

Setembro 2011

Abril 2011

Fevereiro 2011

Dezembro 2010

Maio 2010

Janeiro 2010

Abril 2009

Fevereiro 2009

Janeiro 2009

Novembro 2008

Outubro 2008

Agosto 2008

Julho 2008

Junho 2008

Abril 2008

Fevereiro 2008

Janeiro 2008

Novembro 2007

Outubro 2007

Agosto 2007

Julho 2007

Junho 2007

Maio 2007

Abril 2007

Março 2007

Fevereiro 2007

Janeiro 2007

Dezembro 2006

Novembro 2006

Outubro 2006

Setembro 2006

Agosto 2006

Julho 2006

Junho 2006

Maio 2006

Abril 2006

Março 2006

Fevereiro 2006

Janeiro 2006

Dezembro 2005

Novembro 2005

Outubro 2005

Setembro 2005

Julho 2005

Junho 2005

Maio 2005

Abril 2005

Março 2005

Fevereiro 2005