sexta-feira, 22 de janeiro de 2016

A sondagem de todas as sondagens presidenciais

Temos 3 sondagens. 

Procurei no Google informação sobre as sondagens presidenciais de ontem mas não encontrei anda. Então, meti a minha TV para ontem e revi os telejornais.


- - - - - - - - - - -Cat / RTP - - Eur /SIC - - Inter/TVI - - - Sondagem das sondagens
Marcelo - - - - - - - -52% - - - - - 55% - - - - 51,8%- - - - - - - 53,1%
Nóvoa - - - - - - - - -22% - - - - - 19% - - - -16,9%- - - - - - - 19,9%
Maria de Belém - - - 8% - - - - -13,3% - - - 10,1%- - - - - - - 10,4%
Respostas - - - - - -3340 - - - - - 2015 - - - - 1043 - - - - - - - 5298
Indecisos - - - - - - 18% - - - - - 16,1% - - - - 14,5% - - - - - -16,6%
Taxa de resposta -  68% - - - - - ????? - - - - -60,9% - - - -  - 65,7%


Com estes dados posso fazer uma meta-análise.
Primeiro, juntei as 3 amostras numa amostra (a população a usar na meta-análise) maior refazendo os resultados da melhor forma possível dada a informação disponibilizada.



Catolica EuroSond   InterCamp         Total
Marcelo 955 930 462 2347
Novoa 404 321 151 876
Belém 147 225 90 462
Abst 403 324 151 879
Telefonemas 3294 3065 1713 8072
Respostas 2240 2015 1043 5298


#Programa em R usado no cálculo da probabilidade de haver segunda volta
#Marcelo, Novoa, Belem, Outros, Não Respondeu
  Respostas <- c(2347, 876, 462, 734, 3653)/8072 # Respostas relativas nas 3 sondagens
  Marcelo<-0; Novoa<-0; Belem<-0 #Inicializo as variáveis que guarda os resultados de cada candidato
#Faço 100000 "sondagens" por bootstraping
  for (i in 1:100000)
    {sondagem <- sample(c("1M", "2N", "3B", "4O", "5NR"), 8072, prob = Respostas, replace=TRUE)
    s <- table(sondagem) #Conta quantos votos tem cada um
    Marcelo[i] <- s[1]/(8072-s[5]) #Calcula a percentagem dos votos expressos
    Novoa[i] <- s[2]/(8072-s[5])
    Belem[i] <- s[3]/(8072-s[5])
    }
#Resultado do Marcelo correspondente ao percentil 0,01%, 10/100000
sort(Marcelo)[10]
[1] 0.503132

Agrupando as 3 sondagens numa-meta análise, posso concluir que
1 => A probabilidade de haver uma segunda volta é menor que 0,01%
2 => Com um grau de confiança 99%
         Marcelo vai ter entre 51,2% e 55,1%
         Nóvoa vai ter entre 18,3% e 21,4%
         Maria de Belém vai ter entre 9,3% e 11,7%

A probabilidade de o Marcelo ter na primeira volta menos que 50% é remota, inferior a 0,01%

As pessoas gostam de saber o erro a 95%.
Marcelo +-2,1 pp
Nóvoa +-1,7 pp
Belém +- 1,3 pp

#codigo do R
(sort(Marcelo)[100000-250] -sort(Marcelo)[250])/2
(sort(Novoa)[100000-250] -sort(Novoa)[250])/2
(sort(Belem)[100000-250] -sort(Belem)[250])/2

p.s. - Os resultados finais.
As eleições realizaram-se e os resultados foram
Segunda Volta --> Não houve (dentro da previsão)
Marcelo --> 52,00% (dentro da previsão)
Nóvoa --> 22,89% (ligeiramente acima da previsão)
Belém --> 4,24 (muito longe da previsão)


5 comentários:

Abel Lisboa disse...

Deixe-me dizer que algo não bate certo no seu exercíco. Vamos por partes:

1 - Mesmo que toda a construção do exercício estivesse correta, você ignorou a margem de erro das sondagens, logo deveria ter incluido estas, mas não o fez.

2 - Mas o que você fez foi construir amostras com 8072 observações partindo do principio q a função de pobabilidade populacional tinha as percentagens que você calculou e depois viu quantas amostras com 8072 obs davam uma percentagem a M < 50%. Assim a pergunta ao seu exercício é: Considerando que as percentagens verdadeiras são X,Y e Z qual a probabilidade de obter uma amostra em que o candidato M tem menos de 50%.

A construção de intervalos de confiança em modelos multinomiais é mais complicada do que isto... ....

Económico-Financeiro disse...

Olá Abel,
Obrigado pela questão.
1 - A margem de erro de cada sondagem está em só haver 4419 pessoas a dizer em que candidato vão votar num total de 8072 telefonemas feitos.
2 - Exactamente isso, assim que a população são os 8072 inquiridos, e chama-se a esta metodologia o Método de Bootstrapping.
3 - O Bootstrapping é uma metodologia de reamostragem estatística que faz parte dos Métodos de Monte-Carlo, criado inicialmente por Stan Ulam e John von Newman, e são capazes de resolver facilmente (mas com muita computação) problemas que analiticamente são extraordinariamente dificeis e mesmo intratáveis.
Existem milhares de trabalhos científicos que aplicam esta metodologia e em engenharia é de valor extraordinário, por exemplo, calculam-se assim as Bombas Atómicas e a coisa rebenta mesmo!
Pode ver um bom trabalho aqui sobre "a história do Monte-Carlo":
http://library.lanl.gov/cgi-bin/getfile?00326867.pdf

Abel Lisboa disse...

Tem razão na primeira parte do meu comentário. O método toma em consideração o erro amostral.

Na segunda parte continua a não ter razão. Mesmo que o seu código esteja certo e vamos admitir que sim (não interessa para o argumento, mas parece-me correto), um intervalo de confiança não dá a probabilidade do parâmetro a estimar estar dentro ou fora do intervalo, por natureza o parâmetro a estimar é uma constante desconhecida e está fora ou dentro, nós não sabemos.
Então o que é um int. de confiança a 95%: "If independent samples are taken repeatedly from the same population, and a confidence interval calculated for each sample, then a certain percentage (confidence level) of the intervals will include the unknown population parameter. " , daqui: http://www.stats.gla.ac.uk/steps/glossary/confidence_intervals.html#confinterval.

Vamos passar para o que você diz:
"A probabilidade de o Marcelo ter na primeira volta menos que 50% é remota, inferior a 0,01%" ora aqui não há probabilidade alguma, a percentagem que Marcelo vai ter é uma constante, logo ou tem ou não. O que a sua análise diz, e é a def. de int de confiança, é que se repetir indefinidamente a amostragem, menos de 0,1% das amostras darão um resultado inferior a 50% (o que na verdade nos dá a ideia que o parâmetro verdadeiro é superior a 50%, sem probabilidades associadas).

Outro exemplo você diz que:
"Com um grau de confiança 99%, Marcelo vai ter entre 51,2% e 55,1%"... ...hmmm... não é verdade Marcelo vai ter x (desconhecido e constante), o que sabemos é que em amostras repetidas 99% dos IC calculados vão incluir o valor desconhecido. Eu sei é difícil não passar da afirmação anterior para o que vocÊ diz, mas basta pensar que o que Marcelo vai ter não é uma variável aleatória....

A questão de porque é que IC em modelos multinominais é mais complicada do que a que apresenta:
Você diz:
Marcelo vai ter entre 51,2% e 55,1%
Nóvoa vai ter entre 18,3% e 21,4%
Maria de Belém vai ter entre 9,3% e 11,7%

Ora dito assim pode ser levado a pensar que Marc pode ter 55,1 ; Nóv. 21,4 e Belem 11,7%. Neste caso como existe interdependência entre as diversas %, tem de ter mais cuidado a apresentar os resultados.

Fico sempre preocupado quando vejo um docente da casa a saltar a def. do Int. Conf. e dizer que com 95% de prob. o parâmetro populacional (repito é uma constante e não tem prob associadas) está dentro do IC...

Económico-Financeiro disse...

Estimado Abel,
Obrigado pela questão que, agora, é mais dificil obrigando a mais palavras.

1 - A questão do erro já está clara o que é um passo em frente.

2 - O resultado do Marcelo não é uma Constante mas uma variável aleatória que ainda se vai concretizar. Será uma constante depois de concretizada, depois de as pessoas votarem (pois há pessoas que pensam que vao votar e, por acidentes ou outra causa qualquer, não vão) e de os votos estarem contados e publicados (pois pode haver um cataclismo que destrua alguns dos votos sem por em causa o resultado total).

3 - Vamos supor que apenas existia o "modelo econométrico baseado na Estatística Clássica" em que o seu raciocínio está baseado.
Neste caso, existe H0 (a que chama 'constante') e, depois, são extraídas amostras sob H0. Neste caso, a minha afirmação seria (para uma constante):

"Como a votação no Marcelo já aconteceu e é sabido ser 50%, a probabilidade de obter numa sondagem com 8072 telefonemas uma resultado igual ou superior a 53,1% é inferior a 0,01%."
Mas isto não nos interessa porque não estamos no caso em que "a votação já aconteceu e o resultado é conhecido".

MAs vamos ao caso em que "a votação já aconteceu mas não sei qual é", algo parecido com as antigas votações na União Soviética. NEste caso hipotético, quando digo "a probabilidade de a votação de marcelo ser menor que 50% é inferior a 0,01%" seria alterada para:

"A votação no Marcelo já aconteceu e é X que eu desconheço, sendo eu capaz de determinar a probabilidade de obter numa sondagem com 8072 telefonemas uma resultado igual ou superior a 53,1% a que vou chamar Y.
Agora, a probabilidade de haver segunda vota, X < 50% (isto é, o integral de Y no domínio X em [-inf, 50%]) é inferior a 0,01%."

E como eu leria o intervalo de confiança que avancei?
"A votação no Marcelo já aconteceu e é X que eu desconheço, sendo eu capaz de determinar a probabilidade de obter numa sondagem com 8072 telefonemas uma resultado igual ou superior a 53,1% a que vou chamar Y.
Sabendo que o integral de Y no intervalo X em [a, b]) é de 95%, posso calcular que a =51,2% e b=55,1%, isto é, a votação em Marcelo foi um número no intervalo [51,2%;55,1%] com uma probabilidade de 95%."

Recordando o conceito de Probabildiade de Mendes de Oliveira (de quem gosto muito) "A constante está dentro desse intervalo e a probabilidade é 100% ou está fora e a probabildiade é 0%".
Neste caso, "a probabilidade de MO ser 100% é de 95% e a probabilidade de MO de ser 0% é de 5%." (Viu a subtileza disto, uma probabilidade de uma probabilidade?)

4 - Mas existe apenas a Estatística Clássica (em que a probabilidade é a proporção numa repetição muito grande de vezes do fenómeno, infinita) nem a Probabilidade de MO. Também existe a Estatística Bayesiana (em que a probabilidade é o grau de conhecimento que temos sobre o fenómeno), igualmente válida e necessária para compreendermos a Natureza que nos rodeia.

5 - Não se preocupe por alguém pensar e usar modelos conceptuais diferentes do seu. Como diz a minha mãe, já imaginou se todas as pessoas pensassem como a Casa? Ainda hoje o Sol andaria à volta da Terra.

6 - No domingo, veremos se a votação caiu no intervalo.

Um abraço
pc

Portuendes disse...

Prof. Cosme,
Deixe-me voltar um pouco atrás e comentar (fora do sítio) o seu post sobre as vacas sagradas, para refutar o que diz sobre que ninguém estará em desacordo com o Art. 104 da CRP :
Artigo 104.º - Impostos
1. O imposto sobre o rendimento pessoal visa a diminuição das desigualdades e será único e progressivo, tendo em conta as necessidades e os rendimentos do agregado familiar.
2. A tributação das empresas incide fundamentalmente sobre o seu rendimento real.
3. A tributação do património deve contribuir para a igualdade entre os cidadãos.
4. A tributação do consumo visa adaptar a estrutura do consumo à evolução das necessidades do desenvolvimento económico e da justiça social, devendo onerar os consumos de luxo.

Então não é de se estar em desacordo? Eu não sou economista, mas imagino que esteja nos livros que os impostos tem como objectivo principal gerar receita (para pagar as despesas do Estado) e não "visar a diminuição das desigualdades", que me parece demasiado socialista mesmo para uma Constituição como a nossa!. Acho que o bom senso pode opor-se a este artigo. Gostaria que comentasse e refutasse onde achar por bem.

Twitter Delicious Facebook Digg Stumbleupon Favorites More

 
Design by Free WordPress Themes | Bloggerized by Lasantha - Premium Blogger Themes | Best Hostgator Coupon Code