A falácia da taxa-base, também chamada de negligência da taxa-base[2] ou viés da taxa-base, é um tipo de falácia em que as pessoas tendem a ignorar a taxa base (por exemplo, a prevalência geral) em favor da informação individualizadora (ou seja, informações pertencentes apenas a um caso específico).[3] A negligência da taxa básica é uma forma específica da negligência da extensão mais geral.
É também chamada de falácia do promotor ou falácia do advogado de defesa quando aplicada aos resultados de testes estatísticos (como testes de DNA) no contexto de processos judiciais. Esses termos foram introduzidos por William C. Thompson e Edward Schumann em 1987,[4][5] embora tenha sido argumentado que a definição de falácia do promotor se estende a muitas imputações inválidas adicionais de culpa ou responsabilidade que não são analisáveis como erros nas taxas base ou no teorema de Bayes.[6]
Um exemplo da falácia da taxa base é o paradoxo do falso positivo (também conhecido como paradoxo da precisão). Este paradoxo descreve situações em que mais resultados de teste são falsos positivos do que verdadeiros positivos (isto significa que a precisão do classificador é baixa). Por exemplo, se uma câmera de reconhecimento facial consegue identificar criminosos procurados com 99% de precisão, mas analisa 10.000 pessoas por dia, a elevada precisão é superada pelo número de testes, e a lista de criminosos do programa provavelmente terá muito mais falsos positivos do que verdadeiros positivos. A probabilidade de um resultado de teste positivo é determinada não apenas pela precisão do teste, mas também pelas características da população amostrada.[7] Quando a prevalência, a proporção de pessoas que têm uma determinada condição, é inferior à taxa de falsos positivos, até mesmo os testes que têm um risco muito baixo de dar um falso positivo num caso individual darão mais falsos positivos do que verdadeiros positivos em geral.[8]
É especialmente contra-intuitivo quando se interpreta um resultado positivo em um teste em uma população de baixa prevalência, depois de ter lidado com resultados positivos obtidos numa população de alta prevalência.[8] Se a taxa de falsos positivos do teste for superior à proporção da nova população com a doença, então um aplicador de teste cuja experiência foi obtida a partir de testes numa população de elevada prevalência pode concluir com base na experiência que um resultado de teste positivo normalmente indica um sujeito positivo, quando na verdade é muito mais provável que um falso positivo tenha ocorrido.
Número de pessoas | Infectado | Não infectado | Total |
---|---|---|---|
Teste positivo | 400 (verdadeiro positivo) |
30 (falso positivo) |
430 |
Teste negativo | 0 (falso negativo) |
570 (verdadeiro negativo) |
570 |
Total | 400 | 600 | 1000 |
Imagine a realização de um teste de doença infecciosa em uma população A de 1.000 pessoas, das quais 40% estão infectadas. O teste tem uma taxa de falsos positivos de 5% (0,05) e nenhuma taxa de falsos negativos. O resultado esperado dos 1000 testes na população A seria:
Assim, na população A, uma pessoa que receba um teste positivo pode ter mais de 93% de confiança (40030 + 400) de que ele indica corretamente uma infecção.
Número
de pessoas |
Infectadas | Não infectadas | Total |
---|---|---|---|
Teste
positivo |
20
(verdadeiro positivo) |
49
(falso positivo) |
69 |
Teste
negativo |
0
(falso negativo) |
931
(verdadeiro negativo) |
931 |
Total | 20 | 980 | 1000 |
Consideremos agora o mesmo teste aplicado à população B, da qual apenas 2% estão infectados. O resultado esperado de 1000 testes na população B seria:
Na população B, apenas 20 do total de 69 pessoas com resultado de teste positivo estão realmente infectadas. Portanto, a probabilidade de realmente ser infectado depois de saber que está infectado é de apenas 29% (2020 + 49) para um teste que parece ter uma exatidão de 95%.
Um testador com experiência no grupo A pode considerar um paradoxo que, no grupo B, um resultado que normalmente indicava corretamente uma infecção agora seja geralmente um falso positivo. A confusão da probabilidade posterior de infecção com a probabilidade a priori de receber um falso positivo é um error natural depois de receber um resultado de teste que ameaça a saúde.
Muitos responderiam um valor tão alto quanto 95%, mas a probabilidade correta é de cerca de 2%.
A explicação para isso é a seguinte: em média, de cada 1.000 motoristas testados,
Portanto, a probabilidade de que um motorista qualquer entre os 1 + 49,95 = 50,95 resultados positivos do teste esteja realmente bêbado é de .
A validade deste resultado depende, no entanto, da validade da suposição inicial de que o agente da polícia realmente parou o condutor ao acaso e não por causa de má condução. Se essa ou outra razão não arbitrária para parar o condutor estiver presente, então o cálculo também envolve a probabilidade de um condutor embriagado conduzir de forma competente e de um condutor não embriagado conduzir de forma (in)competente.
Mais formalmente, a mesma probabilidade de aproximadamente 0,02 pode ser obtida usando o teorema de Bayes. O objetivo é encontrar a probabilidade de o motorista estar bêbado dado que o bafômetro indicou que ele está bêbado, o que pode ser representado como
onde B significa que o bafômetro indica que o motorista está bêbado. O teorema de Bayes nos diz que
Conforme o primeiro parágrafo:
Como pode ser visto na fórmula, é preciso saber p(B) para usar o teorema de Bayes, e este pode ser calculado a partir dos valores anteriores usando a lei da probabilidade total:
que fornece
Colocando esses números no teorema de Bayes, descobre-se que
que é a precisão do teste.
Considere que em uma cidade de 1 milhão de habitantes, há 100 terroristas e 999.900 não-terroristas. Para simplificar o exemplo, assume-se que todas as pessoas presentes na cidade são habitantes. Assim, a probabilidade de taxa base de um habitante da cidade selecionado aleatoriamente ser um terrorista é 0,0001, e a probabilidade de taxa base desse mesmo habitante não ser um terrorista é 0,9999. Na tentativa de capturar os terroristas, a cidade instala um sistema de alarme com câmera de vigilância e software de reconhecimento facial automático.
O software tem duas taxas de falha de 1%:
Suponhamos agora que um habitante acione o alarme. Qual é a probabilidade de a pessoa ser um terrorista? Em outras palavras, quanto é P(T|B), a probabilidade de um terrorista ter sido detectado dado que a campainha tocou? Alguém que cometesse a “falácia da taxa base” inferiria que existe uma probabilidade de 99% de que a pessoa detectada seja um terrorista. Embora a inferência pareça fazer sentido, na verdade é um raciocínio incorreto, e um cálculo abaixo mostrará que a probabilidade de um terrorista está na verdade perto de 1%, e não perto de 99%.
A falácia surge ao confundir a natureza de duas taxas de falha diferentes. O "número de campainhas não tocadas por 100 terroristas" e o "número de não-terroristas por 100 toques de campainha" são quantidades não relacionadas. Um não é necessariamente igual ao outro, e nem precisam ser quase iguais. Para mostrar isto, considere o que aconteceria se um sistema de alarme idêntico fosse instalado numa segunda cidade sem quaisquer terroristas. Tal como na primeira cidade, o alarme soa para 1 de cada 100 habitantes não terroristas detectados, mas ao contrário da primeira cidade, o alarme nunca soa para um terrorista. Portanto, 100% de todas as ocasiões em que o alarme soa são para não-terroristas, mas uma taxa de falsos negativos nem sequer pode ser calculada. O "número de não-terroristas por 100 toques de campainha" naquela cidade é 100, mas P(T|B) = 0%. A probabilidade de um um terrorista ter sido detectado, dado que a campainha tocou, é zero.
Imagine que toda a população da primeira cidade, de um milhão de pessoas, passe na frente da câmera. Cerca de 99 dos 100 terroristas dispararão o alarme – e o mesmo acontecerá com cerca de 9.999 dos 999.900 não-terroristas. Portanto, cerca de 10.098 pessoas dispararão o alarme, entre as quais cerca de 99 serão terroristas. A probabilidade de uma pessoa que dispara o alarme ser realmente um terrorista é de apenas cerca de 99 em 10.098, o que é menos de 1% e muito, muito abaixo do nosso palpite inicial de 99%.
A falácia da taxa base é tão enganadora neste exemplo porque há muito mais não-terroristas do que terroristas, e o número de falsos positivos (não-terroristas analisados como terroristas) é muito maior do que os verdadeiros positivos (terroristas analisados como terroristas).
Vários profissionais argumentaram que, como a taxa básica de terrorismo é extremamente baixa, o uso de mineração de dados e algoritmos preditivos para identificar terroristas não pode funcionar de forma viável devido ao paradoxo dos falso positivos.[9][10][11][12] As estimativas do número de falsos positivos para cada resultado preciso variam de mais de dez mil[12] a um bilhão;[10] conseqüentemente, investigar cada pista seria proibitivo tanto em termos de custo quanto de tempo.[9][11] O nível de precisão necessário para tornar estes modelos viáveis é provavelmente inatingível. Acima de tudo, a baixa taxa base de terrorismo também significa que há falta de dados para criar um algoritmo preciso.[11] Além disso, no contexto da detecção do terrorismo, os falsos negativos são altamente indesejáveis e, portanto, devem ser minimizados tanto quanto possível; no entanto, isto requer aumentar a sensibilidade à custa da especificidade, aumentando os falsos positivos.[12] É também questionável se a utilização de tais modelos pelas autoridades responsáveis pela aplicação da lei cumpriria o ônus da prova exigido, uma vez que mais de 99% dos resultados seriam falsos positivos.[12]
Um crime é cometido. A análise forense determina que o criminoso tem um determinado tipo sanguíneo compartilhado por 10% da população. Um suspeito é preso e descobre-se que tem o mesmo tipo sanguíneo.
Um promotor pode acusar o suspeito do crime apenas com base nisso e alegar no julgamento que a probabilidade de o réu ser culpado é de 90%. No entanto, esta conclusão só chega perto de estar correta se o acusado tiver sido selecionado como o principal suspeito com base em provas robustas descobertas antes do exame de sangue e não relacionadas com o mesmo. Caso contrário, o raciocínio apresentado é falho, pois ignora a probabilidade a priori (isto é, antes do exame de sangue) de que ele seja uma pessoa inocente aleatória. Suponha, por exemplo, que 1.000 pessoas vivam na cidade onde ocorreu o crime. Isso significa que vivem lá 100 pessoas que têm o tipo sanguíneo do perpetrador, das quais apenas uma é o verdadeiro perpetrador; portanto, a verdadeira probabilidade de o arguido ser culpado – baseada apenas no facto de o seu tipo sanguíneo corresponder ao do assassino – é de apenas 1%, muito menos do que os 90% alegados pelo promotor.
A falácia do promotor envolve assumir que a probabilidade a priori de uma correspondência aleatória é igual à probabilidade de o réu ser inocente. Ao utilizá-lo, um promotor interrogando um perito pode perguntar: "As chances de encontrar esta prova sobre um homem inocente são tão pequenas que o júri pode desconsiderar com segurança a possibilidade de que este réu seja inocente, correto?"[13] A alegação assume que a probabilidade de que sejam encontradas provas sobre um homem inocente é a mesma que a probabilidade de que um homem seja inocente, dado que foram encontradas provas sobre ele, o que não é verdade. Enquanto a primeira é normalmente pequena (10% no exemplo anterior) devido a bons procedimentos de prova forense, a segunda (99% nesse exemplo) não se relaciona diretamente com ela e será muitas vezes muito superior, uma vez que, na verdade, depende nas probabilidades a priori bastante altas de o réu ser uma pessoa inocente aleatória.
O. J. Simpson foi julgado e absolvido em 1995 pelos assassinatos de sua ex-esposa Nicole Brown Simpson e de seu amigo Ronald Goldman.
O sangue da cena do crime correspondia ao de Simpson, com características compartilhadas por 1 em cada 400 pessoas. No entanto, a defesa argumentou que um estádio de futebol poderia ser preenchido com angelenos que correspondessem à amostra e que o número de 1 em 400 era inútil.[14][15] Teria sido incorreto, e um exemplo de falácia do promotor, basear-se apenas no número “1 em 400” para deduzir que uma determinada pessoa que correspondesse à amostra seria provavelmente a culpada.
No mesmo julgamento, a acusação apresentou provas de que Simpson tinha sido violento com a sua esposa. A defesa argumentou que houve apenas uma mulher assassinada para cada 2.500 mulheres submetidas a abuso conjugal e que qualquer histórico de violência de Simpson contra sua esposa era irrelevante para o julgamento. Contudo, o raciocínio por trás do cálculo da defesa era falacioso. Segundo o autor Gerd Gigerenzer, a probabilidade correta requer contexto adicional: a esposa de Simpson não só foi submetida à violência doméstica, mas também submetida à violência doméstica (por Simpson) e morta (por alguém). Gigerenzer escreve "as chances de um agressor realmente ter assassinado sua parceira, visto que ela foi morta, são de cerca de 8 em 9 ou aproximadamente 90%".[16] Embora a maioria dos casos de abuso conjugal não termine em homicídio, na maioria dos casos de homicídio em que existe um histórico de abuso conjugal ele foi cometido pelo cônjuge.
Sally Clark, uma mulher britânica, foi acusada em 1998 de ter matado o seu primeiro filho com 11 semanas de idade e depois o seu segundo filho com 8 semanas de idade. A acusação fez com que o perito Sir Roy Meadow, professor e pediatra consultor,[17] testemunhasse que a probabilidade de duas crianças na mesma família morrerem de SMSI é de cerca de 1 em 73 milhões. Isso foi muito menos frequente do que a taxa real medida em dados históricos – Meadow estimou-o a partir de dados de mortes únicas por SMSI e da suposição de que a probabilidade de tais mortes deveria ser não correlacionada entre os bebês.[18]
Meadow reconheceu que 1 em 73 milhões não é uma impossibilidade, mas argumentou que tais acidentes aconteceriam “uma vez a cada cem anos” e que, num país de 15 milhões de famílias com 2 crianças, é muito mais provável que mortes duplas sejam devidas à síndrome de Münchausen por procuração do que a um acidente tão raro. No entanto, há boas razões para supor que a probabilidade de morte por SMSI numa família é significativamente maior se um filho anterior já tiver morrido nestas circunstâncias (uma predisposição genética para SMSI provavelmente invalidará essa suposta independência estatística[19]). tornando algumas famílias mais susceptíveis à SMSI e o erro um resultado da falácia ecológica.[20] A probabilidade de duas mortes por SMSI na mesma família não pode ser estimada corretamente através do quadrado da probabilidade de uma única morte em todas as famílias semelhantes.[21]
Uma estimativa de 1 em 73 milhões subestima em muito a probabilidade de dois acidentes sucessivos, mas, mesmo que essa estimativa fosse precisa, o tribunal parece ter ignorado o fato de que o número de 1 em 73 milhões não significava nada por si só. Como probabilidade a priori, deveria ter sido ponderada em relação às probabilidades a priori das alternativas. Dado que ocorreram duas mortes, uma das seguintes explicações deve ser verdadeira, e todas elas são extremamente improváveis a priori:
Não está claro se uma estimativa da probabilidade para a segunda possibilidade chegou a ser proposta durante o julgamento, ou se a comparação das duas primeiras probabilidades foi entendida como a principal estimativa a ser feita na análise estatística que avalia o caso da acusação contra o caso de inocência.
Clark foi condenado em 1999, resultando em um comunicado de imprensa da Royal Statistical Society que apontou os erros.[22]
Em 2002, Ray Hill (professor de matemática em Salford) tentou comparar com precisão as chances destas duas explicações possíveis; ele concluiu que acidentes sucessivos são entre 4,5 e 9 vezes mais prováveis do que assassinatos sucessivos, de modo que as chances a priori de Clark ser culpado estavam entre 4,5 para 1 e 9 para 1 contra.[23]
Depois que o tribunal concluiu que o patologista forense que examinou os dois bebês havia retido provas de defesa, um tribunal superior posteriormente anulou a condenação de Clark, em 29 de janeiro de 2003.[24]
Em experimentos, descobriu-se que as pessoas preferem informações individualizadas a informações gerais, quando as primeiras estão disponíveis.[25][26][27]
Em alguns experimentos, pediu-se a estudantes que estimassem as médias de notas (GPAs) de alunos hipotéticos. Quando recebiam estatísticas relevantes sobre a distribuição de GPA, os alunos tendiam a ignorá-las se recebessem informações descritivas sobre o estudante em particular, mesmo que a nova informação descritiva fosse obviamente de pouca ou nenhuma relevância para o desempenho escolar.[26] Esta descoberta tem sido usada para argumentar que as entrevistas são uma parte desnecessária do processo de admissão ao ensino superior porque os entrevistadores são incapazes de escolher os candidatos aprovados melhor do que as estatísticas básicas.
Os psicólogos Daniel Kahneman e Amos Tversky tentaram explicar esta descoberta em termos de uma regra ou “heurística" simples chamada de representatividade. Eles argumentaram que muitos julgamentos relativos à probabilidade, ou à causa e efeito, baseiam-se no quão representativa uma coisa é de outra, ou de uma categoria.[26] Kahneman considera a negligência da taxa base uma forma específica de negligência da extensão.[28] Richard Nisbett argumentou que alguns preconceitos de atribuição, como o erro fundamental de atribuição, são exemplos da falácia da taxa base: as pessoas não usam as "informações de consenso" (a "taxa base") sobre como os outros se comportaram em situações semelhantes e, em vez disso, preferem atribuições disposicionais mais simples.[29]
Há um debate considerável na psicologia sobre as condições sob as quais as pessoas apreciam ou não as informações sobre taxas básicas.[30][31] Os investigadores do programa de heurísticas e preconceitos reforçaram conclusões empíricas que mostram que as pessoas tendem a ignorar as taxas de base e a fazer inferências que violam certas normas de raciocínio probabilístico, como o teorema de Bayes. A conclusão tirada desta linha de pesquisa foi que o pensamento probabilístico humano é fundamentalmente falho e sujeito a erros.[32] Outros investigadores enfatizaram a ligação entre processos cognitivos e formatos de informação, argumentando que tais conclusões geralmente não são justificadas.[33][34]
Considere novamente o exemplo 2 acima. A inferência necessária é estimar a probabilidade (posterior) de que um motorista (escolhido aleatoriamente) esteja bêbado, dado que o teste do bafômetro é positivo. Formalmente, esta probabilidade pode ser calculada utilizando o teorema de Bayes, conforme mostrado acima. No entanto, existem diferentes formas de apresentar as informações relevantes. Considere a seguinte variante formalmente equivalente do problema:
Neste caso, as informações numéricas relevantes - p(bêbado), p(B|bêbado), p(B|sóbrio) - são apresentada em termos de frequências naturais em relação a uma determinada classe de referência (ver problema de classe de referência). Estudos empíricos mostram que as inferências das pessoas correspondem mais de perto à regra de Bayes quando a informação é apresentada desta forma, ajudando a superar a falácia da taxa base por parte de leigos[34] e especialistas.[35] Como consequência, organizações como a Colaboração Cochrane recomendam a utilização deste tipo de formato para comunicar estatísticas de saúde.[36] Ensinar as pessoas a traduzir esses tipos de problemas de raciocínio bayesiano em formatos de frequência natural é mais eficaz do que simplesmente ensiná-las a inserir probabilidades (ou porcentagens) no teorema de Bayes.[37] Também foi demonstrado que representações gráficas de frequências naturais (por exemplo, matrizes de ícones, gráficos de resultados hipotéticos) ajudam as pessoas a fazer melhores inferências.[37][38][39][40]
Por que os formatos de frequência natural são úteis? Uma razão importante é que este formato de informação facilita a inferência necessária porque simplifica os cálculos necessários. Isso pode ser visto ao usar uma forma alternativa de calcular a probabilidade necessária p(bêbado|B):
onde N(bêbado ∩ B) denota o número de motoristas que estão bêbados e obtiveram resultado positivo no bafômetro, e N(B) denota o número total de casos com resultado positivo no bafômetro. A equivalência desta equação com a anterior decorre dos axiomas da teoria das probabilidades, segundo os quais N (bêbado ∩ B) = N × p (B | bêbado) × p (bêbado). É importante ressaltar que embora esta equação seja formalmente equivalente à regra de Bayes, não é psicologicamente equivalente. O uso de frequências naturais simplifica a inferência porque a operação matemática necessária pode ser realizada com números naturais, em vez de frações normalizadas (ou seja, probabilidades), porque torna o alto número de falsos positivos mais transparente e porque as frequências naturais exibem uma "estrutura de conjunto aninhado".[41][42]
Nem todo formato de frequência facilita o raciocínio bayesiano.[42][43] As frequências naturais referem-se às informações de frequência resultantes da amostragem natural,[44] que preserva as informações da taxa base (por exemplo, número de motoristas bêbados ao coletar uma amostra aleatória de motoristas). Isto é diferente da amostragem sistemática, em que as taxas básicas são fixadas a priori (por exemplo, em experimentos científicos). Neste último caso não é possível inferir a probabilidade posterior p (bêbado | teste positivo) comparando o número de motoristas que estão bêbados e com teste positivo em relação ao número total de pessoas que obtêm resultado positivo no bafômetro, pois as informações da taxa base não são preservadas e devem ser reintroduzidas explicitamente usando o teorema de Bayes.