Como funciona a Teoria de Resposta ao Item (TRI) usada para estimar as notas do Enem


29/12/14 às 10h37

Em breve o resultado do Enem será divulgado e, com ele, virão muitas dúvidas. Isso ocorre porque o Enem não segue o padrão de pontuação a que estamos acostumados; consequentemente, muitas pessoas não entendem como a nota é calculada. Estamos aqui para mudar isso! Embora o Enem provavelmente não faça parte da vida do leitor do Manual do Usuário, a metodologia por trás das notas do exame é bem interessante e pode até ser útil em algum momento da sua vida profissional, na hora de classificar ou selecionar pessoas. Vamos ver como é?

Enem: de exame básico a mecanismo de seleção

Para que você entenda melhor, antes é bom esclarecermos alguns mitos sobre o Enem. O Exame Nacional do Ensino Médio foi criado em 1998 com o objetivo de avaliar o desempenho do estudante ao fim da educação básica, buscando contribuir para a melhoria da qualidade desse nível de escolaridade. Nessa época, ele não tinha finalidade classificatória, era composto de apenas 63 questões e sua correção não usava o TRI (mais sobre isso adiante). Era um exame cujo nível de dificuldade era bastante baixo.

Em 2009 o Enem mudou e passou a ser usado também como mecanismo de seleção para o ingresso no ensino superior. O número de questões saltou para 180 (45 de cada área do conhecimento, além da redação) e foi instituída a metodologia TRI como base para o cálculo da nota. Se você escutar de alguém que “o Enem é bico”, que “basta saber ler as questões para ir bem no Enem” ou qualquer coisa semelhante, esqueça! Isso é um resquício do velho Enem e não reflete em nada como é a prova nesses últimos anos.

O foco deste artigo é a beleza da Teoria de Resposta ao Item (TRI), que – mais um mito – não foi inventada pelo MEC. Os conceitos básicos do TRI tiveram início na década de 1950 nos Estados Unidos, devido  a uma necessidade da psicometria (uma área da psicologia que reúne matemática aplicada, estatística e psicologia) de fazer medições coerentes do conhecimento humano.  A base da teoria deve-se à teoria do traço latente de Paul Lazersfeld (1959) e aos trabalhos de Frederic Lord (1952) e do dinamarquês George Rasch (1960).

O crescimento e a popularização do uso da teoria só ocorreu a partir da década de 1980 com o desenvolvimento de softwares que permitiram a implementação dos modelos matemáticos relacionados à TRI. Entre os grandes exames que usam TRI, provavelmente os mais conhecidos são o SAT (espécie de Enem dos EUA) e o TOEFL (famoso exame de proficiência no idioma inglês).

As nuances da Teoria de Resposta ao Item (TRI)

No sistema tradicional de notas, cada questão tem uma pontuação e a nota final do aluno é dada pela soma dos pontos obtidos com cada acerto. Não é importante nesse sistema saber quais foram as questões que o aluno acertou, mas sim quantas. Não interessa se o acerto se deveu ao conhecimento do aluno ou ao acaso, o famoso “chute” — estamos nos referindo a uma prova de múltiplas escolhas. No TRI (PDF) não interessa apenas quantos acertos, mas também quais acertos. Desta forma é montado um perfil de acertos para cada aluno e a nota é estimada a partir daquele perfil. Sim, você leu corretamente: estimada. E antes que você pense que isso é injusto, vamos em frente.

O TRI só funciona se o nível de cada questão for conhecido previamente e se a prova contiver questões de todos os níveis. Cada questão é previamente testada e para cada uma delas é obtido um gráfico chamado de curva característica do item, que correlaciona a chance de acerto daquela questão com o conhecimento do aluno (chamado de “proficiência do aluno” pelo MEC). O MEC escolheu a proficiência que dá chance de acerto de 65% como sendo o nível de cada questão (que chama de proficiência da questão). Então, cada questão tem sua proficiência previamente conhecida, o que é imprescindível para a aplicação do TRI.

Gráfico de proficiência do Enem.
Exemplo de curva característica do item. Gráfico: INEP.

Montando-se uma prova com questões de todos os níveis (proficiências), é possível estimar matematicamente qual seria a nota mais justa para cada perfil de acertos. Na imagem acima, um candidato com proficiência 650 teria quase 90% de chance de acertar aquela questão.

Exemplo prático de aplicação da TRI

Vamos montar uma prova de 5 questões. As alternativas não serão colocadas porque nosso exemplo não depende disso:

Desenho de um cilindro.

  • Questão 1 (Proficiência 300): Identifique, entre as figuras, qual é um cilindro.
  • Questão 2 (proficiência 400): Assinale a alternativa que contém a fórmula para o cálculo do volume do cilindro.
  • Questão 3 (proficiência 500): Determine o volume de combustível que o tanque ao lado comporta:
  • Questão 4 (proficiência 600): A capacidade de uma lata cilíndrica é 40 cm³. Se o raio da base mede metade de altura, determine a altura dessa lata.
  • Questão 5 (proficiência 700): Considere um recipiente cilíndrico de raio r e altura h, cuja capacidade é V. Duplicando-se a altura desse recipiente e reduzindo o raio à metade, qual será a nova capacidade da lata?

No sistema tradicional, um aluno que acerte apenas a questão 5 tem a mesma nota que um aluno que acerte apenas a questão 1. No sistema TRI, o perfil de um aluno que acertou apenas a questão 5 é considerado ilógico e, portanto, sua nota será penalizada por isso. O conhecimento é uma coisa cumulativa. Não faz sentido alguém saber a questão 2 sem saber a questão 1, não faz sentido saber a questão 3 sem saber a 2 e a 1, e assim por diante. Percebeu o padrão?

Mas como estimar a nota do participante? Primeiro, precisamos de uma escala. No Enem (PDF), a nota 500 indica o desempenho médio de acordo com o nível dos alunos de 2009 e cada 100 pontos, para cima ou para baixo, indica um desvio padrão além daquela média. Um aluno que tirar 700 pontos está dois desvios padrão acima da média de 2009. Por isso, é correto dizer que as notas são comparáveis ao longo dos anos (a escala é sempre a mesma) e é errado dizer que a nota máxima é 1000 (a nota máxima depende do nível da questão mais difícil da prova).

Depois, cada questão, que foi previamente testada e tem sua curva característica conhecida, permite correlacionar a chance de acerto com a proficiência do aluno. O método computacional usa essas curvas para estimar qual proficiência criaria um perfil de acertos teórico mais próximo possível do perfil de acertos real do aluno. Em termos grosseiros, o método tenta encaixar a nota do aluno acima da proficiência de cada questão acertada, e abaixo de cada questão errada.

Vamos supor que quatro alunos fizeram a nossa prova de cinco questões e todos acertaram três delas, da seguinte forma:

Anésio acertou as questões 1, 2 e 3; Bia acertou as questões 1, 2 e 4; Carol acertou as questões 1, 2 e 5 e Décio acertou as questões 3, 4 e 5.

A nota do Anésio é a mais fácil de estimarmos: o perfil dele é o mais lógico possível para quem acerta três questões, então sua nota deve estar acima da proficiência da questão 3 (a mais difícil que ele acertou) e abaixo da proficiência da questão 4 (a mais fácil que ele errou). Um número entre 500 e 600. Vamos supor, no nosso exemplo, que a partir das curvas de cada questão o TRI estimou uma proficiência 520 para o Anésio.

A nota da Bia já cria um paradoxo. Como estimar uma nota que deveria estar acima de 400 (ela acertou as questões 1 e 2) e abaixo de 500 (errou a 3) mas acima de 600 (acertou a 4)? Ao mesmo tempo, ela precisa pontuar mais do que alguém que tenha acertado apenas as questões 1 e 2. O modelo matemático tenta, como explicado anteriormente, minimizar essas inconsistências da melhor forma possível através das curvas características. Vamos supor que o TRI estimou então a proficiência da Bia em 480.

Carol também nos traz um paradoxo. Sua nota deveria estar entre 400 (ela acertou as questões 1 e 2) e abaixo de 500 (errou a 3) mas acima de 700 (acertou a 5). A incoerência de acertar a questão 5 tendo errado a 3 e a 4 pesa aqui, e a proficiência de Carol ficaria abaixo da de Bia. Por exemplo, 450.

Já o perfil de Décio é o mais incoerente. Tendo acertado as questões 3, 4 e 5, sua nota deveria estar acima de 700, mas tendo errado as questões 1 e 2, deveria estar abaixo de 300. Em razão disso, a nota de Décio despenca e ele tira algo em torno de 340 pontos. Seus acertos são considerados obra do acaso. É como pensar em um edifício que não tem nem o Térreo, nem o primeiro andar; ele foi construído a partir do segundo andar. Não tem como ele flutuar. Quando ficasse pronto, sem ter quem o sustente, o prédio desmoronaria. E é difícil discordar desse veredito: como uma pessoa que não sabe reconhecer um cilindro e não sabe a fórmula do volume seria capaz de resolver três situações que dependem desse conhecimento prévio?

Nesse momento, você pode estar pensando: “mas e se Décio soubesse aquelas questões, mas por algum motivo ele acabou errando?” Por exemplo, o tempo acabou, ele chutou as duas últimas questões, errou as duas e, por azar, eram justamente as questões 1 e 2? É uma dúvida muito pertinente. E é justamente para evitar isso que uma prova que use o modelo TRI não pode ter poucas questões. O Enem tem 45 questões em cada área do conhecimento. Menos que isso aumentaria o risco de errar significantemente a estimativa da proficiência de algum candidato. Ter mais questões seria benéfico estatisticamente, porém tomaria um tempo excessivo em uma prova que já é desgastante.

Não existe prova fácil ou difícil no Enem

Diante de tudo isso, perceba que o Enem precisa ter questões difíceis, bem como precisa ter questões muito simples. Frequentemente escuto alunos dizerem “espero que o Enem seja fácil esse ano”. É tolice quando a prova tem nota aferida pelo TRI. Se fosse a prova da Fuvest, que é do modelo tradicional em que apenas a quantidade de acertos é levada em conta, ter apenas questões simples significaria pontuação alta para a maioria dos participantes. No caso do Enem, ter uma prova simples (vamos supor que a questão mais difícil tenha proficiência 650) significa que ninguém terá uma nota alta. Mesmo acertando todas as questões, a nota máxima será 650 pontos, pois a prova não seria capaz de medir níveis de conhecimento acima deste. Seria algo como subir uma escada em que a altura de cada degrau seja de 2 cm. Suba dezenas de degraus e, quando olhar para baixo, você ainda está perto do chão.

A existência de questões mais difíceis não afeta a nota dos alunos cuja proficiência é baixa e ajuda os alunos com mais conhecimento. Por exemplo, havendo questões nível 650, 700, 750, 800, 850 o aluno “nível 650” que tirou 650 na prova “fácil” mencionada antes, continuaria tirando 650. Mas o aluno “nível 800” que tirou 650 na prova fácil, poderia tirar 800 numa prova que contivesse questões capazes de avaliá-lo.

Da mesma forma, questões simples precisam existir. Naquela nossa prova de cinco questões a mais fácil tinha proficiência 300, lembra? Um aluno que erre todas as questões deveria ter qual nota? Você está errado se pensou em zero. A nota dele será algo abaixo de 300, algo como… 290. Por que isso ocorre? Porque se a questão mais simples da prova avalia uma proficiência 300, como eu poderia dizer que uma pessoa que errou todas aquelas questões não sabe nada? E se ele soubesse uma questão de proficiência 250? Ou 200? Como determinar algo que não foi avaliado? Por essas e outras que gosto do TRI.

Disse, lá no começo, que você pode aprender algo com isso tudo. Se algum dia você for preparar uma avaliação, uma seleção de candidatos na empresa em que você trabalha, por exemplo, lembre-se de colocar pelo menos uma questão muito básica, e pelo menos uma questão muito difícil. Não estou indicando o uso do TRI para corrigi-la, estou apenas sugerindo que essa mescla de dificuldade torna a avaliação mais justa e permite que você selecione melhor os piores e os melhores, principalmente se a avaliação for escrita ao invés de múltipla escolha. Se alguém realmente errar todas, você não terá dúvidas que é um candidato fraco e se alguém acertar todas, estará mais certo de que essa pessoa realmente entende do assunto.

Foto do topo: GOVBA/Flickr.

Colabore
Assine o Manual

Privacidade online é possível e este blog prova: aqui, você não é monitorado. A cobertura de tecnologia mais crítica do Brasil precisa do seu apoio.

Assine
a partir de R$ 9/mês

26 comentários

  1. Uma vez um amigo explicou essa questão da TRI (presente no saudoso vestibular da Fundação Carlos Chagas para a UEL em 1997 – wow, como eu sou old school!), mas então conhecida pelo nome de “desvio padrão” e acompanhada por uma CABULOSA fórmula matemática repleta de frações e raízes quadradas de uma maneira simplista mas de certa forma válida:

    Com o desvio padrão/TRI você concorre contra os demais candidatos, enquanto em uma prova “normal” (colegas citaram o exemplo da Fuvest, logo abaixo) você concorre contra a prova

  2. Um método (discutível) como o TRI não pode ser usado para selecionar candidatos numa prova de conhecimento objetivo (o aluno tem que ter o mínimo de conhecimento da área para qual se propôs para entrar nesta determinada faculdade) como acabou se tornando o ENEM – ainda mais quando levamos em consideração que boa parte dos erros se dá ao marcar o cartão resposta. Usando o exemplo dado, quem acertasse as cinco questões e marcasse errado 3 e 4, seria muito prejudicado. Ademais 45 questões de cada área – em que cada área compreende o que o alundo aprendeu (ou deveria ter aprendido) em todo o ensino médio é muito pouco ainda mais que, em observando as provas, os assuntos não se encadeiam como seria necessário para um melhor aproveitamento do TRI (só seria possível um melhor aproveitamento da teoria se, por exemplo, os alunos de exatas não tivessem que responder as questões de biologia, história e geografia). E sim, as provas do ENEM são razoavelmente fáceis e ideologizadas…

    1. Se eu não me engano, o SISU tenta corrigir esse problema de não enviesamento técnico do sistema de classificação. Cada universidade tem a liberdade de conferir pesos variados às provas de diferentes áreas de conhecimento conforme melhor interesse à seleção para os seus variados cursos. Assim, a nota de um candidato a um curso de Direito valorizará os acertos na Prova de Ciências Humanas e suas Tecnologias, por exemplo.

      Além disso, o que impede do ENEM ser usado apenas como uma etapa de seleção? Aqui no Rio a UFRJ faz ainda uma prova de Conhecimentos Técnicos para os cursos de Desenho Industrial e Artes, por exemplo. Poderia usar o ENEM como 1 etapa de avaliação geral e realizar outras de avaliação mais específica.

      45 questões objetivas são, de fato, poucas, eu concordo. O problema da marcação errada do cartão de resposta permanece, também -apesar de eu não acreditar que seja tão relevante assim, afinal, a chance de se errar é estatisticamente igual para todos o que acaba refletindo na classificação final. E tem também a abrangência dos assuntos cobrados, que pode mesmo ser melhorada.

      Para ser um instrumento de seleção mais completo talvez devesse, ainda, ter questões discursivas e uma avaliação contextualizada dos vestibulandos, mas, sendo objetiva, acredito que o TRI torne o ENEM mais avançado e justo que as avaliações tradicionais das universidades justamente por considerar os diferentes graus de dificuldade de cada questão na composição da nota, coisa que as demais provas objetivas de universidades não fazem.

      1. Exato. Talvez não seja exagero dizer que nenhum exame em tempo algum será 100% justo e isento de alguma brecha. Mas, pensando em um exame que seja tão justo quanto ele possa ser, dentro de limites razoáveis, o Enem tem o meu respeito.

        1. Sim. Me lembrou outros sistemas diferentes que tentam corrigir os mesmos problemas, como o do GMAT.

  3. Eloy, confesso que não percebi que o texto não era do Ghedin até chegar aqui nos comentários!
    Ótimo texto!

  4. Excelente texto, mais uma vez.

    Esse artigo completa um que li sobre como as escolas se utilizam da nota no Enem e criam um ranking e o problema que ele pode representar principalmente considerando as artimanhas das instituições de “ensino”.
    Uma pena eu não encontrar o link para deixar aqui.

  5. Ghedin, um ótimo texto mais uma vez.
    Esse artigo complementa um outro que li comentando sobre como as escolas utilizam o ranking através das notas no Enem.
    Pena que não estou encontrando o link, mas vale ler em conjunto.

    1. Opa, dessa vez o texto não é do Ghedin! É do Eloy Machado, hehe.
      E realmente, texto muito bom!

      1. É o texto está muito muito muito muito, mas muito técnico… particularmente eu não curti muito não. Percebi isso lendo, vi que não era ele.

        Falar a verdade eu ia até ler sobre, mas muito técnico, difícil a leitura. Parei.

        Mas provavelmente não sou o público alvo do texto.

        1. Oi Saulo, se interessar, no meu blog tem uma versão nada técnica e bem mais curta desse texto.Clique no meu nome lá em cima no título do post que meu blog está linkado ali. O 3º post é sobre as notas do Enem. :-)

  6. Excelente post sempre acreditei da prova no ENEM mais não tinha conhecimento do método de avaliação o texto foi bastante informativo.

  7. Muito interessante, sabia que não era mais contagem de pontos mas não que era um modelo tão robusto de avaliação. Eu fiz ENEM na época da “mamata” e realmente era insuficiente para avaliar os alunos, a maioria tirava notas muito altas não distinguindo os alunos entre si. Entretanto,a importância dessa prova era mínima na época (pontos extras na Fuvest no meu caso).

    De fato, é meio impossível fazer uma prova assim sem grandes recursos para estimar os parâmetros da distribuição, mas a premissa de fazer vários níveis de questões é algo que pode ser aplicado informalmente em avaliações. Até porque se for discursiva, o problema do acerto pelo acaso meio que some.

    1. Sou dessa fase “antiga” também (2004). Das 63 questões, errei uma só :P

      1. Exigia tão pouco de matéria que eu tinha ido melhor no segundo que no terceiro ano, eu errava entre 5 e 10 questões. Inclusive, uma amiga que entrou em Medicina na USP foi pior que eu no Enem…o que não fazia sentido já que ela foi muito melhor na Fuvest e outros vestibulares que exigia algum conteúdo.

Os comentários estão fechados.