O artigo ou secção Avaliação diagnóstica deverá ser fundido aqui. (desde setembro de 2023) Se discorda, discuta sobre esta fusão na página de discussão deste artigo. |
Avaliação educacional ou avaliação educacional[1] é o processo sistemático de documentação e uso de dados empíricos sobre conhecimentos, habilidades, atitudes e crenças para refinar os programas e melhorar o aprendizado dos alunos.[2] Dados da avaliação podem ser obtidos através da análise direta do trabalho do aluno para avaliar o alcance dos resultados da aprendizagem ou podem ser baseados em dados dos quais se pode inferir sobre a aprendizagem.[3] Avaliação é freqüentemente usada de forma intercambiável com o teste, mas não se limitando a testes.[4] Avaliação pode se concentrar no aluno individual, na comunidade de aprendizagem (turma, oficina ou outro grupo organizado de alunos), um curso, um programa acadêmico, a instituição ou o sistema educacional como um todo. A palavra "avaliação" entrou em uso em um contexto educacional após a Segunda Guerra Mundial.[5]
Como um processo contínuo, a avaliação estabelece resultados mensuráveis e claros da aprendizagem dos alunos para a aprendizagem, fornecendo uma quantidade suficiente de oportunidades de aprendizagem para alcançar esses resultados, implementando uma maneira sistemática de reunir, analisar e interpretar evidências para determinar quão bem a aprendizagem dos alunos corresponde às expectativas e usar as informações coletadas para informar a melhoria na aprendizagem dos alunos.[6]
O objetivo final das práticas de avaliação em educação depende do arcabouço teórico dos profissionais e pesquisadores, de suas suposições e crenças sobre a natureza da mente humana, a origem do conhecimento e o processo de aprendizagem.
O termo avaliação geralmente é usado para se referir a todas as atividades que os professores usam para ajudar os alunos a aprender e avaliar o seu progresso.[7] Avaliação pode ser dividida de acordo com a necessidade, podendo ser categorizada como:
A avaliação é frequentemente dividida nas categorias: proficiência, formativa, somativa e diagnóstica, com o objetivo de considerar objetivos diferentes para as práticas de avaliação.
Jay McTighe e Ken O'Connor propuseram sete práticas para um aprendizado eficaz.[9] Um deles é mostrar os critérios da avaliação antes do teste. Outra é sobre a importância da pré-avaliação para saber quais são os níveis de habilidade de um aluno antes de dar instruções. Dar muito feedback e encorajar são outras práticas.
O pesquisador em educação Robert Stake[10] explica a diferença entre avaliação formativa e sumativa com a seguinte analogia:
Quando o cozinheiro prova a sopa, isso é formativo. Quando os convidados provam a sopa, isso é somativo.[11]
A avaliação somativa e formativa é frequentemente referida no contexto da aprendizagem como avaliação da aprendizagem e avaliação para a aprendizagem, respectivamente. A avaliação da aprendizagem é geralmente de natureza somativa e visa medir os resultados da aprendizagem e relatá-los aos estudantes, pais e administradores. A avaliação da aprendizagem geralmente ocorre na conclusão de uma aula, curso, semestre ou ano acadêmico. A avaliação para a aprendizagem é geralmente de natureza formativa e é usada pelos professores para considerar abordagens ao ensino e as próximas etapas para os alunos e a turma.[12]
Uma forma comum de avaliação formativa é a avaliação diagnóstica. A avaliação diagnóstica mede o conhecimento e as habilidades atuais de um aluno com o objetivo de identificar um programa adequado de aprendizado. A autoavaliação é uma forma de avaliação diagnóstica que envolve a avaliação feita pelos próprios alunos. A avaliação prospectiva solicita que as pessoas avaliadas se considerem em situações hipotéticas futuras.[13]
A avaliação baseada no desempenho é semelhante à avaliação sumativa, pois se concentra na conquista. Muitas vezes, está alinhado com a reforma educacional baseada em padrões e o movimento educacional baseado em resultados . Embora, idealmente, sejam significativamente diferentes de um teste tradicional de múltipla escolha, eles são mais comumente associados a avaliações baseadas em padrões, que usam respostas de forma livre a perguntas-padrão, pontuadas por marcadores humanos em uma escala baseada em padrões, atendendo, caindo abaixo ou excedendo uma padrão de desempenho em vez de ser classificado em uma curva. Uma tarefa bem definida é identificada e os alunos são solicitados a criar, produzir ou fazer algo, geralmente em ambientes que envolvem a aplicação no mundo real de conhecimentos e habilidades. A proficiência é demonstrada fornecendo uma resposta estendida. Os formatos de desempenho são ainda mais diferenciados em produtos e performances. O desempenho pode resultar em um produto, como uma pintura, portfólio, papel ou exposição, ou pode consistir em um desempenho, como fala, habilidade atlética, recital musical ou leitura.
A avaliação (sumativa ou formativa) é frequentemente categorizada como objetiva ou subjetiva. A avaliação objetiva é uma forma de questionamento que possui uma única resposta correta. A avaliação subjetiva é uma forma de questionamento que pode ter mais de uma resposta correta (ou mais de uma maneira de expressar a resposta correta). Existem vários tipos de perguntas objetivas e subjetivas. Os tipos de perguntas objetivas incluem respostas verdadeiras ou falsas, múltipla escolha, múltiplas respostas e perguntas correspondentes. Perguntas subjetivas incluem perguntas de resposta estendida e ensaios.
Alguns argumentam que a distinção entre avaliações objetivas e subjetivas não é útil nem precisa, porque, na realidade, não existe uma avaliação "objetiva". De fato, todas as avaliações são criadas com preconceitos inerentes incorporados às decisões sobre o assunto e o conteúdo relevantes, além de preconceitos culturais (de classe, étnica e de gênero).[14]
Os resultados dos testes podem ser comparados com um critério estabelecido ou com o desempenho de outros alunos ou com o desempenho anterior:
A avaliação pode ser formal ou informal . A avaliação formal geralmente implica um documento escrito, como teste, teste ou artigo. Uma avaliação formal recebe uma pontuação ou nota numérica com base no desempenho do aluno, enquanto uma avaliação informal não contribui para a nota final do aluno. Uma avaliação informal geralmente ocorre de maneira mais casual e pode incluir observação, inventários, listas de verificação, escalas de classificação, rubricas, avaliações de desempenho e portfólio, participação, avaliação por pares e auto-avaliação e discussão.[16]
A avaliação interna é definida e marcada pela escola (ou seja, professores). Os alunos recebem a nota e feedback sobre a avaliação. A avaliação externa é definida pelo corpo diretivo e marcada por pessoal não tendencioso. Algumas avaliações externas fornecem feedback muito mais limitado em suas marcações. No entanto, em testes como o NAPLAN da Austrália, o critério abordado pelos alunos recebe feedback detalhado para que seus professores abordem e comparem as realizações de aprendizado do aluno e também planejem o futuro.
Em geral, avaliações de alta qualidade são consideradas aquelas com alto nível de confiabilidade e validade. As abordagens de confiabilidade e validade variam, no entanto.
Confiabilidade refere-se à consistência de uma avaliação. Uma avaliação confiável é aquela que obtém consistentemente os mesmos resultados com a mesma coorte (ou similar) de alunos. Vários fatores afetam a confiabilidade - incluindo perguntas ambíguas, muitas opções em um documento de perguntas, instruções de marcação vagas e marcadores mal treinados. Tradicionalmente, a confiabilidade de uma avaliação é baseada no seguinte:
A confiabilidade de uma medida x também pode ser definida quantitativamente como: Onde é a confiabilidade na pontuação observada (teste), x; e são a variabilidade no 'verdadeiro' (ou seja, no desempenho inato do candidato) e nos resultados medidos dos testes, respectivamente. pode variar de 0 (completamente não confiável) a 1 (completamente confiável).
A avaliação válida é aquela que mede o que se pretende medir. Por exemplo, não seria válido avaliar as habilidades de condução apenas através de um teste escrito. Uma maneira mais válida de avaliar as habilidades de direção seria através de uma combinação de testes que ajudem a determinar o que um motorista sabe, como por meio de um teste escrito de conhecimento de direção e o que um motorista é capaz de fazer, como uma avaliação de desempenho real. dirigindo. Alguns professores reclamam que alguns exames não avaliam adequadamente o plano de estudos em que o exame se baseia; eles estão efetivamente questionando a validade do exame.
A validade de uma avaliação é geralmente avaliada através do exame de evidências nas seguintes categorias:
Uma boa avaliação tem validade e confiabilidade, além dos outros atributos de qualidade observados acima para um contexto e finalidade específicos. Na prática, uma avaliação raramente é totalmente válida ou totalmente confiável. Pedir às pessoas aleatórias que digam a hora sem olhar para um relógio ou relógio é às vezes usado como exemplo de uma avaliação válida, mas não confiável. As respostas variam entre indivíduos, mas a resposta média provavelmente está próxima do tempo real. Em muitos campos, como pesquisa médica, testes educacionais e psicologia, muitas vezes haverá uma troca entre confiabilidade e validade. Um teste de história escrito para alta validade terá muitas perguntas de redação e preenchimento de lacunas. Será uma boa medida do domínio do assunto, mas difícil de obter uma pontuação completamente precisa. Um teste de história escrito para alta confiabilidade será de múltipla escolha. Não é tão bom em medir o conhecimento da história, mas pode ser facilmente pontuado com grande precisão. Podemos generalizar a partir disso. Quanto mais confiável é a nossa estimativa do que pretendemos medir, menos seguros estamos de que estamos realmente medindo esse aspecto da conquista.
É bom distinguir entre validade "assunto" e validade "preditiva". O primeiro, amplamente utilizado na educação, prevê a pontuação que um aluno faria em um teste semelhante, mas com perguntas diferentes. O último, amplamente utilizado no local de trabalho, prevê desempenho. Assim, é apropriado um teste de conhecimento válido das regras de condução, enquanto um teste preditivo válido avaliaria se o motorista em potencial poderia seguir essas regras.
No campo da avaliação e, em particular, da avaliação educacional, o Comitê Conjunto de Padrões para Avaliação Educacional publicou três conjuntos de padrões para avaliações. "As normas de avaliação de pessoal"[19] foram publicadas em 1988, as normas de avaliação de programas (2ª edição) [20] foram publicadas em 1994 e as normas de avaliação de estudantes[21] foram publicadas em 2003.
Cada publicação apresenta e elabora um conjunto de padrões para uso em uma variedade de ambientes educacionais. Os padrões fornecem diretrizes para projetar, implementar, avaliar e melhorar a forma identificada de avaliação. Cada um dos padrões foi colocado em uma das quatro categorias fundamentais para promover avaliações educacionais adequadas, úteis, viáveis e precisas. Nestes conjuntos de padrões, considerações de validade e confiabilidade são abordadas no tópico de precisão. Por exemplo, os padrões de precisão do aluno ajudam a garantir que as avaliações do aluno forneçam informações sólidas, precisas e credíveis sobre a aprendizagem e o desempenho do aluno.
A tabela a seguir resume os principais quadros teóricos por trás de quase todo o trabalho teórico e de pesquisa e as práticas instrucionais em educação (uma delas, é claro, a prática da avaliação). Essas diferentes estruturas deram origem a debates interessantes entre os estudiosos.
TÓPICOS | EMPIRISMO | RACIONALISMO | SOCIOCULTURALISMO |
---|---|---|---|
Orientação filosófica | Hume : empirismo britânico | Kant, Descartes : racionalismo continental | Hegel, Marx : dialética cultural |
Orientação metafórica | Mecânico / Operação de uma Máquina ou Computador | Organismic / Crescimento de uma planta | Contextualista / Exame de um Evento Histórico |
Principais teóricos | BF Skinner ( behaviorismo ) / Herb Simon, John Anderson, Robert Gagné : ( cognitivismo ) | Caso Jean Piaget / Robbie | Lev Vygotsky, Luria, Bruner / Alan Collins, Jim Greeno, Ann Brown, John Bransford |
Natureza da mente | Dispositivo inicialmente em branco que detecta padrões no mundo e opera neles. Qualitativamente idêntico aos animais inferiores, mas quantitativamente superior. | Órgão que evoluiu para adquirir conhecimento, dando sentido ao mundo. Exclusivamente humano, qualitativamente diferente dos animais inferiores. | Único entre as espécies para o desenvolvimento de linguagem, ferramentas e educação. |
Natureza do conhecimento
(epistemologia) |
Associações hierarquicamente organizadas que apresentam uma representação precisa, mas incompleta, do mundo. Assume que a soma dos componentes do conhecimento é a mesma que o todo. Como o conhecimento é representado com precisão por componentes, presume-se que quem demonstra esses componentes | Estruturas cognitivas e conceituais gerais e / ou específicas, construídas pela mente e de acordo com critérios racionais. Essencialmente, essas são as estruturas de nível superior que são construídas para assimilar novas informações à estrutura existente e à medida que as estruturas acomodam mais informações novas. O conhecimento é representado pela capacidade de resolver novos problemas. | Distribuído por pessoas, comunidades e ambiente físico. Representa a cultura da comunidade que continua a criá-la. Conhecer significa estar em sintonia com as restrições e condições dos sistemas em que a atividade ocorre. O conhecimento é representado nas regularidades da atividade bem-sucedida. |
Natureza da aprendizagem (o processo pelo qual o conhecimento é aumentado ou modificado) | Formação e fortalecimento de associações cognitivas ou SR. Geração de conhecimento por (1) exposição ao padrão, (2) reconhecimento e resposta eficientes ao padrão (3) reconhecimento de padrões em outros contextos. | Envolver-se em um processo ativo de entender ("racionalizar") o meio ambiente. Mente aplicando a estrutura existente à nova experiência para racionalizá-la. Você realmente não aprende os componentes, apenas as estruturas necessárias para lidar com esses componentes posteriormente. | Maior capacidade de participar de uma comunidade de prática específica. Iniciação na vida de um grupo, fortalecendo a capacidade de participar, sintonizando-se com restrições e condições. |
Características da avaliação autêntica | Avalie os componentes do conhecimento. Concentre-se no domínio de muitos componentes e fluência. Use psicometria para padronizar. | Avalie o desempenho estendido de novos problemas. Variedades de crédito de excelência. | Avalie a participação na investigação e práticas sociais de aprendizagem (por exemplo, portfólios, observações). Os alunos devem participar do processo de avaliação. As avaliações devem ser integradas em um ambiente maior. |
As preocupações sobre a melhor forma de aplicar práticas de avaliação em sistemas de escolas públicas têm se concentrado principalmente em perguntas sobre o uso de testes de alto risco e testes padronizados, frequentemente usados para medir o progresso dos alunos, a qualidade dos professores e o sucesso educacional em nível escolar, distrital ou estadual.
Para a maioria dos pesquisadores e profissionais, a questão não é se os testes devem ser administrados - existe um consenso geral de que, quando administrados de maneiras úteis, os testes podem oferecer informações úteis sobre o progresso do aluno e a implementação do currículo, além de oferecer usos formativos para alunos.[22] A questão real, então, é se as práticas de teste implementadas atualmente podem fornecer esses serviços para educadores e estudantes.
Nos EUA, o presidente Bush assinou o Ato No Child Left Behind (NCLB) em 8 de janeiro de 2002. A Lei NCLB reautorizou a Lei de Ensino Fundamental e Médio (ESEA) de 1965. O Presidente Johnson assinou a ESEA para ajudar a combater a Guerra contra a Pobreza e ajudou a financiar escolas primárias e secundárias. O objetivo do Presidente Johnson era enfatizar o acesso igual à educação e estabelecer altos padrões e responsabilidade. A Lei NCLB exigia que os estados desenvolvessem avaliações em habilidades básicas. Para receber financiamento federal da escola, os estados tiveram que dar essas avaliações a todos os alunos em um nível de série selecionado.
Nos EUA, a Lei No Child Left Behind exige testes padronizados em todo o país. Esses testes estão alinhados com o currículo do estado e vinculam a responsabilidade do professor, aluno, distrito e estado aos resultados desses testes. Os defensores do NCLB argumentam que ele oferece um método tangível de medir o sucesso educacional, responsabilizar professores e escolas por falhas na pontuação e fechar a lacuna de resultados entre classe e etnia.[23]
Os oponentes dos testes padronizados contestam essas alegações, argumentando que responsabilizar os educadores pelos resultados dos testes leva à prática de "ensinar à prova". Além disso, muitos argumentam que o foco em testes padronizados incentiva os professores a equipar os alunos com um conjunto restrito de habilidades que aprimoram o desempenho dos testes sem, na verdade, promover um entendimento mais profundo do assunto ou dos princípios-chave em um domínio de conhecimento.[24]
As avaliações que causaram mais controvérsia nos EUA são o uso de exames de conclusão do ensino médio, que são usados para negar diplomas a estudantes que estudaram no ensino médio por quatro anos, mas não podem demonstrar que aprenderam o material necessário ao escrever exames. Os opositores dizem que nenhum estudante que tenha passado quatro anos sentado não deve receber um diploma do ensino médio apenas por ter repetidamente reprovado em um teste ou mesmo por não conhecer o material necessário.[25]
Os testes de alto risco foram responsabilizados por causar doenças e ansiedade de teste em alunos e professores e por professores escolherem restringir o currículo em direção ao que o professor acredita que será testado. Em um exercício desenvolvido para deixar as crianças confortáveis com os testes, um jornal de Spokane, Washington publicou uma foto de um monstro que se alimenta do medo.[26] A imagem publicada é supostamente a resposta de uma aluna que foi solicitada a desenhar um retrato do que ela pensava da avaliação estadual.
Outros críticos, como Don Orlich, da Universidade Estadual de Washington, questionam o uso de itens de teste muito além dos níveis cognitivos padrão para a idade dos alunos.[27]
Comparado às avaliações de portfólio, os testes simples de múltipla escolha são muito mais baratos, menos propensos a discordâncias entre os marcadores e podem ser pontuados com rapidez suficiente para serem devolvidos antes do final do ano letivo. Testes padronizados (todos os alunos fazem o mesmo teste sob as mesmas condições) geralmente usam testes de múltipla escolha por esses motivos. Orlich critica o uso de testes caros e com classificação holística, em vez de "testes de bolhas" de múltipla escolha e baratos, para medir a qualidade do sistema e dos indivíduos para um número muito grande de estudantes.[27] Outros críticos proeminentes dos testes de alto risco incluem Fairtest e Alfie Kohn.
O uso dos testes de QI foi proibido em alguns estados para decisões educacionais, e os testes referenciados em normas, que classificam os alunos de "melhor" a "pior", foram criticados por preconceitos contra minorias. A maioria dos funcionários da educação apóia testes com critérios de referência (a pontuação de cada aluno depende unicamente se ele respondeu às perguntas corretamente, independentemente de seus vizinhos terem se saído melhor ou pior) para tomar decisões de alto risco.
Observou-se amplamente que, com o surgimento das mídias sociais e das tecnologias e mentalidades da Web 2.0, o aprendizado é cada vez mais colaborativo e o conhecimento, cada vez mais, distribuído por muitos membros de uma comunidade de aprendizado. As práticas tradicionais de avaliação, no entanto, concentram-se em grande parte no indivíduo e falham em dar conta da construção do conhecimento e da aprendizagem em contexto. À medida que os pesquisadores do campo da avaliação consideram as mudanças culturais que surgem do surgimento de uma cultura mais participativa, eles precisam encontrar novos métodos para aplicar as avaliações aos alunos.[28]
O modelo de Sudbury de escolas de educação democrática não funciona e não oferece avaliações, avaliações, transcrições ou recomendações, afirmando que elas não avaliam as pessoas e que a escola não é um juiz; comparar os alunos entre si ou com algum padrão estabelecido é para eles uma violação do direito do aluno à privacidade e à autodeterminação. Os alunos decidem por si mesmos como medir seu progresso como aprendizes iniciantes como um processo de auto-avaliação: aprendizado real ao longo da vida e a avaliação educacional adequada para o século XXI, acrescentam eles.[29]
De acordo com as escolas de Sudbury, essa política não causa danos a seus alunos quando eles passam a viver fora da escola. No entanto, eles admitem que isso dificulta o processo, mas que essa dificuldade faz parte dos alunos que aprendem a seguir seu próprio caminho, estabelecer seus próprios padrões e atingir seus próprios objetivos.
A política de não classificação e sem classificação ajuda a criar uma atmosfera livre de competição entre estudantes ou batalhas pela aprovação de adultos e incentiva um ambiente cooperativo positivo entre o corpo discente.[30]
A fase final de uma educação em Sudbury, caso o aluno decida cursá-la, é a tese de graduação. Cada aluno escreve sobre o tema de como eles se prepararam para a vida adulta e entraram na comunidade em geral. Esta tese é submetida à Assembléia, que a revisa. A etapa final do processo de tese é uma defesa oral dada pelo aluno na qual ele abre a palavra para perguntas, desafios e comentários de todos os membros da Assembléia. No final, a Assembléia vota por voto secreto sobre a concessão ou não de um diploma.[31]
Uma grande preocupação com o uso de avaliações educacionais é a validade geral, precisão e justiça quando se trata de avaliar alunos de língua inglesa (ELL). A maioria das avaliações nos Estados Unidos possui padrões normativos baseados na cultura de língua inglesa, que não representa adequadamente as populações de ELL.[32] Consequentemente, em muitos casos, seria impreciso e inapropriado tirar conclusões das pontuações normativas dos alunos da ELL. Pesquisas mostram que a maioria das escolas não modifica adequadamente as avaliações para acomodar estudantes de origens culturais únicas. Isso resultou no excesso de encaminhamento de estudantes de ELL para a educação especial, fazendo com que eles fossem representados desproporcionalmente em programas de educação especial. Embora alguns possam ver esse posicionamento inadequado na educação especial como favorável e útil, a pesquisa mostrou que os alunos colocados inadequadamente realmente regrediram em andamento.
Muitas vezes, é necessário utilizar os serviços de um tradutor para administrar a avaliação no idioma nativo de um aluno da ELL; no entanto, existem vários problemas ao traduzir itens de avaliação. Uma questão é que as traduções podem frequentemente sugerir uma resposta correta ou esperada, alterando a dificuldade do item de avaliação.[33] Além disso, a tradução de itens de avaliação às vezes pode distorcer o significado original do item. Finalmente, muitos tradutores não são qualificados ou treinados adequadamente para trabalhar com estudantes de ELL em uma situação de avaliação.[32] Todos esses fatores comprometem a validade e a imparcialidade das avaliações, tornando os resultados não confiáveis. As avaliações não-verbais mostraram-se menos discriminatórias para os alunos de ELL, no entanto, algumas ainda apresentam vieses culturais nos itens de avaliação.
Ao considerar um aluno de ELL para educação especial, a equipe de avaliação deve integrar e interpretar todas as informações coletadas para garantir uma conclusão não tendenciosa.[33] A decisão deve basear-se em fontes multidimensionais de dados, incluindo entrevistas com professores e pais, bem como observações em sala de aula. As decisões devem levar em consideração os antecedentes culturais, linguísticos e experienciais dos alunos, e não devem ser estritamente baseados nos resultados da avaliação.
A avaliação pode ser associada à disparidade quando estudantes de grupos tradicionalmente sub-representados são excluídos dos testes necessários para acessar determinados programas ou oportunidades, como é o caso de programas sobredotados. Uma maneira de combater essa disparidade é a triagem universal, que envolve testar todos os alunos (como a superdotação), em vez de testar apenas alguns alunos com base nas recomendações dos professores ou dos pais. A triagem universal resulta em grandes aumentos em grupos tradicionalmente mal atendidos (como negros, hispânicos, pobres, mulheres e ELLs) identificados para programas sobredotados, sem que os padrões de identificação sejam modificados de forma alguma.[34]