Análise educacional

Avaliação educacional ou avaliação educacional^[1] é o processo sistemático de documentação e uso de dados empíricos sobre conhecimentos, habilidades, atitudes e crenças para refinar os programas e melhorar o aprendizado dos alunos.^[2] Dados da avaliação podem ser obtidos através da análise direta do trabalho do aluno para avaliar o alcance dos resultados da aprendizagem ou podem ser baseados em dados dos quais se pode inferir sobre a aprendizagem.^[3] Avaliação é freqüentemente usada de forma intercambiável com o teste, mas não se limitando a testes.^[4] Avaliação pode se concentrar no aluno individual, na comunidade de aprendizagem (turma, oficina ou outro grupo organizado de alunos), um curso, um programa acadêmico, a instituição ou o sistema educacional como um todo. A palavra "avaliação" entrou em uso em um contexto educacional após a Segunda Guerra Mundial.^[5]

Como um processo contínuo, a avaliação estabelece resultados mensuráveis e claros da aprendizagem dos alunos para a aprendizagem, fornecendo uma quantidade suficiente de oportunidades de aprendizagem para alcançar esses resultados, implementando uma maneira sistemática de reunir, analisar e interpretar evidências para determinar quão bem a aprendizagem dos alunos corresponde às expectativas e usar as informações coletadas para informar a melhoria na aprendizagem dos alunos.^[6]

O objetivo final das práticas de avaliação em educação depende do arcabouço teórico dos profissionais e pesquisadores, de suas suposições e crenças sobre a natureza da mente humana, a origem do conhecimento e o processo de aprendizagem.

Tipos

O termo avaliação geralmente é usado para se referir a todas as atividades que os professores usam para ajudar os alunos a aprender e avaliar o seu progresso.^[7] Avaliação pode ser dividida de acordo com a necessidade, podendo ser categorizada como:

Avaliação inicial, formativa, sumativa e diagnóstica
Objetiva e subjetiva
Referenciamento (referenciado por critério, referenciado por norma e ipsativo (escolha forçada) )
Informal e formal
Interno e externo

Avaliação de de proficiência, formativa, somativa e diagnóstica

A avaliação é frequentemente dividida nas categorias: proficiência, formativa, somativa e diagnóstica, com o objetivo de considerar objetivos diferentes para as práticas de avaliação.

Avaliação de proficiência - A avaliação de proficiênicia é usada para colocar os alunos de acordo com as realizações anteriores ou características pessoais, no ponto mais apropriado de uma sequência instrucional, em uma estratégia instrucional única ou com um professor adequado^[8] conduzido por testes de proficiência, ou seja, os testes que faculdades e universidades usam para avaliar se os alunos estão prontos para assistir as suas aulas iniciais. A avaliação de proficiência, também chamada de pré-avaliação ou avaliação inicial, é realizada antes da instrução ou intervenção para estabelecer uma linha de base a partir da qual o crescimento individual de cada aluno possa ser medido. Esse tipo de avaliação é usado para saber qual é o nível de habilidade do aluno sobre o assunto. Ajuda o professor a explicar o material com mais eficiência. Essas avaliações não são classificadas.^[9]
Avaliação formativa - a avaliação formativa geralmente é realizada ao longo de um curso ou projeto. A avaliação formativa, também chamada de "avaliação educativa", é usada para auxiliar o aprendizado. Em um ambiente educacional, a avaliação formativa pode ser um professor (ou colega ) ou o aluno, fornecendo feedback sobre o trabalho de um aluno e não seria necessariamente usado para fins de classificação. As avaliações formativas podem assumir a forma de diagnóstico, testes padronizados, questionários, perguntas orais ou rascunhos. Avaliações formativas são realizadas simultaneamente com as instruções. As avaliações formativas visam verificar se os alunos entendem a instrução antes de fazer uma avaliação somativa.
Avaliação somativa - a avaliação sumativa geralmente é realizada no final de um curso ou projeto. Em um ambiente educacional, as avaliações sumativas são normalmente usadas para atribuir aos alunos uma nota do curso. Avaliações somativas são feitas para resumir o que os alunos aprenderam, para determinar se eles entendem bem o assunto. Esse tipo de avaliação é normalmente classificado (por exemplo, aprovado / reprovado, 0 a 100) e pode assumir a forma de testes, exames ou projetos. Avaliações somativas são frequentemente usadas para determinar se um aluno passou ou reprovou em uma aula. Uma crítica às avaliações somativas é que elas são redutivas e os alunos descobrem quão bem adquiriram conhecimento tarde demais para que seja útil.
Avaliação diagnóstica - A avaliação diagnóstica lida com todas as dificuldades que ocorrem durante o processo de aprendizagem.

Jay McTighe e Ken O'Connor propuseram sete práticas para um aprendizado eficaz.^[9] Um deles é mostrar os critérios da avaliação antes do teste. Outra é sobre a importância da pré-avaliação para saber quais são os níveis de habilidade de um aluno antes de dar instruções. Dar muito feedback e encorajar são outras práticas.

O pesquisador em educação Robert Stake^[10] explica a diferença entre avaliação formativa e sumativa com a seguinte analogia:

Quando o cozinheiro prova a sopa, isso é formativo. Quando os convidados provam a sopa, isso é somativo.^[11]

A avaliação somativa e formativa é frequentemente referida no contexto da aprendizagem como avaliação da aprendizagem e avaliação para a aprendizagem, respectivamente. A avaliação da aprendizagem é geralmente de natureza somativa e visa medir os resultados da aprendizagem e relatá-los aos estudantes, pais e administradores. A avaliação da aprendizagem geralmente ocorre na conclusão de uma aula, curso, semestre ou ano acadêmico. A avaliação para a aprendizagem é geralmente de natureza formativa e é usada pelos professores para considerar abordagens ao ensino e as próximas etapas para os alunos e a turma.^[12]

Uma forma comum de avaliação formativa é a avaliação diagnóstica. A avaliação diagnóstica mede o conhecimento e as habilidades atuais de um aluno com o objetivo de identificar um programa adequado de aprendizado. A autoavaliação é uma forma de avaliação diagnóstica que envolve a avaliação feita pelos próprios alunos. A avaliação prospectiva solicita que as pessoas avaliadas se considerem em situações hipotéticas futuras.^[13]

A avaliação baseada no desempenho é semelhante à avaliação sumativa, pois se concentra na conquista. Muitas vezes, está alinhado com a reforma educacional baseada em padrões e o movimento educacional baseado em resultados . Embora, idealmente, sejam significativamente diferentes de um teste tradicional de múltipla escolha, eles são mais comumente associados a avaliações baseadas em padrões, que usam respostas de forma livre a perguntas-padrão, pontuadas por marcadores humanos em uma escala baseada em padrões, atendendo, caindo abaixo ou excedendo uma padrão de desempenho em vez de ser classificado em uma curva. Uma tarefa bem definida é identificada e os alunos são solicitados a criar, produzir ou fazer algo, geralmente em ambientes que envolvem a aplicação no mundo real de conhecimentos e habilidades. A proficiência é demonstrada fornecendo uma resposta estendida. Os formatos de desempenho são ainda mais diferenciados em produtos e performances. O desempenho pode resultar em um produto, como uma pintura, portfólio, papel ou exposição, ou pode consistir em um desempenho, como fala, habilidade atlética, recital musical ou leitura.

Objetiva e subjetiva

A avaliação (sumativa ou formativa) é frequentemente categorizada como objetiva ou subjetiva. A avaliação objetiva é uma forma de questionamento que possui uma única resposta correta. A avaliação subjetiva é uma forma de questionamento que pode ter mais de uma resposta correta (ou mais de uma maneira de expressar a resposta correta). Existem vários tipos de perguntas objetivas e subjetivas. Os tipos de perguntas objetivas incluem respostas verdadeiras ou falsas, múltipla escolha, múltiplas respostas e perguntas correspondentes. Perguntas subjetivas incluem perguntas de resposta estendida e ensaios.

Alguns argumentam que a distinção entre avaliações objetivas e subjetivas não é útil nem precisa, porque, na realidade, não existe uma avaliação "objetiva". De fato, todas as avaliações são criadas com preconceitos inerentes incorporados às decisões sobre o assunto e o conteúdo relevantes, além de preconceitos culturais (de classe, étnica e de gênero).^[14]

Base de comparação

Os resultados dos testes podem ser comparados com um critério estabelecido ou com o desempenho de outros alunos ou com o desempenho anterior:

A avaliação referenciada por critérios, normalmente usando um teste referenciado por critérios, como o nome indica, ocorre quando os candidatos são medidos com base em critérios definidos (e objetivos). A avaliação referenciada por critérios é frequentemente, mas nem sempre, usada para estabelecer a competência de uma pessoa (se ela pode fazer alguma coisa). O exemplo mais conhecido de avaliação com referência a critérios é o teste de direção, quando os motoristas aprendizes são medidos com base em vários critérios explícitos (como "Não colocar em risco outros usuários da estrada").
A avaliação referenciada a normas (coloquialmente conhecida como " classificação na curva "), normalmente usando um teste referenciado por normas, não é medida com base em critérios definidos. Este tipo de avaliação é relativo ao corpo discente que realiza a avaliação. É efetivamente uma maneira de comparar os alunos. O teste de QI é o exemplo mais conhecido de avaliação referenciada por normas. Muitos testes de admissão (para escolas ou universidades de prestígio) são referenciados em normas, permitindo que uma proporção fixa de alunos passe ("passar" nesse contexto significa ser aceito na escola ou universidade em vez de um nível explícito de habilidade). Isso significa que os padrões podem variar de ano para ano, dependendo da qualidade da coorte; a avaliação referenciada por critérios não varia de ano para ano (a menos que os critérios mudem).^[15]
A avaliação de progresso é a auto-comparação no mesmo domínio ao longo do tempo ou em comparação com outros domínios no mesmo aluno.

Informal e formal

A avaliação pode ser formal ou informal . A avaliação formal geralmente implica um documento escrito, como teste, teste ou artigo. Uma avaliação formal recebe uma pontuação ou nota numérica com base no desempenho do aluno, enquanto uma avaliação informal não contribui para a nota final do aluno. Uma avaliação informal geralmente ocorre de maneira mais casual e pode incluir observação, inventários, listas de verificação, escalas de classificação, rubricas, avaliações de desempenho e portfólio, participação, avaliação por pares e auto-avaliação e discussão.^[16]

A avaliação interna é definida e marcada pela escola (ou seja, professores). Os alunos recebem a nota e feedback sobre a avaliação. A avaliação externa é definida pelo corpo diretivo e marcada por pessoal não tendencioso. Algumas avaliações externas fornecem feedback muito mais limitado em suas marcações. No entanto, em testes como o NAPLAN da Austrália, o critério abordado pelos alunos recebe feedback detalhado para que seus professores abordem e comparem as realizações de aprendizado do aluno e também planejem o futuro.

Padrões de qualidade

Em geral, avaliações de alta qualidade são consideradas aquelas com alto nível de confiabilidade e validade. As abordagens de confiabilidade e validade variam, no entanto.

Confiabilidade

Confiabilidade refere-se à consistência de uma avaliação. Uma avaliação confiável é aquela que obtém consistentemente os mesmos resultados com a mesma coorte (ou similar) de alunos. Vários fatores afetam a confiabilidade - incluindo perguntas ambíguas, muitas opções em um documento de perguntas, instruções de marcação vagas e marcadores mal treinados. Tradicionalmente, a confiabilidade de uma avaliação é baseada no seguinte:

Estabilidade temporal: o desempenho em um teste é comparável em duas ou mais ocasiões separadas.
Equivalência de formulário: o desempenho entre os examinados é equivalente em diferentes formas de um teste com base no mesmo conteúdo.
Consistência interna: as respostas em um teste são consistentes nas perguntas. Por exemplo: em uma pesquisa que solicita que os entrevistados classifiquem atitudes em relação à tecnologia, seria esperada consistência nas respostas às seguintes afirmações:
- "Sinto-me muito negativo em relação aos computadores em geral".
- "Gosto de usar computadores."^[17]

A confiabilidade de uma medida x também pode ser definida quantitativamente como: $R_{\text{x}}=V_{\text{t}}/V_{\text{x}}$ Onde $R_{\text{x}}$ é a confiabilidade na pontuação observada (teste), x; $V_{\text{t}}$ e $V_{\text{x}}$ são a variabilidade no 'verdadeiro' (ou seja, no desempenho inato do candidato) e nos resultados medidos dos testes, respectivamente. $R_{\text{x}}$ pode variar de 0 (completamente não confiável) a 1 (completamente confiável).

Validade

A avaliação válida é aquela que mede o que se pretende medir. Por exemplo, não seria válido avaliar as habilidades de condução apenas através de um teste escrito. Uma maneira mais válida de avaliar as habilidades de direção seria através de uma combinação de testes que ajudem a determinar o que um motorista sabe, como por meio de um teste escrito de conhecimento de direção e o que um motorista é capaz de fazer, como uma avaliação de desempenho real. dirigindo. Alguns professores reclamam que alguns exames não avaliam adequadamente o plano de estudos em que o exame se baseia; eles estão efetivamente questionando a validade do exame.

A validade de uma avaliação é geralmente avaliada através do exame de evidências nas seguintes categorias:

Conteúdo - O conteúdo do teste mede os objetivos declarados?
Critério - As pontuações correlacionam-se com uma referência externa? (por exemplo: as pontuações mais altas em um teste de leitura da 4ª série preveem com precisão as habilidades de leitura em notas futuras?)
Construção - A avaliação corresponde a outras variáveis significativas? (por exemplo: os alunos de cursos de língua inglesa para estrangeiros apresentam desempenho consistentemente diferente de falantes nativos de inglês em um exame de redação?) ^[18]

Uma boa avaliação tem validade e confiabilidade, além dos outros atributos de qualidade observados acima para um contexto e finalidade específicos. Na prática, uma avaliação raramente é totalmente válida ou totalmente confiável. Pedir às pessoas aleatórias que digam a hora sem olhar para um relógio ou relógio é às vezes usado como exemplo de uma avaliação válida, mas não confiável. As respostas variam entre indivíduos, mas a resposta média provavelmente está próxima do tempo real. Em muitos campos, como pesquisa médica, testes educacionais e psicologia, muitas vezes haverá uma troca entre confiabilidade e validade. Um teste de história escrito para alta validade terá muitas perguntas de redação e preenchimento de lacunas. Será uma boa medida do domínio do assunto, mas difícil de obter uma pontuação completamente precisa. Um teste de história escrito para alta confiabilidade será de múltipla escolha. Não é tão bom em medir o conhecimento da história, mas pode ser facilmente pontuado com grande precisão. Podemos generalizar a partir disso. Quanto mais confiável é a nossa estimativa do que pretendemos medir, menos seguros estamos de que estamos realmente medindo esse aspecto da conquista.

É bom distinguir entre validade "assunto" e validade "preditiva". O primeiro, amplamente utilizado na educação, prevê a pontuação que um aluno faria em um teste semelhante, mas com perguntas diferentes. O último, amplamente utilizado no local de trabalho, prevê desempenho. Assim, é apropriado um teste de conhecimento válido das regras de condução, enquanto um teste preditivo válido avaliaria se o motorista em potencial poderia seguir essas regras.

Normas de avaliação

No campo da avaliação e, em particular, da avaliação educacional, o Comitê Conjunto de Padrões para Avaliação Educacional publicou três conjuntos de padrões para avaliações. "As normas de avaliação de pessoal"^[19] foram publicadas em 1988, as normas de avaliação de programas (2ª edição) ^[20] foram publicadas em 1994 e as normas de avaliação de estudantes^[21] foram publicadas em 2003.

Cada publicação apresenta e elabora um conjunto de padrões para uso em uma variedade de ambientes educacionais. Os padrões fornecem diretrizes para projetar, implementar, avaliar e melhorar a forma identificada de avaliação. Cada um dos padrões foi colocado em uma das quatro categorias fundamentais para promover avaliações educacionais adequadas, úteis, viáveis e precisas. Nestes conjuntos de padrões, considerações de validade e confiabilidade são abordadas no tópico de precisão. Por exemplo, os padrões de precisão do aluno ajudam a garantir que as avaliações do aluno forneçam informações sólidas, precisas e credíveis sobre a aprendizagem e o desempenho do aluno.

Quadro resumo dos principais referenciais teóricos

A tabela a seguir resume os principais quadros teóricos por trás de quase todo o trabalho teórico e de pesquisa e as práticas instrucionais em educação (uma delas, é claro, a prática da avaliação). Essas diferentes estruturas deram origem a debates interessantes entre os estudiosos.

TÓPICOS	EMPIRISMO	RACIONALISMO	SOCIOCULTURALISMO
Orientação filosófica	Hume : empirismo britânico	Kant, Descartes : racionalismo continental	Hegel, Marx : dialética cultural
Orientação metafórica	Mecânico / Operação de uma Máquina ou Computador	Organismic / Crescimento de uma planta	Contextualista / Exame de um Evento Histórico
Principais teóricos	BF Skinner ( behaviorismo ) / Herb Simon, John Anderson, Robert Gagné : ( cognitivismo )	Caso Jean Piaget / Robbie	Lev Vygotsky, Luria, Bruner / Alan Collins, Jim Greeno, Ann Brown, John Bransford
Natureza da mente	Dispositivo inicialmente em branco que detecta padrões no mundo e opera neles. Qualitativamente idêntico aos animais inferiores, mas quantitativamente superior.	Órgão que evoluiu para adquirir conhecimento, dando sentido ao mundo. Exclusivamente humano, qualitativamente diferente dos animais inferiores.	Único entre as espécies para o desenvolvimento de linguagem, ferramentas e educação.
Natureza do conhecimento (epistemologia)	Associações hierarquicamente organizadas que apresentam uma representação precisa, mas incompleta, do mundo. Assume que a soma dos componentes do conhecimento é a mesma que o todo. Como o conhecimento é representado com precisão por componentes, presume-se que quem demonstra esses componentes	Estruturas cognitivas e conceituais gerais e / ou específicas, construídas pela mente e de acordo com critérios racionais. Essencialmente, essas são as estruturas de nível superior que são construídas para assimilar novas informações à estrutura existente e à medida que as estruturas acomodam mais informações novas. O conhecimento é representado pela capacidade de resolver novos problemas.	Distribuído por pessoas, comunidades e ambiente físico. Representa a cultura da comunidade que continua a criá-la. Conhecer significa estar em sintonia com as restrições e condições dos sistemas em que a atividade ocorre. O conhecimento é representado nas regularidades da atividade bem-sucedida.
Natureza da aprendizagem (o processo pelo qual o conhecimento é aumentado ou modificado)	Formação e fortalecimento de associações cognitivas ou SR. Geração de conhecimento por (1) exposição ao padrão, (2) reconhecimento e resposta eficientes ao padrão (3) reconhecimento de padrões em outros contextos.	Envolver-se em um processo ativo de entender ("racionalizar") o meio ambiente. Mente aplicando a estrutura existente à nova experiência para racionalizá-la. Você realmente não aprende os componentes, apenas as estruturas necessárias para lidar com esses componentes posteriormente.	Maior capacidade de participar de uma comunidade de prática específica. Iniciação na vida de um grupo, fortalecendo a capacidade de participar, sintonizando-se com restrições e condições.
Características da avaliação autêntica	Avalie os componentes do conhecimento. Concentre-se no domínio de muitos componentes e fluência. Use psicometria para padronizar.	Avalie o desempenho estendido de novos problemas. Variedades de crédito de excelência.	Avalie a participação na investigação e práticas sociais de aprendizagem (por exemplo, portfólios, observações). Os alunos devem participar do processo de avaliação. As avaliações devem ser integradas em um ambiente maior.

Controvérsia

As preocupações sobre a melhor forma de aplicar práticas de avaliação em sistemas de escolas públicas têm se concentrado principalmente em perguntas sobre o uso de testes de alto risco e testes padronizados, frequentemente usados para medir o progresso dos alunos, a qualidade dos professores e o sucesso educacional em nível escolar, distrital ou estadual.

Ato "Nenhuma criança Deixada para trás"

Para a maioria dos pesquisadores e profissionais, a questão não é se os testes devem ser administrados - existe um consenso geral de que, quando administrados de maneiras úteis, os testes podem oferecer informações úteis sobre o progresso do aluno e a implementação do currículo, além de oferecer usos formativos para alunos.^[22] A questão real, então, é se as práticas de teste implementadas atualmente podem fornecer esses serviços para educadores e estudantes.

Nos EUA, o presidente Bush assinou o Ato No Child Left Behind (NCLB) em 8 de janeiro de 2002. A Lei NCLB reautorizou a Lei de Ensino Fundamental e Médio (ESEA) de 1965. O Presidente Johnson assinou a ESEA para ajudar a combater a Guerra contra a Pobreza e ajudou a financiar escolas primárias e secundárias. O objetivo do Presidente Johnson era enfatizar o acesso igual à educação e estabelecer altos padrões e responsabilidade. A Lei NCLB exigia que os estados desenvolvessem avaliações em habilidades básicas. Para receber financiamento federal da escola, os estados tiveram que dar essas avaliações a todos os alunos em um nível de série selecionado.

Nos EUA, a Lei No Child Left Behind exige testes padronizados em todo o país. Esses testes estão alinhados com o currículo do estado e vinculam a responsabilidade do professor, aluno, distrito e estado aos resultados desses testes. Os defensores do NCLB argumentam que ele oferece um método tangível de medir o sucesso educacional, responsabilizar professores e escolas por falhas na pontuação e fechar a lacuna de resultados entre classe e etnia.^[23]

Os oponentes dos testes padronizados contestam essas alegações, argumentando que responsabilizar os educadores pelos resultados dos testes leva à prática de "ensinar à prova". Além disso, muitos argumentam que o foco em testes padronizados incentiva os professores a equipar os alunos com um conjunto restrito de habilidades que aprimoram o desempenho dos testes sem, na verdade, promover um entendimento mais profundo do assunto ou dos princípios-chave em um domínio de conhecimento.^[24]

Teste de alto risco

As avaliações que causaram mais controvérsia nos EUA são o uso de exames de conclusão do ensino médio, que são usados para negar diplomas a estudantes que estudaram no ensino médio por quatro anos, mas não podem demonstrar que aprenderam o material necessário ao escrever exames. Os opositores dizem que nenhum estudante que tenha passado quatro anos sentado não deve receber um diploma do ensino médio apenas por ter repetidamente reprovado em um teste ou mesmo por não conhecer o material necessário.^[25]

Os testes de alto risco foram responsabilizados por causar doenças e ansiedade de teste em alunos e professores e por professores escolherem restringir o currículo em direção ao que o professor acredita que será testado. Em um exercício desenvolvido para deixar as crianças confortáveis com os testes, um jornal de Spokane, Washington publicou uma foto de um monstro que se alimenta do medo.^[26] A imagem publicada é supostamente a resposta de uma aluna que foi solicitada a desenhar um retrato do que ela pensava da avaliação estadual.

Outros críticos, como Don Orlich, da Universidade Estadual de Washington, questionam o uso de itens de teste muito além dos níveis cognitivos padrão para a idade dos alunos.^[27]

Comparado às avaliações de portfólio, os testes simples de múltipla escolha são muito mais baratos, menos propensos a discordâncias entre os marcadores e podem ser pontuados com rapidez suficiente para serem devolvidos antes do final do ano letivo. Testes padronizados (todos os alunos fazem o mesmo teste sob as mesmas condições) geralmente usam testes de múltipla escolha por esses motivos. Orlich critica o uso de testes caros e com classificação holística, em vez de "testes de bolhas" de múltipla escolha e baratos, para medir a qualidade do sistema e dos indivíduos para um número muito grande de estudantes.^[27] Outros críticos proeminentes dos testes de alto risco incluem Fairtest e Alfie Kohn.

O uso dos testes de QI foi proibido em alguns estados para decisões educacionais, e os testes referenciados em normas, que classificam os alunos de "melhor" a "pior", foram criticados por preconceitos contra minorias. A maioria dos funcionários da educação apóia testes com critérios de referência (a pontuação de cada aluno depende unicamente se ele respondeu às perguntas corretamente, independentemente de seus vizinhos terem se saído melhor ou pior) para tomar decisões de alto risco.

Avaliação do século XXI

Observou-se amplamente que, com o surgimento das mídias sociais e das tecnologias e mentalidades da Web 2.0, o aprendizado é cada vez mais colaborativo e o conhecimento, cada vez mais, distribuído por muitos membros de uma comunidade de aprendizado. As práticas tradicionais de avaliação, no entanto, concentram-se em grande parte no indivíduo e falham em dar conta da construção do conhecimento e da aprendizagem em contexto. À medida que os pesquisadores do campo da avaliação consideram as mudanças culturais que surgem do surgimento de uma cultura mais participativa, eles precisam encontrar novos métodos para aplicar as avaliações aos alunos.^[28]

Avaliação em uma escola democrática

O modelo de Sudbury de escolas de educação democrática não funciona e não oferece avaliações, avaliações, transcrições ou recomendações, afirmando que elas não avaliam as pessoas e que a escola não é um juiz; comparar os alunos entre si ou com algum padrão estabelecido é para eles uma violação do direito do aluno à privacidade e à autodeterminação. Os alunos decidem por si mesmos como medir seu progresso como aprendizes iniciantes como um processo de auto-avaliação: aprendizado real ao longo da vida e a avaliação educacional adequada para o século XXI, acrescentam eles.^[29]

De acordo com as escolas de Sudbury, essa política não causa danos a seus alunos quando eles passam a viver fora da escola. No entanto, eles admitem que isso dificulta o processo, mas que essa dificuldade faz parte dos alunos que aprendem a seguir seu próprio caminho, estabelecer seus próprios padrões e atingir seus próprios objetivos.

A política de não classificação e sem classificação ajuda a criar uma atmosfera livre de competição entre estudantes ou batalhas pela aprovação de adultos e incentiva um ambiente cooperativo positivo entre o corpo discente.^[30]

A fase final de uma educação em Sudbury, caso o aluno decida cursá-la, é a tese de graduação. Cada aluno escreve sobre o tema de como eles se prepararam para a vida adulta e entraram na comunidade em geral. Esta tese é submetida à Assembléia, que a revisa. A etapa final do processo de tese é uma defesa oral dada pelo aluno na qual ele abre a palavra para perguntas, desafios e comentários de todos os membros da Assembléia. No final, a Assembléia vota por voto secreto sobre a concessão ou não de um diploma.^[31]

Avaliando alunos da ELL

Uma grande preocupação com o uso de avaliações educacionais é a validade geral, precisão e justiça quando se trata de avaliar alunos de língua inglesa (ELL). A maioria das avaliações nos Estados Unidos possui padrões normativos baseados na cultura de língua inglesa, que não representa adequadamente as populações de ELL.^[32] Consequentemente, em muitos casos, seria impreciso e inapropriado tirar conclusões das pontuações normativas dos alunos da ELL. Pesquisas mostram que a maioria das escolas não modifica adequadamente as avaliações para acomodar estudantes de origens culturais únicas. Isso resultou no excesso de encaminhamento de estudantes de ELL para a educação especial, fazendo com que eles fossem representados desproporcionalmente em programas de educação especial. Embora alguns possam ver esse posicionamento inadequado na educação especial como favorável e útil, a pesquisa mostrou que os alunos colocados inadequadamente realmente regrediram em andamento.

Muitas vezes, é necessário utilizar os serviços de um tradutor para administrar a avaliação no idioma nativo de um aluno da ELL; no entanto, existem vários problemas ao traduzir itens de avaliação. Uma questão é que as traduções podem frequentemente sugerir uma resposta correta ou esperada, alterando a dificuldade do item de avaliação.^[33] Além disso, a tradução de itens de avaliação às vezes pode distorcer o significado original do item. Finalmente, muitos tradutores não são qualificados ou treinados adequadamente para trabalhar com estudantes de ELL em uma situação de avaliação.^[32] Todos esses fatores comprometem a validade e a imparcialidade das avaliações, tornando os resultados não confiáveis. As avaliações não-verbais mostraram-se menos discriminatórias para os alunos de ELL, no entanto, algumas ainda apresentam vieses culturais nos itens de avaliação.

Ao considerar um aluno de ELL para educação especial, a equipe de avaliação deve integrar e interpretar todas as informações coletadas para garantir uma conclusão não tendenciosa.^[33] A decisão deve basear-se em fontes multidimensionais de dados, incluindo entrevistas com professores e pais, bem como observações em sala de aula. As decisões devem levar em consideração os antecedentes culturais, linguísticos e experienciais dos alunos, e não devem ser estritamente baseados nos resultados da avaliação.

Rastreio Universal

A avaliação pode ser associada à disparidade quando estudantes de grupos tradicionalmente sub-representados são excluídos dos testes necessários para acessar determinados programas ou oportunidades, como é o caso de programas sobredotados. Uma maneira de combater essa disparidade é a triagem universal, que envolve testar todos os alunos (como a superdotação), em vez de testar apenas alguns alunos com base nas recomendações dos professores ou dos pais. A triagem universal resulta em grandes aumentos em grupos tradicionalmente mal atendidos (como negros, hispânicos, pobres, mulheres e ELLs) identificados para programas sobredotados, sem que os padrões de identificação sejam modificados de forma alguma.^[34]

Referências

↑ Some educators and education theorists use the terms assessment and evaluation to refer to the different concepts of testing during a learning process to improve it (for which the equally unambiguous terms formative assessment or formative evaluation are preferable) and of testing after completion of a learning process (for which the equally unambiguous terms summative assessment or summative evaluation are preferable), but they are in fact synonyms and do not intrinsically mean different things. Most dictionaries not only say that these terms are synonyms but also use them to define each other. If the terms are used for different concepts, careful editing requires both the explanation that they are normally synonyms and the clarification that they are used to refer to different concepts in the current text.
↑ Allen, M.J. (2004). Assessing Academic Programs in Higher Education. [S.l.: s.n.]
↑ Kuh, G.D.; Jankowski, N.; Ikenberry, S.O. (2014). Knowing What Students Know and Can Do: The Current State of Learning Outcomes Assessment in U.S. Colleges and Universities (PDF). [S.l.: s.n.]
↑ National council on Measurement in Education http://www.ncme.org/ncme/NCME/Resource_Center/Glossary/NCME/Resource_Center/Glossary1.aspx?hkey=4bb87415-44dc-4088-9ed9-e8515326a061#anchorA Arquivado em 2017-07-22 no Wayback Machine
↑ «A contribution to the history of assessment: how a conversation simulator redeems Socratic method». Assessment & Evaluation in Higher Education. 39. doi:10.1080/02602938.2013.798394
↑ Suskie, Linda (2004). Assessing Student Learning. [S.l.: s.n.]
↑ Black, Paul, & William, Dylan (October 1998). "Inside the Black Box: Raising Standards Through Classroom Assessment."Phi Beta Kappan. Available at http://www.pdkmembers.org/members_online/members/orders.asp?action=results&t=A&desc=Inside+the+Black+Box%3A+Raising+Standards+Through+Classroom+Assessment&text=&lname_1=&fname_1=&lname_2=&fname_2=&kw_1=&kw_2=&kw_3=&kw_4=&mn1=&yr1=&mn2=&yr2=&c1= PDKintl.org]. Retrieved January 28, 2009.
↑ «Placement, Formative, Diagnostic, and Summative Evaluation of Classroom Learning»
↑ ^a ^b «Seven practices for effective learning». Educational Leadership. 63
↑ «Archived copy». Consultado em 29 de janeiro de 2009. Arquivado do original em 8 de fevereiro de 2009
↑ Scriven, M. (1991). Evaluation thesaurus. 4th ed. Newbury Park, CA:Sage Publications. ISBN 0-8039-4364-4.
↑ Earl, Lorna (2003). Assessment as Learning: Using Classroom Assessment to Maximise Student Learning. Thousand Oaks, CA, Corwin Press. ISBN 0-7619-4626-8
↑ Reed, Daniel. "Diagnostic Assessment in Language Teaching and Learning." Center for Language Education and Research, available at Google.com Arquivado em 2011-09-14 no Wayback Machine. Retrieved January 28, 2009.
↑ Joint Information Systems Committee (JISC). "What Do We Mean by e-Assessment?" JISC InfoNet. Retrieved January 29, 2009 from http://tools.jiscinfonet.ac.uk/downloads/vle/eassessment-printable.pdf Arquivado em 2017-01-16 no Wayback Machine
↑ Educational Technologies at Virginia Tech. "Assessment Purposes." VirginiaTech DesignShop: Lessons in Effective Teaching, available at Edtech.vt.edu Arquivado em 2009-02-26 no Wayback Machine. Retrieved January 29, 2009.
↑ Valencia, Sheila W. "What Are the Different Forms of Authentic Assessment?" Understanding Authentic Classroom-Based Literacy Assessment (1997), available at Eduplace.com. Retrieved January 29, 2009.
↑ Yu, Chong Ho (2005). "Reliability and Validity." Educational Assessment. Available at Creative-wisdom.com. Retrieved January 29, 2009.
↑ Moskal, Barbara M., & Leydens, Jon A (2000). "Scoring Rubric Development: Validity and Reliability." Practical Assessment, Research & Evaluation, 7(10). Retrieved January 30, 2009.
↑ Joint Committee on Standards for Educational Evaluation. (1988). "The Personnel Evaluation Standards: How to Assess Systems for Evaluating Educators". Newbury Park, CA: Sage Publications.
↑ Joint Committee on Standards for Educational Evaluation. (1994).The Program Evaluation Standards, 2nd Edition. Newbury Park, CA: Sage Publications.
↑ Committee on Standards for Educational Evaluation. (2003). The Student Evaluation Standards: How to Improve Evaluations of Students. Newbury Park, CA: Corwin Press.
↑ American Psychological Association. "Appropriate Use of High-Stakes Testing in Our Nation's Schools." APA Online, available at APA.org, Retrieved January 24, 2010
↑ (nd) Reauthorization of NCLB. Department of Education. Retrieved 1/29/09.
↑ (nd) What's Wrong With Standardized Testing? FairTest.org. Retrieved January 29, 2009.
↑ «Blame the test: LAUSD denies responsibility for low scores». Daily News
↑ «ASD.wednet.edu» ^{[ligação inativa]}
↑ ^a ^b Bach, Deborah, & Blanchard, Jessica (April 19, 2005). "WASL worries stress kids, schools." Seattle Post-Intelligencer. Retrieved January 30, 2009 from Seattlepi.nwsource.com.
↑ Fadel, Charles, Honey, Margaret, & Pasnik, Shelley (May 18, 2007). "Assessment in the Age of Innovation." Education Week. Retrieved January 29, 2009 from http://www.edweek.org/ew/articles/2007/05/23/38fadel.h26.html
↑ Greenberg, D. (2000). 21st Century Schools, edited transcript of a talk delivered at the April 2000 International Conference on Learning in the 21st Century.
↑ Greenberg, D. (1987). Chapter 20,Evaluation, Free at Last — The Sudbury Valley School.
↑ Graduation Thesis Procedure, Mountain Laurel Sudbury School.
↑ ^a ^b http://ehis.ebscohost.com.libdata.lib.ua.edu/eds/pdfviewer/pdfviewer?sid=221ae7c6-6895-4b02-bc69-759936218fba%40sessionmgr104&vid=12&hid=20^{[ligação inativa]}
↑ ^a ^b «Archived copy» (PDF) ^{[ligação inativa]}
↑ Card, D., & Giuliano, L. (2015). Can universal screening increase the representation of low income and minority students in gifted education? (Working Paper No. 21519). Cambridge, MA: National Bureau of Economic Research. Retrieved from www.nber.org/papers/w21519

Leitura adicional

Associação Americana de Pesquisa Educacional, Associação Americana de Psicologia e Conselho Nacional de Medição em Educação. (2014). Normas para testes educacionais e psicológicos. Washington, DC: Associação Americana de Pesquisa Educacional.
Bennett, RE (2015). A natureza mutável da avaliação educacional. Revisão da Pesquisa em Educação, 39 (1), 370-407.
Brown, GTL (2018). Avaliação do desempenho dos alunos. Nova York: Routledge.
Despreocupado, David. Excelência em avaliação universitária: aprendendo com práticas premiadas . Londres: Routledge, 2015.
Klinger, D., McDivitt, P., Howard, B., Rogers, T., Munoz, M. e Wylie, C. (2015). Padrões de avaliação em sala de aula para professores do ensino pré-12: Comitê Conjunto de Padrões para Avaliação Educacional.
Kubiszyn, T. e Borich, GD (2012). Teste e Medição Educacional: Aplicação e Prática em Sala de Aula (10ª ed. ) Nova York: John Wiley & Sons.
Miller, DM, Linn, RL e Gronlund, NE (2013). Medida e Avaliação no Ensino (11ª ed. ) Boston, MA: Pearson.
Conselho Nacional de Pesquisa. (2001) Saber o que os alunos sabem: a ciência e o design da avaliação educacional. Washington, DC: Imprensa da Academia Nacional.
Nitko, AJ (2001). Avaliação educacional dos alunos (3ª ed. ) Rio Saddle Superior, NJ: Merrill.
Phelps, Richard P., ed. Corrigindo Falácias sobre Testes Educacionais e Psicológicos . Washington, DC: Associação Americana de Psicologia, 2008.
Phelps, Richard P., Primer para Teste Padronizado . Nova York: Peter Lang, 2007.
Russell, MK, & Airasian, PW (2012). Avaliação em Sala de Aula: Conceitos e Aplicações (7ª ed. ) Nova York: McGraw Hill.
Shepard, LA (2006). Avaliação em sala de aula. In RL Brennan (Ed.), Educational Measurement (4th ed., Pp. 623-646). Westport, CT: Praeger.

[1] Some educators and education theorists use the terms assessment and evaluation to refer to the different concepts of testing during a learning process to improve it (for which the equally unambiguous terms formative assessment or formative evaluation are preferable) and of testing after completion of a learning process (for which the equally unambiguous terms summative assessment or summative evaluation are preferable), but they are in fact synonyms and do not intrinsically mean different things. Most dictionaries not only say that these terms are synonyms but also use them to define each other. If the terms are used for different concepts, careful editing requires both the explanation that they are normally synonyms and the clarification that they are used to refer to different concepts in the current text.

[2] Allen, M.J. (2004). Assessing Academic Programs in Higher Education. [S.l.: s.n.]

[3] Kuh, G.D.; Jankowski, N.; Ikenberry, S.O. (2014). Knowing What Students Know and Can Do: The Current State of Learning Outcomes Assessment in U.S. Colleges and Universities (PDF). [S.l.: s.n.]

[4] National council on Measurement in Education http://www.ncme.org/ncme/NCME/Resource_Center/Glossary/NCME/Resource_Center/Glossary1.aspx?hkey=4bb87415-44dc-4088-9ed9-e8515326a061#anchorA Arquivado em 2017-07-22 no Wayback Machine

[5] «A contribution to the history of assessment: how a conversation simulator redeems Socratic method». Assessment & Evaluation in Higher Education. 39. doi:10.1080/02602938.2013.798394

[6] Suskie, Linda (2004). Assessing Student Learning. [S.l.: s.n.]

[Black_Box-7] Black, Paul, & William, Dylan (October 1998). "Inside the Black Box: Raising Standards Through Classroom Assessment."Phi Beta Kappan. Available at http://www.pdkmembers.org/members_online/members/orders.asp?action=results&t=A&desc=Inside+the+Black+Box%3A+Raising+Standards+Through+Classroom+Assessment&text=&lname_1=&fname_1=&lname_2=&fname_2=&kw_1=&kw_2=&kw_3=&kw_4=&mn1=&yr1=&mn2=&yr2=&c1= PDKintl.org]. Retrieved January 28, 2009.

[8] «Placement, Formative, Diagnostic, and Summative Evaluation of Classroom Learning»

[ReferenceA-9] «Seven practices for effective learning». Educational Leadership. 63

[10] «Archived copy». Consultado em 29 de janeiro de 2009. Arquivado do original em 8 de fevereiro de 2009

[Stake_in_Scriven-11] Scriven, M. (1991). Evaluation thesaurus. 4th ed. Newbury Park, CA:Sage Publications. ISBN 0-8039-4364-4.

[Earl,_Lorna-12] Earl, Lorna (2003). Assessment as Learning: Using Classroom Assessment to Maximise Student Learning. Thousand Oaks, CA, Corwin Press. ISBN 0-7619-4626-8

[Diagnostic_assessment-13] Reed, Daniel. "Diagnostic Assessment in Language Teaching and Learning." Center for Language Education and Research, available at Google.com Arquivado em 2011-09-14 no Wayback Machine. Retrieved January 28, 2009.

[Joint_Information_Systems_Committee_(JISC)-14] Joint Information Systems Committee (JISC). "What Do We Mean by e-Assessment?" JISC InfoNet. Retrieved January 29, 2009 from http://tools.jiscinfonet.ac.uk/downloads/vle/eassessment-printable.pdf Arquivado em 2017-01-16 no Wayback Machine

[VirginiaTech-15] Educational Technologies at Virginia Tech. "Assessment Purposes." VirginiaTech DesignShop: Lessons in Effective Teaching, available at Edtech.vt.edu Arquivado em 2009-02-26 no Wayback Machine. Retrieved January 29, 2009.

[Valencia,_Sheila_W-16] Valencia, Sheila W. "What Are the Different Forms of Authentic Assessment?" Understanding Authentic Classroom-Based Literacy Assessment (1997), available at Eduplace.com. Retrieved January 29, 2009.

[Yu,_Chong_Ho-17] Yu, Chong Ho (2005). "Reliability and Validity." Educational Assessment. Available at Creative-wisdom.com. Retrieved January 29, 2009.

[Moskal,_Barbara_M.,_&_Leydens,_Jon_A-18] Moskal, Barbara M., & Leydens, Jon A (2000). "Scoring Rubric Development: Validity and Reliability." Practical Assessment, Research & Evaluation, 7(10). Retrieved January 30, 2009.

[19] Joint Committee on Standards for Educational Evaluation. (1988). "The Personnel Evaluation Standards: How to Assess Systems for Evaluating Educators". Newbury Park, CA: Sage Publications.

[20] Joint Committee on Standards for Educational Evaluation. (1994).The Program Evaluation Standards, 2nd Edition. Newbury Park, CA: Sage Publications.

[21] Committee on Standards for Educational Evaluation. (2003). The Student Evaluation Standards: How to Improve Evaluations of Students. Newbury Park, CA: Corwin Press.

[APA-22] American Psychological Association. "Appropriate Use of High-Stakes Testing in Our Nation's Schools." APA Online, available at APA.org, Retrieved January 24, 2010

[23] (nd) Reauthorization of NCLB. Department of Education. Retrieved 1/29/09.

[24] (nd) What's Wrong With Standardized Testing? FairTest.org. Retrieved January 29, 2009.

[25] «Blame the test: LAUSD denies responsibility for low scores». Daily News

[26] «ASD.wednet.edu» ^{[ligação inativa]}

[Bach,_Deborah,_&_Blanchard,_Jessica-27] Bach, Deborah, & Blanchard, Jessica (April 19, 2005). "WASL worries stress kids, schools." Seattle Post-Intelligencer. Retrieved January 30, 2009 from Seattlepi.nwsource.com.

[Fadel,_Charles,_Honey,_Margaret,_&_Pasnik,_Shelley-28] Fadel, Charles, Honey, Margaret, & Pasnik, Shelley (May 18, 2007). "Assessment in the Age of Innovation." Education Week. Retrieved January 29, 2009 from http://www.edweek.org/ew/articles/2007/05/23/38fadel.h26.html

[29] Greenberg, D. (2000). 21st Century Schools, edited transcript of a talk delivered at the April 2000 International Conference on Learning in the 21st Century.

[30] Greenberg, D. (1987). Chapter 20,Evaluation, Free at Last — The Sudbury Valley School.

[31] Graduation Thesis Procedure, Mountain Laurel Sudbury School.

[ehis.ebscohost.com.libdata.lib.ua.edu-32] ttp://ehis.ebscohost.com.libdata.lib.ua.edu/eds/pdfviewer/pdfviewer?sid=221ae7c6-6895-4b02-bc69-759936218fba%40sessionmgr104&vid=12&hid=20^{[ligação inativa]}

[nasponline.org-33] «Archived copy» (PDF) ^{[ligação inativa]}

[34] Card, D., & Giuliano, L. (2015). Can universal screening increase the representation of low income and minority students in gifted education? (Working Paper No. 21519). Cambridge, MA: National Bureau of Economic Research. Retrieved from www.nber.org/papers/w21519

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]