Biplots são um tipo de gráfico exploratório usado em estatística, uma generalização do gráfico de dispersão de duas variáveis. Um biplot permite que a informação em ambas as amostras e variáveis da matriz de dados seja exibida graficamente. As amostras são apresentadas como pontos, enquanto as variáveis são apresentadas como vetores, eixos lineares ou trajetórias não-lineares. No caso de variáveis categóricas, com pontos de nível de categoria podem ser usados para representar os níveis de uma variável categórica. Um biplot generalizado exibe informações sobre variáveis contínuas e variáveis categóricas.
O biplot foi introduzido por K. Ruben Gabriel (1971).[1] Gower e Hand (1996) escreveram uma monografia sobre biplots. Yan e Kang (2003) descreveram vários métodos que podem ser utilizados para visualizar e interpretar um biplot. O livro de Greenacre[2] (2010) é praticamente um guia de usuário para biplots, juntamente com scripts de código aberto em linguagem de programação R, para gerar biplots associados com a análise de componentes principais (ACP), escalonamento multidimensional, análise de log-ratio - também conhecida como mapeamento espectral[3][4], análise discriminante (AD) e várias formas de análise de correspondência: análise simples de correspondência (AC), análise de correspondência múltipla (ACM) e a análise de correspondência canônica (ACC). O livro de Gower, Lubbe e le Roux (2011) tem como objetivo popularizar biplots como um útil e confiável método para a visualização de dados multivariados quando os pesquisadores querem considerar, por exemplo, análise de componentes principais (ACP), análise de variáveis canônicas (AVC) ou diversos tipos de análise de correspondência.
Um biplot é construído usando a decomposição em valores singulares (DVS) para obter uma aproximação de baixa classificação para uma versão transformada da matriz de dados X, cujas n linhas são as amostras (também chamadas de casos, ou objetos), e cujas p colunas são as variáveis. A matriz Y de dados transformados é obtida a partir da matriz original X centralização-se e, opcionalmente padronizando as colunas (as variáveis). Usando a DVS, podemos escrever Y = ∑k=1,...pdkukvkT; onde uk e vk são vetores-coluna n-dimensionais, e o dk é uma sequência não-crescente de escalares não-negativos. O biplot é formado a partir de dois gráficos de dispersão que compartilham um conjunto comum de eixos e têm um produto escalar. O primeiro gráfico de dispersão é formado a partir dos pontos (d1αu1i, d2αu2i), para i = 1, ..., n. O segundo é formado a partir dos pontos (d11−αv1j, d21−αv2j), para j = 1, ..., p. Este é o biplot formado pelos dois termos dominantes da DVS, que podem ser representados em um formato bidimensional. Escolhas típicas de α são 1 (para dar uma distância de interpretação para a exibição da linha) e 0 (para dar uma distância de interpretação para a exibição da coluna), e em alguns casos raros, α=1/2 para obter um biplot com escala simétrica (que não dá a distância de interpretação para as linhas ou as colunas, mas apenas a interpretação do produto escalar). O conjunto de pontos representando as variáveis pode ser desenhado como setas da origem para reforçar a ideia de que eles representam os eixos biplot nos quais as amostras podem ser projetadas para aproximar os dados originais.