Biplot

Análise discriminante biplot dos lírios de Fisher

Biplots são um tipo de gráfico exploratório usado em estatística, uma generalização do gráfico de dispersão de duas variáveis. Um biplot permite que a informação em ambas as amostras e variáveis da matriz de dados seja exibida graficamente. As amostras são apresentadas como pontos, enquanto as variáveis são apresentadas como vetores, eixos lineares ou trajetórias não-lineares. No caso de variáveis categóricas, com pontos de nível de categoria podem ser usados para representar os níveis de uma variável categórica. Um biplot generalizado exibe informações sobre variáveis contínuas e variáveis categóricas.

Introdução e história

O biplot foi introduzido por K. Ruben Gabriel (1971).^[1] Gower e Hand (1996) escreveram uma monografia sobre biplots. Yan e Kang (2003) descreveram vários métodos que podem ser utilizados para visualizar e interpretar um biplot. O livro de Greenacre^[2] (2010) é praticamente um guia de usuário para biplots, juntamente com scripts de código aberto em linguagem de programação R, para gerar biplots associados com a análise de componentes principais (ACP), escalonamento multidimensional, análise de log-ratio - também conhecida como mapeamento espectral,^[3]^[4] análise discriminante (AD) e várias formas de análise de correspondência: análise simples de correspondência (AC), análise de correspondência múltipla (ACM) e a análise de correspondência canônica (ACC). O livro de Gower, Lubbe e le Roux (2011) tem como objetivo popularizar biplots como um útil e confiável método para a visualização de dados multivariados quando os pesquisadores querem considerar, por exemplo, análise de componentes principais (ACP), análise de variáveis canônicas (AVC) ou diversos tipos de análise de correspondência.

Construção

Um biplot é construído usando a decomposição em valores singulares (DVS) para obter uma aproximação de baixa classificação para uma versão transformada da matriz de dados X, cujas n linhas são as amostras (também chamadas de casos, ou objetos), e cujas p colunas são as variáveis. A matriz Y de dados transformados é obtida a partir da matriz original X centralização-se e, opcionalmente padronizando as colunas (as variáveis). Usando a DVS, podemos escrever Y = ∑_k=1,...pd_ku_kv_k^T; onde u_k e v_k são vetores-coluna n-dimensionais, e o d_k é uma sequência não-crescente de escalares não-negativos. O biplot é formado a partir de dois gráficos de dispersão que compartilham um conjunto comum de eixos e têm um produto escalar. O primeiro gráfico de dispersão é formado a partir dos pontos (d₁^αu_1i, d₂^αu_2i), para i = 1, ..., n. O segundo é formado a partir dos pontos (d₁^1−αv_1j, d₂^1−αv_2j), para j = 1, ..., p. Este é o biplot formado pelos dois termos dominantes da DVS, que podem ser representados em um formato bidimensional. Escolhas típicas de α são 1 (para dar uma distância de interpretação para a exibição da linha) e 0 (para dar uma distância de interpretação para a exibição da coluna), e em alguns casos raros, α=1/2 para obter um biplot com escala simétrica (que não dá a distância de interpretação para as linhas ou as colunas, mas apenas a interpretação do produto escalar). O conjunto de pontos representando as variáveis pode ser desenhado como setas da origem para reforçar a ideia de que eles representam os eixos biplot nos quais as amostras podem ser projetadas para aproximar os dados originais.

Referências

↑ * Gabriel, K.R. (1971). «The biplot graphic display of matrices with application to principal component analysis». Biometrika. 58 (3): 453–467. doi:10.1093/biomet/58.3.453
↑ Greenace, M. (2010). Biplots in Practice. Madrid, Espanha: [s.n.] ISBN 978-84-923846-8-6
↑ Lewi, Paul J. (2005). «Spectral mapping, a personal and historical account of an adventure in multivariate data analysis». Chemometrics and Intelligent Laboratory Systems. Chemometrics and Intelligent Laboratory Systems. 77 (1-2): 215–223. doi:10.1016/j.chemolab.2004.07.010
↑ Livingstone, David (2009). A Practical Guide to Scientific Data Analysis. Chichester: John Wiley & Sons Ltd. pp. 233–238. ISBN 978-0-470-85153-1

Bibliografia

Gower, J.C.; Lubbe, S.; le Roux, N. (2010). Understanding Biplots. [S.l.]: John Wiley & Sons. ISBN 978-0-470-01255-0
Gower, J.C.; Hand, D.J. (1996). Biplots. Londres, UK: Chapman & Hall. ISBN 0-412-71630-5
Yan, W.; Kang, M.S. GGE Biplot Analysis. Boca Raton, Flórida-EUA: CRC Press. ISBN 0-8493-1338-4
Demey, J.R.; Vicente-Villardón, J.L.; Galindo-Villardón, M.P.; Zambrano, A.Y. (2008). Identifying molecular markers associated with classification of genotypes by External Logistic Biplots. [S.l.]: Bioinformatics

[1] * Gabriel, K.R. (1971). «The biplot graphic display of matrices with application to principal component analysis». Biometrika. 58 (3): 453–467. doi:10.1093/biomet/58.3.453

[2] Greenace, M. (2010). Biplots in Practice. Madrid, Espanha: [s.n.] ISBN 978-84-923846-8-6

[3] Lewi, Paul J. (2005). «Spectral mapping, a personal and historical account of an adventure in multivariate data analysis». Chemometrics and Intelligent Laboratory Systems. Chemometrics and Intelligent Laboratory Systems. 77 (1-2): 215–223. doi:10.1016/j.chemolab.2004.07.010

[4] Livingstone, David (2009). A Practical Guide to Scientific Data Analysis. Chichester: John Wiley & Sons Ltd. pp. 233–238. ISBN 978-0-470-85153-1

[1]

[2]

[3]

[4]