Regressió segmentada o regressió per trossos és un mètode en l'anàlisi de regressió en què la variable independent és particionada a intervals ajustant en cada interval una línia o corba a les dades. La regressió segmentada es pot aplicar també a la regressió amb múltiples variables independents particionant totes aquestes.
La regressió segmentada útil quan el variable dependent mostra una reacció abruptament diferent de la variable independent en els diversos segments. En aquest cas el límit entre els segments s'anomena punt de fallida .
Regressió segmentada lineal és la regressió segmentada en què la relació entre el variable dependent i independent dins dels segments s'obté per regressió lineal.
Regressió segmentada lineal en dos segments separats per un punt de fallida pot ser útil per quantificar un canvi abrupte en la funció de reacció d'un factor d'interès a la variació d'un altre factor influencial. El punt de fallida s'interpreta com un valor assegurança , crític o llindar quan efectes (no) desitjats succeeixen a un dels dos costats.
El punt de fallida pot ser un factor important per a la presa de decisions de maneig.[1]
L'anàlisi de la regressió segmentada es basa en la presència d'un joc de dades ( i, x ), on i és el variable dependent i x l'variable independent, és a dir que el valor de x influeix el valor de i .
El mètode dels mínims quadrats aplicat separadament a cada segment, per la qual cosa les dues línies de regressió s'ajusten a les dades tan a prop com sigui possible minimitzant la suma dels quadrats de les diferències (SCD) entre el valor observat ( i ) i valor calculat per regressió ( Yr ) de la variable dependent, és a les equacions següents:
on:
Les dades poden mostrar diferents tipus de tendència,[2] vegeu les figures.
El mètode també rendeix dos coeficients de correlació:
on
Quan no es detecta un punt de fallida, cal tornar a una regressió sense punt de fallida.
Per a la figura blau amunt, que dona la relació entre la collita de mostassa (colza) en t/ha i la salinitat del sòl ( x = Ss ) expressada en conductivitat elèctrica (EC a d S/m) de la solució del sòl,[3] es desprèn que:
indicant que una salinitat del sòl <4.93 dS/m és segura i una salinitat del sòl> 4.93 redueix la cosecha0.129 tona/ha per unitat d'augment de salinitat de sòl.
La figura també mostra intervals de confiança i inseguretat.
Les següents proves estadístiques s'empren per determinar el tipus de tendència:
Addicionalment es fa servir de coeficient de correlació de totes les dades ( Ra ), l' coeficient de determinació (o coeficient d'explicació ), intervals de confiança de les funcions (línies) de regressió, i una anàlisi de la variància (ANOVA).[4]
El coeficient de determinació de totes les dades ( Cd ), la qual cosa s'ha de maximitzar sota les condicions especificats a dalt en proves estadístiques , es defineixi com:
on Yr és el valor esperat (pronosticat) de i d'acord amb les equacions de regressió prèvies, i Ya és la mitjana de tots els valors i .
El coeficient Cd pot variar entre 0 (cap explicació de la regressió segmentada) i 1 (perfecta explicació).
En una regressió lineal pura, sense segmentació, els valors de Cd i Ra 2 són iguals. A la regressió segmentada, Cd ha de ser significativament més gran que Ra 2 per justificar la segmentació.
L'optimització del punt de fallida PQ s'arriba provant una sèrie de punts temptatives i seleccionant el punt que té el coeficient Cd màxim.