La regressió no paramètrica és una categoria d'anàlisi de regressió en la qual el predictor no pren una forma predeterminada sinó que es construeix d'acord amb la informació derivada de les dades. És a dir, no s'assumeix cap forma paramètrica per a la relació entre predictors i variable dependent. La regressió no paramètrica requereix mides de mostra més grans que la regressió basada en models paramètrics perquè les dades han de proporcionar l'estructura del model així com les estimacions del model.[1]
Definició
En regressió no paramètrica, tenim variables aleatòries i i assumim la següent relació: [2]
on és una funció determinista. La regressió lineal és un cas restringit de regressió no paramètrica on se suposa que és afí. Alguns autors utilitzen una hipòtesi lleugerament més forta del soroll additiu:
on la variable aleatòria és el "terme de soroll", amb una mitjana 0. Sense suposar que pertany a una família paramètrica específica de funcions per a la qual és impossible obtenir una estimació imparcial , però la majoria dels estimadors són consistents en condicions adequades.[3]
Llista d'algorismes de regressió no paramètrics de propòsit genera
Aquesta és una llista no exhaustiva de models no paramètrics per a la regressió.[4]
En la regressió del procés gaussià, també coneguda com Kriging, s'assumeix un a priori gaussià per a la corba de regressió. S'assumeix que els errors tenen una distribució normal multivariant i la corba de regressió s'estima pel seu mode posterior. L'a priori gaussià pot dependre d'hiperparàmetres desconeguts, que normalment s'estimen mitjançant Bayes empíric. Els hiperparàmetres normalment especifiquen un nucli de covariància anterior. En cas que el nucli també s'hagi de deduir de manera no paramètrica a partir de les dades, es pot utilitzar el filtre crític.
Les splines de suavització tenen una interpretació com el mode posterior d'un procés de regressió gaussià.
Regressió del nucli
La regressió del nucli estima la variable dependent contínua a partir d'un conjunt limitat de punts de dades combinant les ubicacions dels punts de dades amb una funció del nucli; aproximadament parlant, la funció del nucli especifica com "desenfocar" la influència dels punts de dades perquè els seus valors es puguin s'utilitza per predir el valor d'ubicacions properes.