En estadística, el analís de componentes principales (n'español ACP, n'inglés, PCA) ye una téunica utilizada pa describir un set de datos en términos de nueves variables ("componentes") non correlacionadas. Los componentes ordenar pola cantidá de varianza orixinal que describen, polo que la téunica ye útil p'amenorgar la dimensionalidad d'un conxuntu de datos.
Téunicamente, el ACP busca la proyeición según la cual los datos queden meyor representaos en términos de mínimos cuadraos. Esta convierte un conxuntu d'observaciones de variables posiblemente correlacionadas nun conxuntu de valores de variables ensin correllación llinial llamaes componentes principales.
Tien De estremase del analís factorial col que tien similaridades formales y nel cual puede ser utilizáu como un métodu de aproximamientu pa la estracción de factores.
Enconto
El ACP constrúi un tresformamientu llinial qu'escueye un nuevu sistema de coordenaes pal conxuntu orixinal de datos nel cual la varianza de mayor tamañu del conxuntu de datos ye prindada na primer exa (llamáu'l Primer Componente Principal), la segunda varianza más grande ye la segunda exa, y asina socesivamente. Pa construyir esti tresformamientu llinial tien de construyise primero la matriz de covarianza o matriz de coeficientes de correllación. Por cuenta de la simetría d'esta matriz esiste una base completa de vectores propios de la mesma. El tresformamientu que lleva de les antigües coordenaes a les coordenaes de la nueva base ye precisamente'l tresformamientu llinial necesaria p'amenorgar la dimensionalidad de datos. Amás les coordenaes na nueva base dan la composición en factores subxacentes de los datos iniciales.
El ACP ye particularmente preséu p'amenorgar la dimensionalidad d'un grupu de datos. Los primeros componentes principales describen la mayor parte de la varianza de los datos (más cuanto más correlacionadas tuvieren les variables orixinales). Estos componentes de baxu orde dacuando contienen l'aspeutu "más importante" de la información, y los demás componentes pueden inorase. Esisten distintes téuniques pa envalorar el númberu de componentes principales que son relevantes; la téunica más apropiada va depender de la estructura de correllaciones nos datos orixinales.[1]
Matemátiques del ACP
Supongamos qu'esiste una muestra con n individuos pa cada unu de los cualos midiéronse m variables (aleatories) El ACP dexa atopar un númberu de factores subxacentes p < m qu'espliquen aproximao'l valor de les m variables pa cada individuu. El fechu de qu'esistan estos p factores subxacentes puede interpretase como un amenorgamientu de la dimensionalidad de los datos: onde antes necesitabamos m valores pa carauterizar a cada individuu agora bastar p valores. Cada unu de los p atopaos llámase componente principal, d'ende'l nome del métodu.
Esisten dos formes básiques d'aplicar el ACP:
Métodu basáu na matriz de correllación, cuando los datos nun son dimensionalmente homoxéneos o l'orde de magnitú de les variables aleatories midíes nun ye'l mesmu.
Métodu basáu na matriz de covarianzas, que s'usa cuando los datos son dimensionalmente homoxéneos y presenten valores medios similares.
Métodu basáu en correllaciones
El métodu parte de la matriz de correllaciones, consideremos el valor de caúna de les m variables aleatories . Pa cada unu de los n individuos tomemos el valor d'estes variables y escribamos el conxuntu de datos en forma de matriz:
.
Reparar que cada conxuntu :
puede considerase una muestra aleatoria pa la variable . A partir de los datos correspondientes a les m variables aleatories, puede construyise la matriz de correllación muestral, que vien definida por:
Por cuenta de la propiedá anterior estos m valores propios reciben el nome de pesos de cada unu de los m componentes principales. Los factores principales identificaos matemáticamente representar pola base de vectores propios de la matriz . Ta claro que caúna de les variables puede ser espresada como combinación llinial de los vectores propios o componentes principales.
Métodu basáu nes covarianzas
L'oxetivu ye tresformar un conxuntu dau de datos X de dimensión n x m a otru conxuntu de datos Y de menor dimensión n x l cola menor perdida d'información útil posible utilizando pa ello la matriz de covarianza.
Partir d'un conxuntu n de muestres caúna de les cuales tien m variables que les describen y l'oxetivu ye que, caúna d'eses muestres, describir con solu I variables, onde l < m. Amás, el númberu de componentes principales l tien que ser inferior a la menor de les dimensiones de X.
Los datos pal analís tienen que tar centraos a media 0 (restándo-yos la media de cada columna) y/o autoescalados(centraos a media 0 y estremando cada columna pola so esviación estándar).
Los vectores son conocíos como scores y contienen la información de cómo les muestres tán rellacionaes unes con otres amás, tienen la propiedá de ser ortogonales. Los vectores llámense loadings ya informen de la rellación esistente ente les variables y tienen la cualidá de ser ortonormales.
Al coyer menos componentes principales que variables y debíu al error d'axuste del modelu colos datos, produzse un error que s'atropa na matriz .
El PCA basar na descomposición en vectores propios de la matriz de covarianza. La cual calcúlase cola siguiente ecuación:
Onde ye'l valor propiu acomuñáu al vector propiu . A lo último,
Esta ecuación poder entender como que son les proyeiciones de X en , onde los valores propios miden la cantidá de varianza prindada, esto ye, la información que representen cada unu de los componentes principales. La cantidá d'información que prinda cada componente principal va menguando según el so númberu esto ye, el componente principal númberu unu representa más información que'l dos y asina socesivamente.
Llimitaciones
L'aplicación del ACP ta llindada por dellos supuestos[2]
Camientu de linealidad: Asumir que los datos reparaos son combinación llinial d'una cierta base.
Importancia estadística de la media y la covarianza: el ACP utiliza los vectores propios de la matriz de covarianzas y namái atopa les direiciones d'exes nel espaciu de variables considerando que los datos distribuyir de manera gaussiana.
Exemplos
Un set de datos puede describir l'altor y el pesu de 100 neños ente 2 y 15 años. Dambes variables tán, obviamente, correlacionadas (los neños de más edá son más altos y pesen más). L'analís de componentes principales describe los datos en términos de dos nueves variables. El primer componente puede interpretase como "tamañu" o "edá" y recueye la mayor parte de la varianza de los datos orixinales. El segundu componente describe variabilidá nos datos que nun ta correlacionada n'absolutu col primer componente principal "tamañu", y (probablemente) seya malo d'interpretar. Si l'oxetivu ye amenorgar la dimensionalidad de los datos, puede refugase esti segundu componente principal. Lo mesmo aplica si'l set de datos contién un númberu mayor de variables que pueden interpretase como midíes averaes de "tamañu". Por casu, llargor del fémur, llargor de los brazos, pesu, altor, etc. Un set de datos d'esti tipu podría describise xeneralmente con un únicu componente principal que podría interpretase como "tamañu" o "edá".
Un analís consideró les calificaciones escolares n = 15 estudiantes en m = materies (llingua, matemátiques, física, inglés, filosofía, historia, química, ximnasia). Los dos primeros componentes principales esplicaben xuntos el 82,1% de la varianza. El primer d'ellos paecía fuertemente correlacionado coles materies d'humanidaes (llingua, inglés, filosofía, historia) ente que'l segundu apaecía rellacionáu coles materies de ciencies (matemátiques, física, química). Asina paez qu'esiste un conxuntu d'habilidaes cognitives rellacionaes coles humanidaes y un segundu rellacionáu coles ciencies, estos dos conxuntos d'habilidaes son estadísticamente independientes polo qu'un alumnu puede puntuar alto en namái unu d'ellos, nos dos o en nengunu.[3]
Un analís de 11 indicadores socieconómicos de 96 países, reveló que los resultaos podíen esplicase n'alto grau a partir de namái dos componentes principales, el primeru d'ellos tenía que ver col nivel de PIB total del país y el segundu col índiz de ruralidad.[4]