En aprendizaje automático y estadística, la clasificación estadística es el problema de identificar a cuál de un conjunto de categorías (subpoblaciones) pertenece una nueva observación, sobre la base de un conjunto de datos de formación que contiene observaciones (o instancias) cuya categoría de miembros es conocida. Un ejemplo sería asignar a un correo electrónico dado la clasificación de "spam" o "no spam", o asignar un diagnóstico a un paciente dado según las características observadas del paciente (sexo, género, presión arterial, presencia o ausencia de ciertos síntomas, etc.). La clasificación es un ejemplo reconocimiento de patrones.
En la terminología de aprendizaje automático, la clasificación está considerada como un caso de aprendizaje supervisado, es decir, un aprendizaje en el que se dispone de un conjunto de observaciones correctamente identificadas.[1] El procedimiento no supervisado se conoce como clustering, e implica agrupar los datos e categorías basadas en alguna medida de similitud o distancia inherente.
A menudo, las observaciones individuales se analizan en un conjunto de propiedades cuantificables, conocidas como variables explicativas o características. Estas propiedades pueden ser categórica(por ejemplo,"A","B","AB" u "O", para el grupo sanguíneo), ordinales (por ejemplo,"grande","mediano" o "pequeño"), de número entero (por ejemplo, el número de ocurrencias de una palabra en particular en un mensaje de correo electrónico) de número real (por ejemplo, una medición de la presión arterial). Otros clasificadores trabajan comparando observaciones contra observaciones anteriores mediante la función de similitud o de distancia.
Un algoritmo que implementa la clasificación, especialmente en una implementación concreta, se conoce como un clasificador. El término "clasificador" algunas veces refiere a la función matemática, implementada por un algoritmo de clasificación, que asocia los datos de entrada a una categoría.
La terminología a través de los diferentes campos es muy variada. En estadística, cuando la clasificación se hace a menudo con regresión logística o con un procedimiento similar, las propiedades de las observaciones se denominan variables explicativas (o variables independientes, regriones, etc.), y las categorías a predecir se conocen como clases, que se consideran posibles valores de la variable dependiente. En el aprendizaje automático, las observaciones se conocen a menudo como instancias, las variables explicativas se denominan características (agrupadas en un vector de características) y las posibles categorías a predecir son clases. Otros campos pueden utilizar terminologías diferentes: por ejemplo, en ecología de comunidades, el término "clasificación" se refiere normalmente al análisis de grupos, es decir, a un tipo de aprendizaje no supervisado, en lugar del aprendizaje supervisado descrito en este artículo.
Ámbitos de aplicación
La clasificación tiene muchas aplicaciones. En algunos de estos está empleado como procedimiento de minería de datos, mientras que en otros se lleva a cabo un modelado estadístico más detallado.
Véase también
Referencias
Enlaces externos