Análisis formal de conceptos

El análisis formal de conceptos (AFC), también denominado análisis de conceptos formales,[Nota 1]​ en inglés Formal Concept Analysis (FCA), es una teoría matemática y un método para el análisis de datos en cuanto a sus relaciones y estructura. Al aplicarla, la pretensión es que los datos se organicen de manera tal que, sin dejar de responder a la exigencia de rigor de un modelo matemático, se adapten mejor a la forma en que está organizado el pensamiento humano en relación con los conceptos y a su orden. El término en alemán (formale Begriffsanalyse) fue introducido por Rudolf Wille en 1984, quien se basó en la teoría de retículos y en la teoría matemática del orden desarrollada por Garrett Birkhoff y otros en 1930.

Introducción

El análisis formal de conceptos estudia las relaciones existentes en conjuntos de datos y revela las estructuras de los mismos. Los «objetos» (en alemán Gegenstände, G), por ejemplo descritos a través de registros, con base en sus características (en alemán, Merkmale, M), se organizan en grupos que coinciden en cuanto a esas características (contenido de los datos). Tales grupos se vuelven a subdividir con base en otras características. De esto resulta una estructura jerárquica que se puede ilustrar por medio de un diagrama de orden. El objetivo es definir un método basado en las matemáticas que corresponda al pensamiento conceptual del ser humano.

Extensión, intensión y concepto

Cada uno de los grupos de objetos determinados por sus características comunes se define como un Begriffsumfang (extensión del concepto) y el conjunto correspondiente de todas las características comunes como un Begriffsinhalt (intensión). Ambas partes en conjunto, es decir, respectivamente, cada extensión con su correspondiente intensión, conforman un «concepto formal», donde la adenda «formal» indica que se trata de una construcción matemática. Un concepto formal está siempre determinado de manera unívoca tanto por su extensión como por su intensión.

Hiperónimo e hipónimo

Un concepto formal es un hipónimo (concepto subordinado) de un segundo concepto formal cuando su extensión está contenida de manera completa dentro de la extensión del segundo. Por tanto, la intensión del hiperónimo (del concepto con la extensión mayor) está contenida en la intensión del concepto hipónimo.[Nota 2]

Relación con la teoría matemática de retículos

Este tipo de orden de los conceptos formales hipónimo-hiperónimo se manifiesta por regla general como una estructura ordenada en forma de malla con ramificaciones, comúnmente no tiene forma de forma de árbol y ni menos es lineal. Se puede demostrar, sin embargo, que estos órdenes poseen características especiales y bien estudiadas: se trata aquí de los retículos completos.[Nota 3]

De esta manera, un concepto puede tener no solo un único concepto superordinado (hiperónimo). Más bien, la regla es que para cada concepto sean varios sus hiperónimos, también aquellos que no están en relación entre sí a nivel del concepto superordinado. Por ejemplo, el concepto ave rapaz (o cazadora) reúne las características tanto de su concepto hiperónimo, aves, como también las de otro concepto hiperónimo, animales cazadores.

Origen

La teoría en su actual formulación se remonta al grupo de investigación de Darmstadt del círculo de Rudolf Wille, Bernhard Ganter y Peter Burmeister donde surgió a comienzos de los años 1980 el análisis formal de conceptos. Los fundamentos matemáticos, sin embargo, fueron desarrollados en los años 1930 en el contexto de la teoría general de retículos. Antes de los trabajos del grupo de Darmstadt ya existían algunas aproximaciones de distintos grupos franceses. Los escritos de Charles S. Peirce y Hartmut von Hentig también tuvieron influencia en el surgimiento del análisis formal de conceptos.

Áreas de aplicación

El AFC tiene aplicación práctica en varias áreas, tales como la minería de datos y la minería de textos, la Gestión del conocimiento, web semántica, ingeniería de software, economía y biología.

Motivación y trasfondo filosófico

En el artículo Restructuring Lattice Theory (1982), que fundó el análisis formal de conceptos como disciplina, Wille menciona como motivación el malestar con la teoría de retículos y con la matemática pura, en general: la producción de resultados teóricos a menudo alcanzada a través de un "deporte mental altamente competitivo" habría llegado a ser impresionante, pero las relaciones entre campos vecinos e incluso entre las partes de una misma teoría se habrían debilitado.

La reestructuración de la teoría de retículos es un intento de volver a fortalecer los lazos con nuestra cultura general, por la vía de que la teoría se interprete de la manera más concreta posible y a través de esto se incentive una comunicación mejor entre los teóricos de los retículos y los potenciales usuarios
Rudolf Wille, Restructuring lattice theory: An approach based on hierarchies of concepts[1]

Este objetivo hace referencia a Hartmut von Hentig, quien en 1972 propugnaba una reestructuración de las ciencias, «para hacerlas más aprendibles, recíprocamente disponibles y criticables de manera más general (es decir, más allá de la competencia profesional)».[2]​ Con esto, el AFC apunta desde sus orígenes a la interdiciplinaridad y al control democrático de la investigación.[3]

Mientras en la lógica formal un concepto, en su calidad de predicado unario, se reduce a su extensión, el AFC, al considerar su intensión, hace que la teoría de los conceptos sea menos abstracta.[1]​ Con ello el AFC se orienta por las categorías de Extensión e intensión de la lingüística y de la lógica conceptual clásica.

La claridad de conceptos en el sentido de la máxima pragmática de Charles S. Peirce se pretende lograr a través del despliegue de las características elementales observables de los objetos subsumados.[3]​ En su obra filosófica tardía, Pierce partía del supuesto de que el pensamiento lógico tiene como fin la comprensión de la realidad a través de la triada, concepto, juicio y conclusión. La matemática abstrae el pensamiento lógico, desarrolla modelos posibles de realidad y es por eso que puede servir de apoyo a la comunicación racional. Rudolf Wille define en este contexto:

El objetivo y significado del análisis formal de conceptos como teoría matemática sobre conceptos y jerarquías conceptuales consiste en apoyar la comunicación racional de las personas, mediante el desarrollo de estructuras de conceptos matemáticamente apropiadas que puedan activarse lógicamente.[4]

Fundamentos matemáticos

El objetivo principal del análisis formal de conceptos es la representación de retículos completos a través de contextos formales. Además, permite también a la inversa el examen de datos en forma de contextos formales con herramientas de la teoría del orden. En esta sección se discuten las definiciones básicas para ello.

Contextos formales y conceptos formales

Dados dos conjuntos y una relación . Entonces, el trío se denomina contexto formal,[5] conjunto de objetos y su conjunto de características; para un objeto y una característica significa «el objeto tiene la característica “. Frecuentemente se escribe también como en vez de . El conjunto se denomina relación de incidencia del contexto formal.

Si los conjuntos y son finitos, entonces pueden los contextos formales representarse bien como «tablas cruzadas». Tómese en cuenta aquí que objetos y características pueden ordenarse de manera arbitraria en esta representación. Pero ese orden, entonces, no forma parte del contexto formal, sino solo de su representación.

Un contexto formal acerca de las características de los números de 1 a 10.

Sea un conjunto de objetos de un contexto formal , entonces se denota con

el conjunto de las características comunes de los objetos en . Respectivamente, se define para un conjunto de características de el conjunto

de todos los objetos que poseen todas las características de . Los conjuntos y se denominan «derivaciones» (Ableitungen/derivative) de los correspondientes conjuntos y y las funciones, designadas ambas con , se denominan «operadores de derivación» .

Los operadores de derivación cumplen con una serie de propiedades fundamentales. Sean conjuntos de objetos y conjuntos de características, entonces:

  • y dual ,
  • y dual ,
  • y ,
  • .

En realidad, con esto los operadores de derivación definen una conexión de Galois antítona entre los retículos de conjuntos potencia de los conjuntos de objetos y los conjuntos de características. A la inversa, cualquiera de estas conexiones de Galois entre retículos de conjuntos potencia puede representarse como un par de operadores de derivación de un contexto formal.

Para un contexto formal un par se denomina entonces un concepto formal[5]​ de , si se cumple:

  • es un conjunto de objetos de ,
  • es un conjunto de características de ,
  • y
  • .

El conjunto se denomina entonces extensión y el conjunto intensión (contenido) del concepto . El conjunto de todos los conceptos se designa con . Si se representan los contextos formales como tablas cruzadas, se pueden comprender los conceptos formales — existiendo un orden apropiado de los objetos y características — como rectángulos máximos completamente llenos en esa tabla cruzada.

Finalmente, sean , entonces con

se puede definir un orden parcial . Ese orden constituye entonces la estructura en un retículo completo. De hecho, a la inversa, según el teorema principal del análisis formal de conceptos, todo retículo completo es isomorfo respecto de un retículo de conceptos.

Retículo de conceptos para el contexto numérico dado

Los retículos de conceptos pueden representarse como diagramas de orden (diagramas de líneas) y desplegar así los datos en su estructura y sus relaciones. En ellos, todos los objetos tienen características (unidas por los cantos); en el ejemplo que figura al lado es 4 un número par, compuesto, cuadrado.

De manera matemáticamente más precisa se puede fundamentar primeramente la rotulación simplificada de retículos de conceptos. Si se considera para un objeto el conjunto de todos los conceptos que contienen en su extensión, entonces ese conjunto tiene un filtro principal en el retículo de conceptos. Por eso el objeto se registra solo debajo del concepto más pequeño, que contiene en la extensión. Dualmente, se registra la característica encima del concepto más grande que posee una característica dada en la intensión (contenido). En el diagrama de orden, un concepto tiene entonces exactamente un objeto en su extensión cuando se encuentra por encima del concepto que está rotulado con el objeto. Correspondientemente, un concepto tiene, en el diagrama de orden, una característica en su intensión (contenido) cuando está por debajo del concepto que está rotulado con esa característica.

Teorema principal del análisis formal de conceptos

Sea un contexto formal y su retículo de conceptos. Se pueden considerar para objetos y características los conceptos

Se denomina al concepto de objeto de y al concepto de característica de . Además rige

Sea, por último, un retículo completo, entonces entonces es isomorfo respecto de , precisamente cuando existen aplicaciones tales que rige

En particular, es isomorfo respecto de .

Teoría de las implicaciones de los contextos formales

Para un contexto formal se puede estudiar su teoría de las implicaciones. Aquí una implicación de es simplemente un par con , lo suele denotarse como . Se dice que rige en , si todo objeto que posee todas las características de , también posee todas las características de , es decir, si también rige . Esta condición es equivalente a que rija .

Sea un conjunto de implicaciones de y sea , entonces se designa con el conjunto más pequeño que contiene y que sea un conjunto cerrado bajo . Aquí se entiende que un conjunto es cerrado bajo , si para todas las implicaciones siempre rige o , es decir, cuando implica siempre . Se observa entonces que la aplicación es un operador de cierre sobre el conjunto potencia .

Sea una implicación de , entonces se sigue de , si rige . Esto es equivalente a decir que en todo contexto formal en el que rigen todas las implicaciones de , también rige siempre la implicación de .

Entonces, una base para es un conjunto de implicaciones válidas de , tales que toda implicación (semánticamente) válida de ya se sigue de, a través de la aplicación de reglas de inferencia sintácticamente apropiadas tales como las reglas de Armstrong.[6]​ El conjunto, cerrado en este nuevo sentido, de todas las implicaciones de es una teoría, puesto que se puede satisfacer además, según su construcción, por ejemplo respecto del contexto subyacente.

La base se denomina irredundante, si acaso es -mínima con esa característica. Un ejemplo de base irredundante es la base canónica (véase también exploración de características), que además tiene la propiedad de ser también mínima en relación con el tamaño de la base.

Aquí rige que un conjunto de implicaciones es base de un contexto exactamente cuando el conjunto de los conjuntos cerrados bajo es también exactamente el de los contenidos (intensiones) de .

Exploración de características

Es posible representar con ayuda de un contexto formal la teoría de implicaciones de un área temática determinada. En particular, esto significa que uno puede hacerlo con ayuda de un conjunto suficiente de ejemplos que se transformen en los objetos del contexto formal. En teoría, un conjunto tal de ejemplos podría ser aportado por un experto humano o también por una máquina.

Aquí surge, sin embargo, el problema de que ni está garantizado de partida que esté dado una conjunto suficiente de ejemplos, ni que no sean redundantes algunos de los ejemplos generados, debido a que los ejemplos ya dados alcancen. Considerando que la generación de buenos ejemplos resulta difícil, las entrevistas a expertos o hasta la realización de nuevos experimentos son iniciativas caras, al tiempo que la investigación bibliográfica o de algoritmos puede ser costosa, se trata de un problema serio.

Aquí puede ser útil el algoritmo de la exploración de características. A partir de un conjunto previamente conocido de implicaciones y un conjunto ya conocido de ejemplos de esa área temática, el algoritmo propone implicaciones que luego pueden ser aceptadas o rechazadas por un experto (humano o no). Aquí una implicación debe ser aceptada exactamente cuando ella es válida en dicha área temática. Si una implicación se rechaza, el experto tiene que crear un contraejemplo que luego puede ser aceptado o rechazado por un experto (humano o no). A través de un contraejemplo aceptado, la implicación se refuta y con ello genera un conjunto lo más pequeño posible de implicaciones aceptadas que finalmente describe completamente el área temática. Más allá de ello, también se completa el conjunto de los ejemplos.

Experiencias de aplicación de los conceptos formales

El análisis formal de conceptos se puede aplicar como método cualitativo para el análisis de datos. Desde los comienzos del AFC en los años 1980 el grupo de investigación de la Universidad Técnica de Darmstadt ha recopilado experiencias de más de 200 proyectos (cifra de 2005), en los que se utilizó el AFC.[7]​ Entre ellos, de las áreas: medicina y biología celular,[8][9]genética,[10][11]ecología,[12]ingeniería de software,[13]ontología (informática),[14]gestión de la información y biblioteconomía,[15][16][17]ofimática,[18]derecho,[19][20]lingüística,[21]ciencias políticas[22]

Muchos otros ejemplos de aplicaciones se describen por ejemplo en: Formal Concept Analysis. Foundations and Applications,[7]​ en los tomos de informes de las conferencias científicas que se celebran regularmente, como por ejemplo: International Conference on Formal Concept Analysis (ICFCA),[23]Concept Lattices and their Applications (CLA)[24]​ o International Conference on Conceptual Structures (ICCS)[25]

Notas

  1. Cualquiera sea la denominación en español que se utilice, lo relevante es comprender que el calificativo «formal» en la expresión alemana formale Begriffsanalyse se refiere tanto a los conceptos como al análisis.
  2. Un hipónimo es el resultado de que un determinado concepto formal se especifique más a través de características adicionales. De eso resulta además que los objetos contenidos en el concepto hipónimo son un subconjunto de los objetos contenidos en el concepto hiperónimo. Esto conduce a la formulación matemática de que la extensión del hipónimo está contenida en la extensión del hiperónimo, dado que la extensión es el conjunto de sus objetos. Además rige que cuando el hipónimo está conformado a través de características adicionales del hiperónimo, entonces, a la inversa, las características del hiperónimo son un subconjunto de las características del hipónimo. Puesto que la intensión de un concepto formal designa el conjunto de sus características, la intensión del hiperónimo está contenida en la intensión del hipónimo.
  3. Lo que en inglés se denomina complete lattices y en alemán vollständige Verbände.

Referencias

  1. a b Wille, Rudolf (2009). Restructuring lattice theory: An approach based on hierarchies of concepts (en inglés). Reimpresión en: ICFCA '09: Proceedings of the 7th International Conference on Formal Concept Analysis, Berlin, Heidelberg. p. 314. Consultado el 10 de abril de 2016. 
  2. von Hentig, Harmut (1972). Magier oder Magister? Über die Einheit der Wissenschaft im Verständigungsprozeß. citado en Karl Erich Wolff: Ordnung, Wille und Begriff (documento en formato MS Word; 2,0 MB), Ernst Schröder Zentrum für Begriffliche Wissensverarbeitung, Darmstadt 2003. Fráncfort del Meno (1974): Klett 1972 / Suhrkamp 1974. ISBN 978-3518067079. 
  3. a b Wollbold, Johannes. Digitale Bibliothek Thüringen, ed. «Attribute Exploration of Gene Regulatory Processes» (PDF; 4,6 MB) (en inglés). Doktorarbeit, Universität Jena 2011. p. 9. Consultado el 14 de noviembre de 2015. 
  4. Wille, Rudolf (2005). Formal Concept Analysis as Mathematical Theory of Concepts and Concept Hierarchies. En: B. Ganter et al.:Formal Concept Analysis. Foundations and Applications. pp. 1f. 
  5. a b Ganter, Bernhard; Wille, Rudolf (1996). «Begriffsverbände von Kontexten». Formale Begriffsanalyse. Mathematische Grundlagen (Heidelberg: Springer). ISBN 978-3-642-61450-7. 
  6. Armstrong, W.W. (1974). «Dependency structures of data base relationships». International Federation for Information Processing IFIP Congress (Ginebra): 580-583. 
  7. a b Ganter, Bernhard; Stumme, Gerd; Wille, Rudolf (2005). Formal Concept Analysis. Foundations and Applications. Berlin Heidelberg: Springer Science & Business Media. ISBN 978-354027891-7. doi:10.1007/978-3-540-31881-1. Consultado el 14 de noviembre de 2015. 
  8. Motameny, Susanne; Versmold, Beatrix; Schmutzler, Rita (2008). «Formal Concept Analysis for the Identification of Combinatorial Biomarkers in Breast Cancer». En Raoul Medina, Sergei Obiedkov, ed. ICFCA 2008. LNAI (Berlin Heidelberg: Springer) 4933: 229-240. ISBN 978-3-540-78136-3. Consultado el 29 de enero de 2016. 
  9. Endres, Dominik; Adam, Ruth; Giese, Martin A.; Noppeney, Uta (2012). «Understanding the Semantic Structure of Human fMRI Brain Recordings with Formal Concept Analysis». En Florent Domenach, Dmitry I. Ignatov, Jonas Poelmans, ed. ICFCA 2012. LNCS (Berlin Heidelberg: Springer) 7278: 96-111. ISBN 978-3-642-29891-2. ISSN 0302-9743. doi:10.1007/978-3-642-29892-9. Consultado el 2 de febrero de 2016. 
  10. Ponomaryov, Denis; Omelianchuk, Nadezhda; Mironova, Victoria; Zalevsky, Eugene; Podkolodny, Nikolay; Mjolsness, Eric; Kolchanov, Nikolay (2011). «From Published Expression and Phenotype Data to Structured Knowledge: The Arabidopsis Gene Net Supplementary Database and Its Applications». En Karl Erich Wolff, Dmitry E. Palchunov, Nikolay G. Zagoruiko, Urs Andelfinger, ed. KONT 2007, KPP 2007. LNCS (Heidelberg New York: Springer) 6581: 101-120. ISBN 978-3-642-22139-2. ISSN 0302-9743. doi:10.1007/978-3-642-22140-8. Consultado el 31 de enero de 2016. 
  11. Kaytoue, Mehdi; Kuznetsov, Sergei; Napoli, Amedeo; Duplessis, Sébastien (2011). «Mining gene expression data with pattern structures in formal concept analysis». Information Sciences (Elsevier) 181 (10): 1989-2001. doi:10.1016/j.ins.2010.07.007. Consultado el 13 de febrero de 2016. 
  12. Bertaux, Aurélie; Le Ber, Florence; Braud, Agnès; Trémolières, Michèle (2009). «Identifying Ecological Traits: A Concrete FCA-Based Approach». En Sébastien Ferré, Sebastian Rudolph, ed. ICFCA 2009. LNAI (Berlín Heidelberg: Springer-Verlag) 5548: 224-236. ISBN 978-3-642-01814-5. doi:10.1007/978-3-642-01815-2. Consultado el 3 de febrero de 2016. 
  13. Snelting, Gregor; Tip, Frank (1998). «Reengineering class hierarchies using concept analysis». Proceeding. SIGSOFT '98/FSE-6 (New York: ACM) 23 (6): 99-110. ISBN 1-58113-108-9. doi:10.1145/291252.288273. Consultado el 4 de febrero de 2016. 
  14. Stumme, Gerd; Maedche, Alexander (2001). «FCA-Merge: Bottom-up merging of ontologies». En Universität Leipzig, ed. IJCAI (Leipzig): 225-230. Archivado desde el original el 13 de febrero de 2016. Consultado el 13 de febrero de 2016. 
  15. Priss, Uta (2006). «Formal Concept Analysis in Information Science». En American Documentation Institute, ed. Annual Review of Information Science and Technology (Medford, NJ 09855: Information Today Inc.) 40 (1): 521-543. ISSN 0066-4200. doi:10.1002/aris.1440400120. Consultado el 4 de febrero de 2016. 
  16. Illig, Jens; Hotho, Andreas; Jäschke, Robert; Stumme, Gerd (2011). «A Comparison of Content-Based Tag Recommendations in Folksonomy Systems». En Karl Erich Wolff, Dmitry E. Palchunov, Nikolay G. Zagoruiko, Urs Andelfinger, ed. KONT 2007, KPP 2007. LNCS (Heidelberg New York: Springer) 6581: 136-149. ISBN 978-3-642-22139-2. ISSN 0302-9743. doi:10.1007/978-3-642-22140-8. Consultado el 31 de enero de 2016. 
  17. Claudio Carpineto, Giovanni Romano, ed. (2004). Concept Data Analysis: Theory and Applications. John Wiley & Sons. ISBN 978-0-470-85055-8. Consultado el 4 de febrero de 2016. 
  18. Cole, Richard; Stumme, Gerd (2000). «CEM – A Conceptual Email Manager». En Bernhard Ganter, Guy W. Mineau, ed. Conceptual Structures: Logical, Linguistic, and Computational Issues. LNAI (Berlin Heidelberg: Springer-Verlag): 438-452. ISBN 978-3-540-67859-5. doi:10.1007/10722280. Consultado el 3 de marzo de 2016. 
  19. Eschenfelder, Dieter; Kollewe, Wolfgang; Skorsky, Martin; Wille, Rudolf (2000). «Ein Erkundungssystem zum Baurecht: Methoden der Entwicklung eines TOSCANA-Systems». En Gerd Stumme, Rudolf Wille, ed. Begriffliche Wissensverarbeitung – Methoden und Anwendungen (Berlin Heidelberg: Springer): 254-272. ISBN 978-3-540-66391-1. doi:10.1007/978-3-642-57217-3_12. Consultado el 13 de febrero de 2016-02-13. 
  20. Mimouni, Nada; Nazarenko, Adeline; Salotti, Sylvie (2015). «A Conceptual Approach for Relational IR: Application to Legal Collections». En Jaume Baixeries, Christian Sacarea, Manuel Ojeda-Aciego, ed. ICFCA 2015. LNAI (Heidelberg Nueva York: Springer) 9113: 303-318. ISBN 978-3-319-19544-5. ISSN 0302-9743. Consultado el 31 de enero de 2016. 
  21. Priss, Uta (2005). «Linguistic Applications of Formal Concept Analysis». En Bernhard Ganter, Gerd Stumme, Rudolf Wille, ed. Formal Concept Analysis – Foundations and Applications. LNCS (Berlin Heidelberg: Springer) 3626: 149-160. ISBN 978-3-540-27891-7. ISSN 0302-9743. doi:10.1007/978-3-540-31881-1. Consultado el 2 de febrero de 2016. 
  22. Kohler-Koch, Beate; Vogt, Frank (2000). «Normen- und Regelgeleitete internationale Kooperationen». En Gerhard Stumme, Rudolf Wille, ed. "citado según: Peter Becker et al. The ToscanaJ Suite for Implementing Conceptual Information Systems". Begriffliche Wissenverarbeitung – Methoden und Anwendungen (Berlín, Heidelberg, Nueva York: Springer): 325-340. ISBN 978-3540663911. 
  23. Digital Bibliography & Library Project (ed.). «International Conference on Formal Concept Analysis» (en inglés). Consultado el 14 de febrero de 2016. 
  24. CLA (ed.). «CLA: Concept Lattices and Their Applications» (en inglés). Conference Homepage con artículos de acceso abierto de todas las conferencias desde 2004. Consultado el 14 de noviembre de 2014. 
  25. New Mexico State University (ed.). «International Conferences On Conceptual Structures – Conferences and Workshops» (en inglés). Consultado el 14 de febrero de 2016. 

Bibliografía

Enlaces externos