DataMelt [1][2] es un marco de trabajo gratuito de análisis de datos para científicos, ingenieros y estudiantes escrito en Java.
El programa está diseñado para áreas de gráficas científicas interactivas en 2D y 3D y contiene bibliotecas numéricas científicas implementadas en Java para funciones matemáticas, números aleatorios, análisis estadístico, ajuste de curvas de regresión y otras actividades de minería de datos.
DataMelt se basa en un lenguaje de programación de alto nivel, Jython (Python implementado en Java), pero puede utilizarse también codificación Java para llamar a bibliotecas DataMelt numéricas y gráficas.
DataMelt es un intento de crear un entorno de análisis[3] de datos usando paquetes de código abierto con una interfaz de usuario coherente y para crear una herramienta competitiva a los programas comerciales.[4][5]
La idea detrás del proyecto es la incorporación de código abierto paquetes de software matemático y numérico con interfaz de usuario de tipo gráfico en un programa coherente en el cual la interfaz de usuario principal se basa en clases de nombre corto llamado Java/Python. Esto es necesario para construir un ambiente de análisis utilizando el concepto de secuencias de comandos de Java. Un ejemplo típico se muestra más adelante.
DataMelt funciona en cualquier plataforma (Windows, Macintosh, Linux, etc) donde se pueda instalar Máquina virtual Java.
Las secuencias de comandos (scripts) y el código de Java (en el caso de la programación Java) se puede ejecutar tanto en un editor de interfaz gráfica de usuario de DataMelt como en programas por lotes.
Las bibliotecas gráficas de DataMelt se pueden utilizar para crear applets. Todas las gráficas (o "lienzos") utilizadas para la representación de datos pueden ser embebidos en navegadores web.
DataMelt se puede utilizar en todo lugar donde el análisis de grandes volúmenes de datos numéricos, de minería de datos, análisis de datos estadísticos y matemáticos son esenciales. El programa puede ser utilizado en ciencias naturales, ingeniería, y modelado y análisis de mercados financieros, entre otros.
DataMelt es considerado entre los cinco mejores paquetes de software de minería de datos libre y código abierto.[6]
Hay varios comentarios (reseñas) más sobre DataMelt disponibles.[7][8]
Si bien el programa entra en la categoría de software de código abierto, no es completamente libre para uso comercial (ver más abajo).
Características
Resumen
DataMelt tiene varias características útiles para el análisis de datos:
- Puede utilizar secuencias de comandos Jython, o el estándar de Java;
- Al estar basado en Java, es verdaderamente multiplataforma;
- Puede ser integrado con la Web en forma de applets o aplicaciones Java Web Start, por lo que es adecuado para ambientes de análisis distribuido a través de Internet;
- DataMelt ha sido diseñado desde cero para aguantar la programación con varios subprocesos;
- Tiene un IDE multifuncional, con resaltado de sintaxis, verificador de sintaxis, completador de código y analizador.
- Incluye un sistema de ayuda con completado de código basado en la tecnología Java de reflexión;
- Utiliza una plataforma de I/O neutral basada en Google. Los datos pueden ser escritos en C++ y
Características de análisis de datos
El paquete es compatible con varias características matemáticas, de análisis de datos, y de minería de datos:
- Visualización interactiva de gráficos 2D y 3D de datos, funciones, histogramas, y diagramas.
- Histogramas en 2D y 3D, así como histogramas de perfil.
- Álgebra matricial.
- Generación de números aleatorios y muestras estadísticas.
- Trabajo con funciones, incluyendo ecuaciones paramétricas en 3D.
- Dibujo de gráficas de curvas de nivel, y de diagramas de dispersión.
- Redes neuronales.
- Regresión lineal y ajuste de curvas utilizando varias técnicas de minimización (optimización) matemáticas.
- Análisis de agrupamiento (de paso único o multi-pasos), Fuzzy (C-means) algoritmo de agrupamiento jerárquico aglomerativo).
- La entrada/salida de todos los objetos de datos (matrices, funciones, histogramas) se basa en serialización Java. También soporta E/S desde/a C++ y otros lenguajes de programación. Soporta varios tipos de bases de datos (son compatibles las bases de datos Java-objeto y las basadas en SQL).
- Autómata celular.
- Salida consistente en gráficos vectoriales de alta calidad. Soporta PostScript, EPS, PDF y formato raster.
Términos de licencia
El código fuente del núcleo de DataMelt (jhplot) se encuentra bajo licencia GNU General Public License, pero el proyecto tiene algunas restricciones para el uso comercial dado que los archivos de idioma, los archivos de documentación, los ejemplos, el instalador, las bases de datos code-assist, y la ayuda interactiva tienen licencia para uso no comercial
(licencias Creative Commons). Miembros del proyecto DataMelt
tienen varias ventajas (licencia para uso comercial, acceso al repositorio de código fuente Doxygen, sistema de ayuda extendida, repositorio de scripts de usuario, etc).
Ejemplos de scripts Jython
A continuación se muestra un ejemplo sencillo que ilustra cómo llenar un histograma 2D y mostrarlo en un lienzo o área de gráfica. El script (secuencia de comandos) también crea una figura en formato PDF.
Este script muestra cómo pegar y mezclar clases Java nativas (del paquete java.util) y clases DataMelt (el paquete jhplot) dentro de un script escrito con la sintaxis de Python.
from java.util import Random
from jhplot import *
c1 = HPlot3D("Canvas")
c1.setGTitle("Global title")
c1.setNameX("X")
c1.setNameY("Y")
c1.visible()
c1.setAutoRange()
h1 = H2D("2D histogram",25,-3.0, 3.0,25,-3.0, 3.0)
rand = Random();
for i in range(200):
h1.fill(rand.nextGaussian(),rand.nextGaussian())
c1.draw(h1);
c1.export("jhplot3d.png")
Este script puede ser ejecutado bien usando DataMelt IDE o un Jython independiente después de especificar la ruta de clases (classpath) a las bibliotecas DataMelt.
Historia
DataMelt tiene sus raíces en la física de partículas, donde la minería de datos es una tarea primordial.[3] DataMelt fue escrito inicialmente para el análisis de los datos de partículas físicas
utilizando el concepto de software Java del Colisionador Lineal Internacional del proyecto desarrollado en SLAC. Las versiones posteriores de DataMelt fueron modificadas para uso público en general (es decir, para científicos, ingenieros, estudiantes con fines educativos, etc) ya que el proyecto del Colisionador Lineal Internacional se ha estancado. En la actualidad, DataMelt es un programa apoyado por la comunidad. La principal fuente de referencia es el libro "El análisis científico de datos mediante secuencias de comandos Jython y Java"(V.O. "Scientific Data analysis using Jython Scripting and Java"),[9] que analiza en profundidad los métodos de análisis de datos usando scripts Java y Jython.
Referencias
Enlaces externos