Miembros del grupo
Javier Cano Cancela
María Eugenia Castellanos Nueda
Javier Martínez Moguerza
Alberto Olivares González
Andrés Redchuk Cisterna
David Ríos Insua
Ernesto Staffetti Giammaria
Ángel Udías Moinelo
Minería de datos
Los ámbitos de potencial aplicación de estas técnicas son enormemente amplios: la creciente informatización de
prácticamente cualquier actividad supone la captura de un alto volumen de datos, susceptibles de proporcionar información relevante para la actividad en cuestión, aunque frecuentemente de manera no fácil, tanto por la complejidad de las técnicas numérico-algorítmicas a utilizar como por la dificultad intrínseca de organizar y procesar cantidades masivas de datos.
La resolución de dichos problemas requiere pues una combinación eficaz de técnicas eficientes de clasificación con herramientas potentes de organización, representación y proceso de datos. Bajo estas premisas, el Departamento de Estadística e Investigación Operativa centra su investigación en el estudio y desarrollo de nuevos enfoques teóricos, y de métodos computacionales de clasificación eficientes, para su posterior aplicación a problemas reales.
Se describen a continuación algunas aplicaciones en las que estamos trabajando.
Métodos de núcleo (kernel methods) en problemas de clasificación complejos
En la última década los métodos de núcleo (Kernel Methods) y, en particular, las Máquinas de Vectores Soporte (Support Vector Machines, SVM) se han convertido en técnicas de referencia en el campo de las ciencias de la computación y la ingeniería. El objetivo usual en este contexto es la precisión predictiva por encima de la modelización estadística, debido a que la asunción de modelos estadísticos (paramétricos) concretos es a menudo arriesgada cuando se trabaja con datos complejos. Por otra parte, un punto de vista puramente algorítmico podría conducir al desarrollo de procedimientos con comportamiento de tipo “caja negra”.
La “Teoría del Aprendizaje Estadístico” de V. Vapnik ofrece un compromiso entre los enfoques paramétrico y no paramétrico. Es aquí donde encajan las Máquinas de Vectores Soporte, minimizando un funcional de riesgo, compuesto por un término de riesgo empírico más un término de penalización. La elección de este segundo término, en absoluto trivial, equivale a la elección de una función núcleo que, a grandes rasgos, se corresponde con una función de similaridad, existiendo núcleos especializados para aplicaciones concretas como el análisis de documentos textuales o los núcleos para grafos.
Minería de datos desde una perspectiva Bayesiana
Mientras que uno de los mayores problemas a los que se enfrentan las tecnologías de minería de datos es cómo tratar la incertidumbre, una de las características primordiales de los métodos bayesianos es el uso de distribuciones de probabilidad para cuantificar incertidumbre. Estos métodos proporcionan una metodología práctica para la inferencia y predicción y, en última instancia, para tomar decisiones que involucran cantidades inciertas. A la hora de aplicar dichos métodos a la Minería de Datos, un problema abierto es el diseñar algoritmos eficientes que extiendan los métodos actualmente existentes, aplicables generalmente a problemas con pocos datos.
Segmentación de tareas en programación de robots industriales por demostración humana
Recientemente hemos aplicado métodos de clasificación basados en métodos boosting, de agregación de clasificadores, para reconocer diferentes estados de contacto en programación de robots manipuladores industriales por demostración. En este paradigma de programación de robots un operador humano enseña la tarea ejecutandola en un entorno en el que se registran las posiciones del objeto manipulado por el operador y las fuerzas que el operador ha aplicado al entorno a través de él. El problema de la segmentación de tareas en programación de robots por demostración humana consiste en reconocer los contactos que han tenido lugar durante la demostración.

Distintos estado de contacto entre un objeto y un entorno poliedrico.
Reconocimiento de genes asociados a determinadas enfermedades en problemas de genética
Dado que los problemas abordados son cada vez mayores, actualmente del orden de 500000 variables, es necesario el uso de métodos de clasificacion “ad hoc” para poder manejar tales bases de datos. En particular, dada la dificultad para elicitar un modelo paramétrico que pretenda modelar las relaciones entre los genes, y de éstos con las enfermedades bajo estudio, es necesario utilizar clasificadores no paramétricos. Así, en lugar de proponer un único clasificador, se ha demostrado en la literatura, que es mejor utilizar muchos clasificadores distintos e independientes.
La conjunción de tales clasificadores da lugar a métodos conocidos como Ensemble Methods. En el departamento de Estadística e Investigación Operativa estamos trabajando en la aplicación de este tipo de métodos a problemas en los que disponemos de cientos de miles de marcadores genéticos y una o varias enfermedades observadas, consiguiendo con estos métodos, reducir el número de variables que parecen estar relacionadas con las enfermedades bajo estudio.
