Classora Knowledge Base

Classora Knowledge Base

El objetivo de Classora Knowledge Base consiste en integrar información procedente de fuentes públicas (Banco Mundial, Fondo Monetario Internacional, CIA. etc), fuentes privadas y usuarios de Internet, enriqueciendo el resultado con numerosos valores añadidos. Entre ellos, cabe destacar la capacidad de Classora para convertir datos desestructurados en información completamente estructurada, así como sus herramientas para representar la información recabada en diferentes formatos (rankings, tablas, gráficas, mapas. etc). La consecuencia es una plataforma pionera a nivel mundial.

Internamente, Classora Knowledge Base está organizada en «unidades de conocimiento» e «informes». Una unidad de conocimiento es cualquier elemento del mundo sobre el que se puede guardar información (una persona, una empresa, un país. etc.). Un informe es, simplemente, un conjunto de unidades de conocimiento: un ranking de empresas, una clasificación deportiva, una encuesta de opinión, una consulta de un usuario. etc. Por ejemplo: el «Real Madrid» está representado en Classora como una unidad de conocimiento, y la «Liga de fútbol de España (LFP)» es uno de los muchos informes en los que participa.

Definiciones básicas del modelo de Classora

Así es nuestro modelo fundamental: cada unidad de conocimiento puede verse como un artículo de la Wikipedia.  No obstante, en lugar de texto plano, las unidades de conocimiento de Classora están dotadas de información estructurada y enriquecidas con datos adicionales procedentes de los informes en los que figuran.

Toda la información disponible en la base de conocimiento de Classora puede proceder de un proceso de carga automático (mediante robots de ETL) o de carga manual (mediante la colaboración de los usuarios). A través de esta infraestructura, Classora pretende llegar a ofrecer una respuesta con el dato concreto o con el conjunto de datos exacto que el usuario necesita. Además, las herramientas de Classora permitirán a los usuarios combinar datos de las unidades de conocimiento para extraer nueva información, en ocasiones no evidente, aplicando para ello prácticas de datamining y tecnologías OLAP. Como consecuencia, Classora pretende ser considerada una plataforma de Business Intelligence aplicada a todo el conocimiento humano disponible en fuentes públicas de La Red.

No obstante, Classora es actualmente un proyecto en proceso de construcción. En esta etapa inicial hemos potenciado los informes públicos, es decir, todas las listas, clasificaciones deportivas y encuestas de opinión en las que puede figurar un elemento. De hecho, las encuestas de opinión (también llamadas rankings participativos, dado que se conforman con las votaciones de los usuarios) se han convertido en una de las partes más destacadas de esta Classora inicial. Sin embargo, hay mucha más información subyacente: el hecho de cruzar cada unidad de conocimiento con estos informes y encuestas permitirá obtener en muchos casos una visión totalmente inédita, contemplando de un vistazo la posición que ocupa en cada informe e incluso trazando su evolución en el tiempo. Por ejemplo, se puede observar toda la información que Classora dispone ya sobre un país como España.

Lo bueno es que, además, Classora permite analizar en profundidad toda esta información, realizando gráficas comparativas y varios tipos de estudios customizados.

Para que Classora sea posible, el equipo ha tenido que enfrentarse a varios problemas técnicos independientes, entre los que nos gustaría destacar especialmente dos de ellos:

Carga, integración y actualización automática de datos (ETL): Classora extrae información desde fuentes totalmente heterogéneas, partiendo tanto de esquemas estructurados como no estructurados, integrándolas y añadiéndoles metadatos explicativos. El desarrollo de estos robots de carga ha supuesto y supone a día de hoy uno de nuestros mayores esfuerzos tecnológicos.

Comprensión de la consulta del usuario: Es otro de nuestros grandes retos. Estamos dando los primeros pasos mediante la definición de un lenguaje semiformal de consulta, denominado CQL (Classora Query Language), que permite realizar preguntas sofisticadas al centro de datos, actuando (en un contexto reducido y con una gramática controlada) como base para resolver el difícil problema de la comprensión del lenguaje natural. No obstante, por el momento es más intuitivo recurrir a nuestro asistente para la creación de informes.

Esquema simplificado de la arquitectura de Classora Knowledge Base


En resumen, Classora intenta organizar la información de una nueva forma en Internet. Basándose en técnicas de Business Intelligence y en el concepto de Web Semántica, Classora sirve ya para crear, compartir y analizar todo tipo de informes y listas, pero también para visualizar las fichas de todas las personas y los elementos que figuran en ellas.