Productos y servicios

graph

Classora
Knowledge Base

Classora Technologies ha desarrollado una plataforma pionera: una base de conocimiento orientada al análisis de datos. Su objetivo es ofrecer una visión diferente de la información disponible en Internet. Para ello, integra información procedente de fuentes públicas, enriqueciendo el resultado con numerosos valores añadidos. Leer más

graph

Classora
Media Support

Los servicios semánticos de la suite Classora Media Support permiten dotar a los medios de un fondo documental inédito para incrementar sus indicadores de tráfico (ratio de páginas/visita y nº de visitas), fomentar la reutilización de contenidos, maximizar presencia en motores de búsqueda y mejorar la experiencia de usuario. Leer más

graph

Classora
Augmented TV

Servicio que permite enriquecer las EPG (Guías electrónicas de programación) y, en general, cualquier programa en diferido (película, serie) utilizando como base el texto de los subtítulos. La información puede ser visualizada en el propio dispositivo (TV) o en un dispositivo auxiliar (tablet, smartphone) como second screen. Leer más

Más sobre la tecnología de Classora...

La tecnología actual de Classora Technologies surgió en torno al producto Classora Knowledge Base, la primera base de conocimiento en español para Internet.

Para disponer de información actualizada y realmente útil es necesario que la base de conocimiento se nutra constantemente de datos públicos disponibles en distintas fuentes. Pero dada la amplitud de los datos disponibles en Internet, estas fuentes pueden oscilar desde plataformas de referencia oficiales y completamente estructuradas (como es el caso de Eurostat, el Instituto Nacional de Estadística -INE-, o la FIFA) hasta fuentes públicas no oficiales, escritas en texto plano o dotadas de escasos niveles de estructuración (como pueden ser blogs, tiendas de comercio electrónico o incluso la propia Wikipedia). Con este fin, Classora ha desarrollado tres tipos de robots para la gestión de datos:

1) Robots de ETL: encargados de la carga masiva de informes a partir de fuentes públicas oficiales. Sirven tanto para cargas absolutas como incrementales.

2) Exploradores de datos: encargados de buscar y actualizar atributos concretos de una unidad de conocimiento a partir de una fuente determinada.

3) Agregadores de contenidos: no se conectan a fuentes externas, sino que utilizan datos internos de Classora para generar nueva información (histórica, agregada... etc.).

El proceso que siguen los robots ETL de Classora es el siguiente:

  • Extracción: parseo de la información en los distintos orígenes de datos.
  • Transformación: filtrado, limpieza, depuración y estructuración de los datos.
  • Carga y enriquecimiento: linkado con datos previos e inclusión de capa semántica.

No obstante, en valores absolutos, CKB aún maneja una cantidad mínima de la información pública realmente disponible en La Red. Además, cada nueva fuente de datos incorporada aumenta la complejidad de la integración con los datos previamente cargados, ya que se incrementa el número de variables. Sin una supervisión manual (cada vez más costosa e inviable), esto se traduce a medio plazo en que la calidad de los datos puede disminuir a medida que crece la cantidad de los mismos.

Sin embargo, esto es evitable con un mayor esfuerzo en I+D+i. Por ello, nuestra empresa plantea un proceso de mejora continua para los robots de carga que permitan incorporar más fuentes de datos, con menor nivel de estructuración, en más idiomas, y con una mejor integración con los datos previamente cargados. El problema original al que nos enfrentamos es, en el fondo, uno de los mayores retos que ha impuesto la evolución tecnológica: la transformación de información desestructurada a información estructurada.


ETL: Extracción, transformación, y carga de datos

Los procesos ETL son los componentes más importantes y de mayor valor añadido de una infraestructura de Business Intelligence. Aunque suelen resultar transparentes a los usuarios de las plataformas, los procesos ETL recuperan datos de todos los orígenes necesarios y los preparan para ser presentados mediante las herramientas de análisis y de reporting. Por tanto, la exactitud de cualquier plataforma que implique la integración de datos depende enteramente de los procesos ETL. En el caso de Classora, los robots de ETL son los encargados de complementar y enriquecer cada dato con los metadatos correspondientes (fecha de carga, fuente, fiabilidad del dato, frecuencia de refresco, significado, relaciones. etc.) que permiten su posterior procesado automático.

Existen numerosos desafíos para implementar unos procesos ETL eficaces y fiables:

1) Los volúmenes de datos crecen de forma exponencial, y los procesos ETL tienen que procesar grandes cantidades de datos. Algunos sistemas se actualizan simplemente de manera incremental, mientras que otros requieren una recarga completa en cada iteración.

2) A medida que los sistemas de información crecen en complejidad, también aumenta la disparidad de las fuentes y, por tanto, su integración. Los procesos ETL necesitan una extensa conectividad y una mayor flexibilidad.

3) Las transformaciones implicadas en los procesos ETL pueden ser muy complejas. Los datos necesitan agregarse, analizarse, computarse, procesarse estadísticamente, etc. En ocasiones también se necesitan transformaciones específicas y costosas desde el punto de vista computacional.

Actualmente, existen herramientas comerciales, e incluso de software libre, con una gran potencia para la extracción de datos. De hecho, los problemas de rapidez y rendimiento no suelen suponer hoy en día un gran problema técnico para la extracción y la carga. Donde realmente se sitúa el cuello de botella es en la transformación de datos: en este punto la información desestructurada se debe convertir en información estructurada para poder ser integrada con el resto de los datos que ya existen en el sistema destino.


Procesos semánticos

El PLN (Procesado de Lenguaje Natural) es una de las piedras angulares tempranas de la Inteligencia Artificial (IA). La traducción automática, por ejemplo, nació a finales de la década de los cuarenta, antes de que se acuñara la propia expresión «Inteligencia Artificial». En términos generales, el PLN se ocupa de la formulación e investigación de mecanismos eficaces computacionalmente para la comunicación entre personas y máquinas por medio de lenguajes naturales.

No obstante, a día de hoy los algoritmos de interpretación del lenguaje natural todavía no han llegado a un estado de madurez definitivo. El principal problema es la ambigüedad del lenguaje humano. Esta ambigüedad se hace patente a diferentes niveles:

1) A nivel léxico, una misma palabra puede tener varios significados, y la selección del apropiado se debe deducir a partir del contexto. Muchas investigaciones en el campo del procesamiento de lenguajes naturales han estudiado métodos de resolver las ambigüedades léxicas mediante diccionarios, gramáticas, bases de conocimiento y correlaciones estadísticas. Pero las soluciones actuales aún no son definitivas.

2) A nivel referencial, la resolución de anáforas y catáforas implica determinar la entidad lingüística previa o posterior a que hacen referencia.

3) A nivel estructural, se requiere de la semántica para desambiguar la dependencia de los sintagmas preposicionales que conducen a la construcción de distintos árboles sintácticos. Por ejemplo, en la frase «Rompió el dibujo de un ataque de nervios».

4) A nivel pragmático, una oración, a menudo, no significa lo que realmente se está diciendo. Elementos tales como la ironía o el sarcasmo tienen un papel importante en la interpretación del mensaje.

Para resolver estos tipos de ambigüedades y otros, el problema central en el PLN es la traducción de entradas en lenguaje natural a una representación interna sin ambigüedad, como árboles de análisis. Esta es precisamente la solución por la que están optando la mayor parte de las bases de conocimiento públicas disponibles en Internet, incluyendo la aproximación inicial de Classora con CQL (Classora Query Language).