Etiquetado de noticias

El etiquetado de noticias presenta diferentes ventajas para una compañía de prensa:

Reduce la carga de trabajo de los periodistas
Implanta un criterio unificado en toda la redacción para clasificar los contenidos
Permite al usuario consultar noticias de un tema publicadas en distintos momentos
Fomenta la reutilización de contenidos archivados en la hemeroteca digital

Y la más importante de todas: aporta una nueva forma de organizar los contenidos generados por los periódicos, para así mejorar la explotación de los mismos. Por ejemplo, una correcta clasificación de las noticias en temas es la base para perfeccionar la analítica interna del medio y conocer sobre qué asuntos resulta más conveniente centrar los esfuerzos editoriales en un momento dado.

Classora utiliza últimas tecnologías basadas en Procesamiento de Lenguaje Natural (NLP). De esta forma el resultado final devuelto por nuestro servicio es similar al realizado por un ser humano.

La clasificación temática de Classora tiene las siguientes características:

Puede usar como base el tesauro actual de tags de un medio de comunicación.
Mantendrá un tesauro de temas de calidad para cada medio, eliminando si es necesario temas duplicados y renombrando temas ambiguos.
Classora realizará un importante trabajo a medida para cargar datos sobre municipios y otras entidades locales de las zonas donde el cliente tiene periódicos. De esta manera se potencia el etiquetado de contenidos hiperlocales.
Los tags hiperlocales pueden tener una marca especial para diferenciarlos de los demás tags, lo cual permite un tratamiento específico para los mismos.
Si por actualidad informativa surgen nuevos temas susceptibles de ser incorporados al diccionario de temas de un periódico, Classora sugerirá automáticamente estos temas.
Cada periódico mantendrá el control completo sobre sus tesauros de temas, pudiendo crear nuevos temas, eliminarlos o renombrarlos manualmente.

Para cada noticia etiquetada, Classora puede devolver una lista de contenidos relacionados (en función del nº de tags en común y del peso de cada uno). Estas noticias relacionadas tienen suficiente calidad y relevancia para ser trasladadas directamente al lector.

Un buen cálculo de noticias relacionadas es importante para mantener la atención del usuario, mejorando ratios como el nº de páginas vistas por sesión, o el tiempo de permanencia en el sitio. El servicio de relacionadas de Classora Technologies está implantado en diversos medios de comunicación en España y funciona de manera completamente autónoma, sin necesidad de supervisión manual.

Seguir leyendo

Para poder medir y comparar el rendimiento de sistemas de clasificación basados en redes neuronales, o machine learning, se suelen utilizar tres métricas estadísticas básicas: precision, exhaustividad (recall) y f-score (valor f). Para calcularlas es necesario hacer una batería de pruebas con un tesauro definido y con un conjunto limitado de noticias, previamente etiquetadas de forma manual por documentalistas expertos.

Estos indicadores se sustentan en cuatro valores clave:

Verdaderos positivos (VP) Tags obtenidos y deseados	Falsos positivos (FP) Tags obtenidos, pero no deseados
Verdaderos negativos (VN) Tags no obtenidos y no deseados	Falsos negativos (FN) Tags no obtenidos, pero deseados

(En verde aciertos, en rojo fallos)

Precisión

Probabilidad de que un tag
obtenido sea deseado

Exhaustividad

Probabilidad de que un tag
deseado sea obtenido

F-score

Nivel de ajuste de las dos anteriores,
calculado con la media armónica

Estas métricas (precisión, exhaustividad y f-score) se calculan a nivel de clase (tag) o bien a nivel de instancia (noticia), no a nivel global. Es decir, es necesario calcular su valor promedio. Para ello tenemos dos estrategias:

El macro-promedio se calcula como el cociente de las sumas.
El micro-promedio es la media de todos los valores.

El micro le da el mismo valor a cada instancia, y es útil cuándo todas tienen el mismo peso aproximadamente (apropiado para ver la precisión a nivel de noticia), mientras que el macro vale para que cada clase tenga el valor acorde a su peso (apropiado para ver la precisión a nivel de tag, ya que unos tags pueden tener muchas noticias y otros no, por tanto no se les puede otorgar el mismo peso a todos). En las cifras que se presentan a continuación hemos utilizado el micro-promedio.

Es importante recalcar que, lamentablemente, suele resultar imposible maximizar a la vez la precisión y la exhaustividad. Esto quiere decir que, al mejorar la precisión, generalmente se reduce la exhaustividad, y viceversa. Por tanto, al llegar al límite de entrenamiento de un modelo, se hace patente la necesidad de llegar a un compromiso entre ambas.

La magia de los resultados de Classora se basa en la conjunción de cuatro aproximaciones técnicas diferentes:

Machine Learning: es la vía principal para detección de tags. Se trata de un sistema basado en aprendizaje automático, que se entrena con noticias ya etiquetadas, de forma que el sistema aprende a asociar contenidos de texto (noticias) con categorías predefinas (tags del tesauro). Entre otros, se emplean algoritmos NER (Named-Entity Recognition), POST (Part-Of-Speech Tagging) y LDA (Latent Dirichlet Allocation).
Sistemas expertos: es una vía alternativa para detectar tags, en la cual podemos influir de manera manual. Se basa fundamentalmente en que cada tag puede tener asociados un conjunto de "disparadores" (triggers) que no son más que palabras en la noticia que lo activan. De esta forma, si por ejemplo en una noticia se menciona a la "ciudad olívica" se le asocia la correspondencia con el tag "Vigo".
Base de conocimiento: Classora tiene su propia ontología, poblada de fuentes de datos abiertos como DBPedia y Geonames, que permite filtrar entidades y conocer de antemano la relación entre ellas. Esta base de conocimiento es uno de los pilares de nuestra lingüística computacional.
Inferencias: es una vía complementaria que se apoya en la base de conocimiento, buscando relaciones "a priori" entre tags. Por ejemplo, si en una noticia se detecta el tag "Messi", se pueden inferir con gran facilidad los tags "fútbol" o "FC Barcelona".

Classora ha logrado combinar estos cuatro métodos para crear una tecnología patentada única, que se puede optimizar para cada sector hasta sintetizar un servicio capaz de competir con el resultado propuesto por un ser humano.

El PLN, Procesado de Lenguaje Natural, es una de las piedras angulares tempranas de la Inteligencia Artificial (IA). La traducción automática, por ejemplo, nació a finales de la década de los cuarenta, antes de que se acuñara la propia expresión «Inteligencia Artificial». En términos generales, el PLN se ocupa de la formulación e investigación de mecanismos eficaces computacionalmente para la comunicación entre personas y máquinas por medio de lenguajes naturales.

No obstante, a día de hoy los algoritmos de interpretación del lenguaje natural todavía no han llegado a un estado de madurez definitivo. El principal problema es la ambigüedad del lenguaje humano. Esta ambigüedad se hace patente a diferentes niveles:

A nivel léxico, una misma palabra puede tener varios significados, y la selección del apropiado se debe deducir a partir del contexto. Muchas investigaciones en el campo del procesamiento de lenguajes naturales han estudiado métodos de resolver las ambigüedades léxicas mediante diccionarios, gramáticas, bases de conocimiento y correlaciones estadísticas. Pero las soluciones actuales aún no son definitivas.
A nivel referencial, la resolución de anáforas y catáforas implica determinar la entidad lingüística previa o posterior a que hacen referencia.
A nivel estructural, se requiere de la semántica para desambiguar la dependencia de los sintagmas preposicionales que conducen a la construcción de distintos árboles sintácticos. Por ejemplo, en la frase «Rompió el dibujo de un ataque de nervios».
A nivel pragmático, una oración, a menudo, no significa lo que realmente se está diciendo. Elementos tales como la ironía o el sarcasmo tienen un papel importante en la interpretación del mensaje.

Para resolver estos tipos de ambigüedades y otros, el problema central en el PLN es la traducción de entradas en lenguaje natural a una representación interna sin ambigüedad, como árboles de análisis. Esta es precisamente la solución por la que hemos optado desde Classora, aunque complementándola con nuestra aportación de software propietario.

¿Dispuesto a automatizar la clasificación de textos? Contacta con nosotros para que te informemos con más detalle.

Formulario de contacto

«Es difícil derrotar a una persona que nunca se rinde»

(Babe Ruth)

«Es difícil superar a un servicio que nunca falla y a un equipo que siempre responde»

(Classora Technologies)

Servicio líder en España

50+

6.000+

43 millones

74%

100%

Características del servicio de etiquetado