¿Cómo hacerse una idea de mil documentos con un clic? El modelado de tópicos para la gestión del conocimiento

Conocimiento abierto

Las técnicas del modelado de tópicos nos ayudan precisamente a descubrir de manera automática, dichos tópicos o temas latentes en un conjunto de textos que están sin categorizar

Jul 22, 2020

En un contexto cada vez más virtual, unretofundamental en la gestión delconocimiento esla extracción devaloraunacrecientecantidadde documentosque se producendía a día.Parafacilitar el análisisde esta información,se puede utilizartécnicasdeprocesamiento delenguajenatural.

En esta entrada te contamos sobre una de las más usadas: la “detección de tópicos” o de expresión alternativa, el “modelado de tópicos” (topic modeling en inglés). Hay una leve diferencia entre ambos términos: la detección de tópicos se trata de un ejercicio conceptual de identificar patrones de significado común en un conjunto de textos o documentos. El modelado de tópicos se trata de las herramientas informáticas que permiten la detección automática de estos patrones. Los ejemplos de aplicación varían mucho, desde entender la composición latente en un corpus, como es el ejemplo del contenido de este sitio blog, asimismo como la detección de los temas implícitos en un conjunto de documentos científicos durante la producción de un marco teórico, como la clasificación de artículos sobre un tema particular como el coronavirus.

La importancia deautomatizarla detecciónde tópicos

Para analizar uncorpus, cualquierinformaciónadicionalometadatosque tengamos nosfacilitael trabajo.Ejemplos de metadatos son: autores, fecha de publicación, editorial,palabras clave,resúmenes o abstractos.Asimismo, una clasificaciónpreviamente asignada a un documentoleayudaa tener una ideaaalguienquemira el documento por primera vez.

Enalgunos casos, los documentos con los que trabajamos ya traenparte deestainformación adicional.Sin embargo,en muchas ocasioneslecorresponde alanalistautilizar su conocimientoeintuiciónparaentender de qué trata un documento.Y aunque para un ser humano,generarconceptosno es una tarea muy compleja,suentendimientova a estar siemprecondicionado asus propias limitacionescognitivas.Adicionalmente, como nos podremos imaginar,categorizar o clasificar documentos a gran escalay porun largo períodode tiempopuederesultar una tareaineficiente.Las técnicas delmodeladodetópicosnos ayudan precisamente a descubrir de manera automática dichos tópicoso temaslatentes en un conjunto de textosque estánsin categorizar.

La intuición detrásdel modeladodetópicos

Los documentos representan“bolsas de palabras”, las cuales pueden ser relevantes a una o varias áreas de conocimiento (cada área entiéndase como un tópico).Por tanto, cada documentotiene cierto porcentaje de palabras que con mayor o menor frecuencia aparecen en mayor o menor grado, en diversos tópicos.A estos tópicos los llamamos latentes porque sabemos que están en un corpus de documentosy el retoestá enencontrarlos.

Por ejemplo,parala gestión de un blog comoAbierto alPúblico, cada entradaque publicamostiene que sercategorizadayetiquetada.Una parteimportante deestatareaconsisteendeterminarloscriteriosde categorización y etiquetado quesebasenenlas ideas ypalabrasreflejadas en su contenido.

Entre la validación y la detección

Imaginemos que después de5añosdelaexistenciade unblog,percibimosla necesidad de actualizar lascategorías quese usanpara clasificarcada una de sus entradas(como fue nuestropropiocaso,hace poco).

Primero, para determinar los patrones en los temas que tratamos en los documentos o entradas,revisamos una selección de estos documentosy caemos en cuentade quefrases como“aprendizaje en línea”, “MOOCs” y “capacitación virtual”se repiten con frecuenciaen varios documentos. Al terminar, se concluirá entonces que hay suficiente contenido paravalidar quelacategoría “Aprendizaje Abierto”sigue siendo muy relevante.

Mientras avanzamosen la lectura de más entradas,encontramosotropatrón que hubiera sidomuydifícil encontrar de manera manual. En varias entradas, categorizadasbajomúltiplestemas,aparecenconceptoscomo “software”, “código fuente” y “open source”, y así determinamos que hay suficientes para merecer la creación de una nuevacategoría “Código Abierto” y reasignar el contenido heredado dentro de esta nueva categoria.Y esta es la intuición detrás de ladeteccióndetópicos.

Aplicando algoritmos deDetecciónde Tópicos

Tal como mencionamos en la entrada “¿Cómo se compara un iceberg al funcionamiento de la Inteligencia Artificial?” una gran parte del éxito en la aplicación de cualquier algoritmo es el trabajo que se hace con los datos de entrada. El caso de los algoritmos de Detección de Tópicos no es la excepción. Comúnmente la limpieza de texto incluye la eliminación de palabras muy frecuentes”, o stopwords, que no informan mucho. Por ejemplo, artículos, conjunciones, preposiciones, etc. Adicionalmente algunos científicos de datos sugieren devolver las palabras a su raíz, por ejemplo, los verbos conjugados: “comiendo” y “comeré” se transformarán en el verbo raíz “comer”, un proceso conocido como stemming. Una vez tengamos limpios los datos de entrada, pasaremos a la fase de entrenamiento del algoritmo, cuyo resultado será por un lado la distribución de palabras y por otro la distribución de los tópicos en los documentos.

Retos asociados

Uno de los retos más grandesen general de la aplicación de algoritmos no supervisados en elProcesamiento delLenguajeNatural es la evaluación de los resultados.La soluciónconsiste enhacervarias pruebasy validar los resultadosa travésde:a)lainclusión deun humanopara que con su sentido común evalúe los resultados, ob)la utilización demétricas para hacer un análisis matemáticode los resultados. Algunas métricas disponiblespara analizar los resultados delDetecciónde Tópicossonlasimilitud cosenou otrasecuacionescomo ladeperplejidadycoherencia.Evidentemente,y si los recursos lo permitenla evaluación ideal es la mezcladeambasmetodologías,laevaluación ideal es la mezcladeambas metodologías.

Otro reto está relacionadocon la cantidad mínima de documentos que se requiere para aplicar estos algoritmos.Expertosrecomiendan que se cuente con por lo menoscon una muestra de1,000casos.

Recursosdisponibles para experimentar con elDetecciónde Tópicos

Aunque existen varios algoritmos para hacerDetecciónde Tópicos, uno de los más famosos es elLatentDirichletAllocation(LDA).Hayvarias librerías de código abierto con las que puedes empezar a experimentarcon el LDA.Una de las más famosas esla libreríapara Python,Gensim.Asimismo,está disponiblelalibreríaGraphLabCreatequepone a disposiciónun móduloque incluye la configuración de parámetros comoalphay beta.Otras famosas librerías sonlas librerías LDA y un módulo incluido enSklearn:LatentDirchletAllocation.Y para visualizar los resultadosse puede utilizarlalibreríapyLDAvis.

Si lo tuyo es explorar casos de aplicación te recomendamosrevisesalgunas de las solucionespropuestas en varios de losretos de Procesamiento de Lenguaje Natural enKaggle.Por ejemplo,podrías buscar inspiración enalgunas de las solucionesconDetecciónde Tópicospara resolver elreto planteadoen el marco del COVID-19.