¡Bienvenido a mi curso sobre análisis de textos con aprendizaje automático! Se trata de un curso basado en mi experiencia como profesor de esta asignatura, así como en varios proyectos de tratamiento del lenguaje natural en los que he participado. Incluye material teórico y práctico para aprender, de manera autoguiada, desde las técnicas clásicas de análisis de textos hasta las más actuales basadas en redes neuronales profundas (Deep Learning).
Los conocimientos mínimos para poder sacar partido de este curso son:
- Experiencia de programación en Python, y uso de Jupyter Notebooks.
- Uso de git.
- Conocimientos básicos de aprendizaje automático.
Cada tema se constituye de una serie de diapositivas teóricas que te recomiendo leer en primer lugar para entender los conceptos esenciales. A continuación deberás ponerte manos a la obra y resolver un ejercicio práctico relacionado con los conceptos cubiertos. Puedes visualizar estos ejercicios en Github, pero para interactuar con ellos deberás clonar este repositorio y utilizar Jupyter notebook para trabajar con los cuadernos que hay en él. Se incluyen también las soluciones a los ejercicios, pero solo es aconsejable recurrir a ellas para compararlas contra tu propia solución. ¡Intenta resolver los ejercicios por tu cuenta!
Respecto a los paquetes Python necesarios, te recomiendo que hagas uso de una distribución Anaconda 3 e instales los entornos de Text Mining y Deep Learning de este repositorio. Cada ejercicio te indicará qué entorno concreto debes utilizar.
Comenzamos con unas nociones básicas sobre el análisis del lenguaje escrito.
En este tema no hay ejercicios prácticos.
Aprenderemos cómo poder realizar aplicaciones basadas únicamente en el análisis de los caracteres del texto.
Veremos cómo partir el texto en palabras (tokens) y hacer uso de esto para mejorar nuestros modelos.
Revisamos las técnicas del campon de la lingüística computacional para extraer información léxica y sintática del texto.
- Teoría
- Ejercicio práctico: análisis morfosintáctico con spaCy, y detector de la opinión
- Solución al ejercicio
Estudiaremos como extraer el significado de las palabras o de los documentos.
Utilizaremos algunas de las últimas técnicas de Deep Learning para mejorar nuestros modelos de texto.
- Teoría
- Ejercicio práctico 1: álgebra semántico con word2vec
- Solución al ejercicio 1
- Ejercicio práctico 2: detección de comentarios tóxicos con Deep Learning
- Solución al ejercicio 2
¡Espero que este curso te haya podido servir para aprender algo más sobre el análisis de textos! Si tienes comentarios o sugerencias de mejora puedes contectarme a través de Twitter.
Todo el material teórico de este curso está cubierto por una licencia Creative Commons BY-NC-SA, lo que significa que puedes distribuirlo libremente sujeto a que referencies al autor original, no modifiques el contenido, y no lo emplees con fines comerciales. El código de los ejercicios prácticos está sujeto a una licencia MIT, por lo que puedes usarlo libremente.