You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Esta es una tarea de investigación sobre lenguaje y gestos asociada a la Biblioteca Internacional NewsScape de Noticias de Televisión. NewsScape es un recurso alojado por la Biblioteca de la Universidad de California Los Ángeles, y desarrollado por el Grupo Red Hen para la Investigación de la Comunicación Multimodal. Además de UCLA, Red Hen tiene nodos de grabación y equipos de investigación en Case Western Reserve University, University of Illinois at Urbana Champaign, Universidad del Sur de Dinamarca, Universidad de Oxford, Universidad de Osnabrück, Texas Tech, Instituto Nacional de Estudios Avanzados de Bangalore, Universidad de Navarra, Universidad de Murcia, y otros lugares (el consorcio está en constante crecimiento). NewsScape contiene más de 200.000 horas de noticias televisivas en inglés, español y otras lenguas europeas, indexadas por sus subtítulos (más de 3000 millones de palabras). Entre otras funciones, NewsScape es la primera base de datos de contenidos audiovisuales que permite realizar una búsqueda sincronizada de subtítulos e imagen, llevándonos al momento exacto del programa en que las palabras recogidas por los subtítulos fueron pronunciadas.
Hasta ahora los corpus lingüísticos de gran envergadura son casi exclusivamente escritos (Corpus of American English, corpus CREA y CORDE de la Real Academia Española, hemerotecas, etc.). NewsScape abre nuevos horizontes para el estudio de la comunicación oral en relación con la gran variedad de elementos que acompañan a la palabra: gesto, y entonación, además de, en el caso de la televisión, música, efectos de imagen y sonido, gráficos, etc. Por supuesto, NewsScape también permite seguir noticias, temas, declaraciones de personajes, etc. Estamos desarrollando herramientas de búsqueda y anotación automática y manual de patrones semánticos. Además de verbales, también estamos desarrollando herramientas de detección de rostros, de patrones visuales, de segmentos narrativos, etc. Los grupos de investigación de Navarra y Murcia están desarrollando el proyecto SCHEMOTIME, que compara lenguaje y gestos en la expresión de las emociones y del tiempo, dos conceptos centrales para teorías sobre metáfora y cognición. Además, la colaboración Navarra-Murcia lidera el desarrollo de NewsScape en español.
El objetivo final de esta tarea es escribir un programa que recibe como entrada un texto en lenguaje natural e identifica estructuras gramaticales en él.
Posiblemente Python sea el lenguaje de programación más adecuado por las librerías disponibles (recomendamos mwetoolkit).
Una primera parte de la tarea la ejecuta un proprocesador (que ya existe) que marca las distintas parte de la oración (sustantivos, adverbios, preposiciones, etc).
La segunda parte, que es el trabajo a realizar ahora, es encontrar esas construcciones premarcadas en un léxico de expresiones multipalabra.
El programa se utilizará inicialmente con textos tanto en inglés como en español. Si está bien planteado debe funcionar bien con prácticamente cualquier idioma y la calidad del resultado dependerá unicamente de la calidad del léxico.
No es objetivo de este proyecto preparar el léxico, que nos será suministrado de antemano, al igual que una cantidad considerable de ficheros de entrada.
No es necesario tener conocimientos avanzados de lengua: Lexemas, léxicos, tipos de oración, etc... es suficiente con una lectura rápida a las páginas relevantes de wikipedia o cualquier otra fuente.
Por ejemplo, un texto (lo ponemos en inglés porque es para el que tenemos un léxico ya creado) podría ser:
"AND SO THE YEARS ROLLED BY."
Una herramienta llamada BSP, del grupo de investigación CLiPS de la universidad de Amberes lo marca de la siguiente forma:
No es importante entender aun estas anotaciones, lo importante es saber que existen y que es lo que usará el programa que hay que programar.
La lista de expresiones multipalabra del léxico se especifica mediante una combinación de listas de palabras y etiquetas.
Por ejemplo, una expresión puede tener (en inglés) la estructura "As + Unidad de tiempo + verbo de movimiento + preposición", de la siguiente forma: As centuries float slowly by, As the seconds trickled past, As the holidays slowly snuck up on her.
Fijate que no es importante saber inglés: Lo importante es identificar correctamente la estructura utilizando la lista de palabras y etiquetas.
En el ejemplo, la construcción se sigue especificando así:
Una lista de palabras que indican unidad de tiempo, como afternoon, age, autumn, century, dawn, decade, evening, y November.
Una lista de verbos de movimiento, incluyendo fly, shuffle, sneak up, come tumbling down, y roll past.
La PREPOSICIÓN estará disponible en las etiquetas de partes de la oración.
Así que el léxico define la expresión multipalabra y el programa debe localizar esa expresión en el texto fuente. Son necesarios tres pasos:
Identificar la forma lematizada de cada palabra (los lemas están
disponibles en las etiquetas de parte de la oración).
Comparar la lista de palabras del léxico con la palabra candidata
del texto fuente.
Comparar las etiquetas del léxico con las identificadas en el texto
fuente.
La aplicación final tendrá una arquitectura cliente-servidor (siendo la aplicación en sí misma la parte servidor) de forma que pueda ser utilizada como servicio por cualquier otro programa.
El proyecto tendrá mentores tanto en la Universidad de Navarra en España como en la Universidad de California en Los Ángeles.
Muestra léxico de varias palabras expresiones de tiempo
UNIDADES DE TIEMPO + VERBO (pasar, durar) + VPG/IN+(DT)+NN
-La clase se pasó en un santiamén. –La película duró un suspiro.
-La semana se ha pasado volando.
Tiempo nombres de procesos o entidades con duración: prorroga, partido, clase, película, vacaciones, relación, viaje, trayecto, vida, encierro, guerra, estancia, curso, conferencia, fiesta, velada, temporada, Navidades, carrera, visita, intermedio, recreo, concierto, trimestre, semestre, función, la primera/segunda/ultima parte, clase, jornada, obra, corto, verbena, cita, lección, explicación, audición, presentación, discurso. *Esta lista se puede ampliar
(PREPOSICIÓN: con, al, al cabo de…) + NOMBRE CON DURACIÓN TEMPORAL (pasar, el paso, transcurso, transcurrir) + UNIDAD DE TIEMPO + (ADJETIVO: lento/rápido). Equivalente a 2, 3, 4 en inglés cuando se combina con adverbio).
-Con el pasar de los años. –Al transcurrir los años, a la larga, a largo/corto plazo, con el paso del tiempo
-Con el (lento) transcurso de las décadas. - Al cabo de un tiempo
(PRONOMBRE PERSONAL) + VERBO (llevar/tomar/durar) + UNIDADES DE TIEMPO (mucho tiempo, poco tiempo, casi nada)/ADJETIVOS DE DURACIÓN TEMPORAL (lento/rápido/pesado/interminable/largo/corto/)
-Nos llevó mucho tiempo. –Duró casi nada. – Os tomó poco tiempo.
-Se hizo interminable.
VERBO DE INICIO/FINAL DE PROCESO (empezar/comenzar/terminar/finalizar) vs. VERBO CON VALOR EMOCIONAL (nacer/explotar/estallar/arrancar).
Ejemplos:
La guerra/revolución/revuelta empezó/estalló en el 36.
La persecución del cristianismo se cierra con el edicto de Milán.
(Hay muchas cosas que pueden estallar: discusiones, peleas, crisis, tiroteo, tormenta)
sinónimos de empezar: nacer, originar, germinar, abrir, brotar
Sinónimos de terminar: expirar, extinguir, declinar, morir, fenecer, decaer, amainar
El léxico se puede ampliar, pero preferimos hacer un piloto sólo con estas expresiones.
The text was updated successfully, but these errors were encountered:
Etiquetador de un léxico de expresiones multipalabra
See description in English.
Esta es una tarea de investigación sobre lenguaje y gestos asociada a la Biblioteca Internacional NewsScape de Noticias de Televisión. NewsScape es un recurso alojado por la Biblioteca de la Universidad de California Los Ángeles, y desarrollado por el Grupo Red Hen para la Investigación de la Comunicación Multimodal. Además de UCLA, Red Hen tiene nodos de grabación y equipos de investigación en Case Western Reserve University, University of Illinois at Urbana Champaign, Universidad del Sur de Dinamarca, Universidad de Oxford, Universidad de Osnabrück, Texas Tech, Instituto Nacional de Estudios Avanzados de Bangalore, Universidad de Navarra, Universidad de Murcia, y otros lugares (el consorcio está en constante crecimiento). NewsScape contiene más de 200.000 horas de noticias televisivas en inglés, español y otras lenguas europeas, indexadas por sus subtítulos (más de 3000 millones de palabras). Entre otras funciones, NewsScape es la primera base de datos de contenidos audiovisuales que permite realizar una búsqueda sincronizada de subtítulos e imagen, llevándonos al momento exacto del programa en que las palabras recogidas por los subtítulos fueron pronunciadas.
Hasta ahora los corpus lingüísticos de gran envergadura son casi exclusivamente escritos (Corpus of American English, corpus CREA y CORDE de la Real Academia Española, hemerotecas, etc.). NewsScape abre nuevos horizontes para el estudio de la comunicación oral en relación con la gran variedad de elementos que acompañan a la palabra: gesto, y entonación, además de, en el caso de la televisión, música, efectos de imagen y sonido, gráficos, etc. Por supuesto, NewsScape también permite seguir noticias, temas, declaraciones de personajes, etc. Estamos desarrollando herramientas de búsqueda y anotación automática y manual de patrones semánticos. Además de verbales, también estamos desarrollando herramientas de detección de rostros, de patrones visuales, de segmentos narrativos, etc. Los grupos de investigación de Navarra y Murcia están desarrollando el proyecto SCHEMOTIME, que compara lenguaje y gestos en la expresión de las emociones y del tiempo, dos conceptos centrales para teorías sobre metáfora y cognición. Además, la colaboración Navarra-Murcia lidera el desarrollo de NewsScape en español.
El objetivo final de esta tarea es escribir un programa que recibe como entrada un texto en lenguaje natural e identifica estructuras gramaticales en él.
Posiblemente Python sea el lenguaje de programación más adecuado por las librerías disponibles (recomendamos mwetoolkit).
Una primera parte de la tarea la ejecuta un proprocesador (que ya existe) que marca las distintas parte de la oración (sustantivos, adverbios, preposiciones, etc).
La segunda parte, que es el trabajo a realizar ahora, es encontrar esas construcciones premarcadas en un léxico de expresiones multipalabra.
El programa se utilizará inicialmente con textos tanto en inglés como en español. Si está bien planteado debe funcionar bien con prácticamente cualquier idioma y la calidad del resultado dependerá unicamente de la calidad del léxico.
No es objetivo de este proyecto preparar el léxico, que nos será suministrado de antemano, al igual que una cantidad considerable de ficheros de entrada.
No es necesario tener conocimientos avanzados de lengua: Lexemas, léxicos, tipos de oración, etc... es suficiente con una lectura rápida a las páginas relevantes de wikipedia o cualquier otra fuente.
Por ejemplo, un texto (lo ponemos en inglés porque es para el que tenemos un léxico ya creado) podría ser:
"AND SO THE YEARS ROLLED BY."
Una herramienta llamada BSP, del grupo de investigación CLiPS de la universidad de Amberes lo marca de la siguiente forma:
"and/CC/O/O/and|so/IN/I-ADVP/O/so|the/DT/I-NP/O/the|years/NNS/I-NP/O/year|rolled/VBN/I-VP/O/roll|by/RP/I-PRT/O/by|././O/O/."
No es importante entender aun estas anotaciones, lo importante es saber que existen y que es lo que usará el programa que hay que programar.
La lista de expresiones multipalabra del léxico se especifica mediante una combinación de listas de palabras y etiquetas.
Por ejemplo, una expresión puede tener (en inglés) la estructura "As + Unidad de tiempo + verbo de movimiento + preposición", de la siguiente forma: As centuries float slowly by, As the seconds trickled past, As the holidays slowly snuck up on her.
Fijate que no es importante saber inglés: Lo importante es identificar correctamente la estructura utilizando la lista de palabras y etiquetas.
En el ejemplo, la construcción se sigue especificando así:
Así que el léxico define la expresión multipalabra y el programa debe localizar esa expresión en el texto fuente. Son necesarios tres pasos:
disponibles en las etiquetas de parte de la oración).
del texto fuente.
fuente.
La aplicación final tendrá una arquitectura cliente-servidor (siendo la aplicación en sí misma la parte servidor) de forma que pueda ser utilizada como servicio por cualquier otro programa.
El proyecto tendrá mentores tanto en la Universidad de Navarra en España como en la Universidad de California en Los Ángeles.
Muestra léxico de varias palabras expresiones de tiempo
UNIDADES DE TIEMPO: tarde, era, otoño, siglo, alba, amanecer, década, tarde, noche, vacaciones, hora, mediodía, medianoche, milenio, milésima de segundo, minuto, momento, mes, mañana (morning y tomorrow), periodo, época, segundo, primavera, verano, hoy, crepúsculo, ocaso, atardecer, anochecer, puesta de sol, semana, fin de semana, invierno, ayer. Lunes, martes, miércoles, jueves, viernes, sábado, domingo. Enero, febrero, marzo, abril, mayo, junio, julio, agosto, septiembre, octubre, noviembre, diciembre.
Tiempo nombres de procesos o entidades con duración: prorroga, partido, clase, película, vacaciones, relación, viaje, trayecto, vida, encierro, guerra, estancia, curso, conferencia, fiesta, velada, temporada, Navidades, carrera, visita, intermedio, recreo, concierto, trimestre, semestre, función, la primera/segunda/ultima parte, clase, jornada, obra, corto, verbena, cita, lección, explicación, audición, presentación, discurso. *Esta lista se puede ampliar
El léxico se puede ampliar, pero preferimos hacer un piloto sólo con estas expresiones.
The text was updated successfully, but these errors were encountered: