Procesamiento del lenguaje natural para el acceso a la información

Calificaciones

  • Notas de los alumnos aprobados [ pdf ].

Cualquier consulta respecto a las notas, escriba a eci@dc.uba.ar

Apuntes

 

Turno:

  Noche(19 a 22 hs).

Idioma:

Castellano.

Requisitos:

Nociones de lenguajes regulares y libres de contexto; autómatas. Programación: algoritmos y estructuras de datos, Conocimiento de Java (deseable).

Objetivos:

Este curso se concentra en el desarrollo de aplicaciones prácticas que incluyen el uso de tecnología del leguaje natural. Se introducirán conceptos de Procesamiento del Lenguaje Natural (PLN) que reforzarán con el desarrollo, testeo y tecnología de evaluación en sesiones de demostración. Las aplicaciones que se estudiarán en el curso incluyen: Extracción de Información, Sistemas de Respuesta a Pregutnas (QA) y Resumen de Texto. Ninguna de las aplicaciones se estudiarán en detalle. El objetivo principal del curso es promover el uso del PLN y facilitar el acceso a la tecnología disponible que puede ser adaptada para aplicaciones en domininos específicos, de modo que los estudiantes puedan encontrar la motivación para desarrollar sus propias herramientas o sistemas.

Programa:

  • Panorama de las tecnologías del PLN, incluyendo el rotulado de clases de palabra, reconocimiento de entidades, parsing, interpretación semántica, y resolución de co-referencia.
  • Tecnología del Procesamiento del Lenguaje Natural para el acceso a Información. Sistemas existentes y proyectos que combinan PLN avanzado.
  • Extracción de Información: reconocimiento de entidades, extracción de relaciones, extracción de eventos, aprendizaje basado en reglas y automático, evaluación, TREC/QA.
  • Resumen automático de Texto. Extracción de oraciones, rasgos superficiales para la extracción de oraciones, combinación de rasgos, resumen de documentos múltiples, evaluación, Conferencias de Compresión de Documentos.
Herramientas que se usarán en el aprendizaje y desarrollo, (son de libre acceso y estarán disponibles para el laboratorio):
  • Sistema GATE.
  • Kit de herramientas para Resumen Automático.
  • El parser SUPPLE.
  • Sistema de Respuesta a Preguntas (QA), desarrollado en Sheffield.
  • Lucene, usado para desarrollar un sistema de Recuperación de Información para QA.
  • Colección de datos como la colección AQUAINT y el DUC corpus, serán usados como fuentes para el desarrollo de aplicaciones.

Profesor:

  • Horacio Saggion, Department of Computer Science, University of Sheffield, UK.

    Dr. Saggion is a research fellow in the Natural Language Processing group, Department of Computer Science, University of Sheffield, England, UK. His area of expertise is Text Summarization. He works on information extraction, question answering, and text summarization. He obtained his PhD. in 2000 from Université de Montréal, Departement d’Informatique et de Recherche Operationnelle; his Master degree from Universidade Estadual de Campinas (UNICAMP), Departamento de Computacão in 1995; and his undergraduate degree of "Licenciado" in 1988 from Universidad de Buenos Aires, Departamento de Computación. He has published over 40 works in conferences, workshops and journal papers as well as written two book chapters. He has also organised a workshop on text summarization in RANLP 2005. Together with his research career, he has been an active teacher, he was assistant professor and researcher at Universidad de Buenos Aires (1986-1997), Universidad Nacional de Quilmes (1995-1996), and Université de Montréal (fall 1998 and fall 1999), and invited researcher at Johns Hopkins University and Université de Paris VII. He has been a member of several scientific program committees in natural language processing and artificial intelligence. He has received awards from several institutions including Ministerio de Educación de la Nación (Argentina), Fundación Antorchas (Argentina), and Université de Montréal (Canada). He has given an introductory course on Text Summarization in ESSLLI 2005 and a course on information access in ESSLLI 2007. He also gave a tutorial on Text Summarization in LREC 2006 and on Text Summarization and Question Answering in IJCNLP 2008.