domingo, 17 de abril de 2016

Tema 5: La recuperación de la Información

¿Qué es la recuperación de la Información?

La recuperación de la información (IR) es el área de la ciencia y la tecnología que trata de la adquisición, representación, almacenamiento, organización y acceso a elementos de información. 

Existen dos tipos de sistemas que procesan información:

-  Los sistemas de Bases de datos: están diseñados con una estructura semántica bien definida, de tal manera que una consulta obtiene como salida todos los resultados posibles sin posibilidad de error.

-  Los sistemas de Recuperación de Información: están diseñados para el procesamiento del lenguaje natural. Los resultados de las búsquedas frecuentemente contienen errores y no tienen la necesidad de ser completos. El objetivo es tratar de devolver el mayor número de documentos e información relevante mientras se minimiza el número de información no relevante.



 Tareas de Recuperación de Información

Existen varios tipos de tareas de Recuperación de Información dependiendo de la tarea a realizar. Son los siguientes:

-  Recuperación ad hoc: Es la utilizan los buscadores web. Los usuarios realizan consultas (dinámicas) sobre un conjunto de documentos que permanece estable y estático.

-  Categorización o clasificación de documentos: funciona asignando un documento a una o más clases de documentos previamente fijadas en función de su contenido. Se distinguen dos tipos de tareas, el denominada enrutamiento que consiste en ordenar los resultados en función de sus similaridad respecto al perfil. Y el filtrado, que se limita a aceptar o rechazar un documento dependiendo de un juicio de valor, siendo de esta manera más estricto que el enrutamiento.

-  Clustering de documentos: consiste en generar una serie de clases a partir de un conjunto de documentos.

-  Segmentación de documentos: consiste en dividir un documento en varias partes que traten subtemas diferentes.



Técnicas de Recuperación de Información

Existen varias técnicas de recuperación de información. Algunas de ellas son las siguientes:

-  Sistemas de recuperación de lógica difusa: consiste en establecer consultas con “frases normales” de manera que al realizar la consulta la máquina pueda eliminar los signos de puntuación, tiempos verbales, conjunciones, etc. Dejando solamente aquellas palabras que son relevantes. La recuperación se basa en proposiciones lógicas con valores de verdadero y falso según la localización de dichas palabras en el documento.

-  Técnicas de ponderación de términos: los documentos que se recuperan dependen del valor obtenido en una ponderación, que se realiza dependiendo de los intereses del usuario, es decir, de los términos relevantes que contenga el documento y la frecuencia de repetición.

-  Técnica de clustering: se basa en atribuir unos valores a los documentos para agruparlos por orden de importancia mediante algoritmos ranking como COBWEB o EM.

-  Técnicas de retroalimentación por relevancia: esta técnica realiza varias búsquedas, es decir, después de obtener unos documentos recuperados y observarlos, vuelve a realizar la consulta pero esta vez con los elementos clave previamente obtenidos de los documentos recuperados.

-  Técnicas de stemming: se basa en realizar búsquedas por raíces truncando las palabras. De esta manera se eliminan las posibles confusiones léxicas y semánticas.



Referencias


No hay comentarios:

Publicar un comentario