Tema 5: La recuperación de la Información
¿Qué es la recuperación de la Información?
La recuperación
de la información (IR) es el área de la ciencia y la tecnología que trata
de la adquisición, representación, almacenamiento, organización y acceso a
elementos de información.
Existen dos tipos de sistemas que procesan
información:
- Los
sistemas de Bases de datos: están diseñados con una estructura semántica
bien definida, de tal manera que una consulta obtiene como salida todos los
resultados posibles sin posibilidad de error.
- Los
sistemas de Recuperación de Información: están diseñados para el
procesamiento del lenguaje natural. Los resultados de las búsquedas
frecuentemente contienen errores y no tienen la necesidad de ser completos. El
objetivo es tratar de devolver el mayor número de documentos e información
relevante mientras se minimiza el número de información no relevante.
Tareas de Recuperación de Información
Existen varios tipos de tareas de
Recuperación de Información dependiendo de la tarea a realizar. Son los
siguientes:
- Recuperación
ad hoc: Es la utilizan los buscadores web. Los usuarios realizan consultas
(dinámicas) sobre un conjunto de documentos que permanece estable y estático.
- Categorización
o clasificación de documentos: funciona asignando un documento a una o más
clases de documentos previamente fijadas en función de su contenido. Se
distinguen dos tipos de tareas, el denominada enrutamiento que consiste en
ordenar los resultados en función de sus similaridad respecto al perfil. Y el
filtrado, que se limita a aceptar o rechazar un documento dependiendo de un
juicio de valor, siendo de esta manera más estricto que el enrutamiento.
- Clustering
de documentos: consiste en generar una serie de clases a partir de un
conjunto de documentos.
- Segmentación
de documentos: consiste en dividir un documento en varias partes que traten
subtemas diferentes.
Técnicas de Recuperación de Información
Existen varias técnicas de recuperación de información. Algunas de ellas
son las siguientes:
- Sistemas
de recuperación de lógica difusa: consiste en establecer consultas con
“frases normales” de manera que al realizar la consulta la máquina pueda
eliminar los signos de puntuación, tiempos verbales, conjunciones, etc. Dejando
solamente aquellas palabras que son relevantes. La recuperación se basa en
proposiciones lógicas con valores de verdadero y falso según la localización de
dichas palabras en el documento.
- Técnicas
de ponderación de términos: los documentos que se recuperan dependen del
valor obtenido en una ponderación, que se realiza dependiendo de los intereses
del usuario, es decir, de los términos relevantes que contenga el documento y
la frecuencia de repetición.
- Técnica
de clustering: se basa en atribuir unos valores a los documentos para
agruparlos por orden de importancia mediante algoritmos ranking como COBWEB o
EM.
- Técnicas
de retroalimentación por relevancia: esta técnica realiza varias búsquedas,
es decir, después de obtener unos documentos recuperados y observarlos, vuelve
a realizar la consulta pero esta vez con los elementos clave previamente
obtenidos de los documentos recuperados.
- Técnicas
de stemming: se basa en realizar búsquedas por raíces truncando las
palabras. De esta manera se eliminan las posibles confusiones léxicas y
semánticas.
Referencias
No hay comentarios:
Publicar un comentario