domingo, 17 de abril de 2016

Tema 5: La recuperación de la Información

¿Qué es la recuperación de la Información?

La recuperación de la información (IR) es el área de la ciencia y la tecnología que trata de la adquisición, representación, almacenamiento, organización y acceso a elementos de información. 

Existen dos tipos de sistemas que procesan información:

-  Los sistemas de Bases de datos: están diseñados con una estructura semántica bien definida, de tal manera que una consulta obtiene como salida todos los resultados posibles sin posibilidad de error.

-  Los sistemas de Recuperación de Información: están diseñados para el procesamiento del lenguaje natural. Los resultados de las búsquedas frecuentemente contienen errores y no tienen la necesidad de ser completos. El objetivo es tratar de devolver el mayor número de documentos e información relevante mientras se minimiza el número de información no relevante.



 Tareas de Recuperación de Información

Existen varios tipos de tareas de Recuperación de Información dependiendo de la tarea a realizar. Son los siguientes:

-  Recuperación ad hoc: Es la utilizan los buscadores web. Los usuarios realizan consultas (dinámicas) sobre un conjunto de documentos que permanece estable y estático.

-  Categorización o clasificación de documentos: funciona asignando un documento a una o más clases de documentos previamente fijadas en función de su contenido. Se distinguen dos tipos de tareas, el denominada enrutamiento que consiste en ordenar los resultados en función de sus similaridad respecto al perfil. Y el filtrado, que se limita a aceptar o rechazar un documento dependiendo de un juicio de valor, siendo de esta manera más estricto que el enrutamiento.

-  Clustering de documentos: consiste en generar una serie de clases a partir de un conjunto de documentos.

-  Segmentación de documentos: consiste en dividir un documento en varias partes que traten subtemas diferentes.



Técnicas de Recuperación de Información

Existen varias técnicas de recuperación de información. Algunas de ellas son las siguientes:

-  Sistemas de recuperación de lógica difusa: consiste en establecer consultas con “frases normales” de manera que al realizar la consulta la máquina pueda eliminar los signos de puntuación, tiempos verbales, conjunciones, etc. Dejando solamente aquellas palabras que son relevantes. La recuperación se basa en proposiciones lógicas con valores de verdadero y falso según la localización de dichas palabras en el documento.

-  Técnicas de ponderación de términos: los documentos que se recuperan dependen del valor obtenido en una ponderación, que se realiza dependiendo de los intereses del usuario, es decir, de los términos relevantes que contenga el documento y la frecuencia de repetición.

-  Técnica de clustering: se basa en atribuir unos valores a los documentos para agruparlos por orden de importancia mediante algoritmos ranking como COBWEB o EM.

-  Técnicas de retroalimentación por relevancia: esta técnica realiza varias búsquedas, es decir, después de obtener unos documentos recuperados y observarlos, vuelve a realizar la consulta pero esta vez con los elementos clave previamente obtenidos de los documentos recuperados.

-  Técnicas de stemming: se basa en realizar búsquedas por raíces truncando las palabras. De esta manera se eliminan las posibles confusiones léxicas y semánticas.



Referencias


domingo, 3 de abril de 2016

Tema 4: El sistema de búsqueda de Google


¿Qué es el buscador de Google?

El buscador de Google es un motor de búsqueda más utilizado en la Web. El principal objetivo de este buscador es buscar texto en las páginas Web, en vez de buscar otro tipo datos (1).


Cómo funciona la búsqueda de Google

Hay tres métodos principales mediantes los cuales se proporcionan lo que se denominan como resultados de búsqueda:

-   Rastreo: Google posee lo que se denominan “arañas”, que son ordenadores navegando continuamente por internet buscando y almacenando información, para después almacenar e indexar dicha información en sus servidores (3).

-  Indexación: el robot de Google o “araña” procesa todas las páginas que rastrea para compilar un índice masivo de todas las palabras que ve junto con su ubicación en cada página. También procesa la información incluida en los atributos de contenido clave y en las etiquetas. La construcción de un índice permite organizar la información de una forma muy eficiente para poder presentar los resultados de las búsquedas de una manera rápida y acertada (3).

-  Publicación de resultados: cuando un usuario introduce una búsqueda a realizar, Google busca en el índice las páginas que coinciden con esa consulta y muestra así los resultados que considera más relevantes, que vienen determinados por varios factores, siendo uno de ellos la clasificación PageRank. Google asigna a una página una clasificación determinada dependiendo del número de enlaces procedentes de otras páginas Web (3).

Otro apartado importante es cómo Google consigue obtener búsquedas personalizas para el usuario. En el momento que el usuario empieza a escribir la consulta, las auto terminaciones que se proponen ya están orientadas a las preferencias de dicho usuario. Las preferencias se determinan a partir de criterios como el historial de navegación, la ubicación geográfica, fecha actual o las denominadas “señales personales del usuario”, que no es ni más ni menos que la información que conoce Google sobre nosotros (2).

Recientemente Google está trabajando para mejorar sus búsquedas mediante la comprensión semántica de las consultas y las respuestas. Es importante diferenciar, por ejemplo, el singular y el plural. También trabaja en conceptos como sinónimos o dobles significados de una palabra dependiendo del contexto (2).

Google se auto alimenta con las elecciones de los usuarios a las propuestas presentadas tras su búsqueda para saber la respuesta más acertada. En otras palabras, Google no tiene información de las búsquedas que no se han realizado. Un dato interesante es que cada día, entre el 15% y el 20% de las consultas que se realizan, nunca se han realizado antes (2).


 Calidad de la información mostrada por Google

Para que nuestra página web tenga éxito, debe colocarse en el top de búsquedas. Está demostrado que las tres primeras posiciones de una consulta en Google se llevan el 70% de las visitas (4). Pero para aparecer en las primeras posiciones de Google existen más de 200 factores de posicionamiento. Estos factores  se dividen en dos tipos:

1)  Factores externos: son aquellos que no podemos controlar de manera directa. Señalan a los buscadores si una web es de confianza o no. El comportamiento del usuario, la calidad de los links externos y las señales sociales son algunos de los más importantes (5).

-  La calidad de los links externos: Google da más importancia a la calidad de las webs que dirigen a una web, que a la cantidad.
-  El comportamiento del usuario: dependiendo de las páginas que ha visitado un usuario anteriormente y con qué frecuencia, el buscador de Google muestra unos resultados u otros.
-  Las señales sociales: las menciones en las redes sociales influyen a la hora de designar la autoridad del dominio, es decir, un link compartido en Twitter puede decidir si una página aparece más arriba en los resultados de búsqueda.

2) Factores internos: son los que podemos controlar directamente, es decir, los relativos a la web. Su objetivo principal es facilitar a los buscadores cuando acceden a nuestras páginas. La calidad del contenido, la arquitectura web y el código HTML son los factores más relevantes (5).

-  El contenido: es el factor más importante para posicionarnos en una posición top. La clave está en ofrecer un contenido original e interesante. Google Panda se encarga de establecer si un contenido es original o no.
-   La arquitectura web: tener una buena estructura de URLs ayuda a que las arañas de Google accedan a nuestra web. Además también mejora la usabilidad y mejora la experiencia de usuario.
-  El código HTML: es necesario poseer un código estructurado y optimizado debido a que los motores de búsqueda utilizan ciertas etiquetas HTML para mostrar información del contenido en sus resultados de búsqueda.


Referencias