domingo, 13 de marzo de 2016


Tema 3: Sistemas de almacenamiento actuales



¿Qué es una base de datos?

Todos sabemos lo que es un DVD, un USB o una tarjeta micro SD. Son dispositivos de almacenamiento “simples”. Pero, ¿Qué sucede si deseo tener mi información ordenada para unos determinados propósitos y usos? Para ello necesito una base de datos, que se define como un conjunto estructurado de datos coherentes.

Los dos principales tipos de base de datos son:

-   De tipo dinámico u OLTP (On Line Transaction Processing): la información se modifica en tiempo real, es decir, los datos se modifican, se insertan, se eliminan o se consultan en línea durante la operación del sistema. (1)

-  De tipo estático u OLAP (On Line Analytical Processing): no se realizan operaciones en tiempo real, solamente se realizan consultas sobre los datos para el análisis y toma de decisiones. (1)

Cuando surgen las bases de datos, los tipos de datos que permiten almacenar son de tipo numérico, decimal y tipo texto. Según han ido evolucionando las bases de datos, han aparecido otros tipos de datos como los CLOB (Character Large Objetct), que sirven para almacenar documentos y BLOB (Binary Large Object), que sirven para almacenar imágenes o vídeos. También surge el tipo de dato XML, que es un tipo de dato jerárquico porque parte de un nodo raíz, y éste puede tener varios subniveles.



Problemas con la información almacenada

Al empezar a utilizar una base de datos recién creada el desempeño de ésta es óptimo pero según se incrementa el volumen de información pueden surgir problemas como problemas de espacio en disco, problemas a la hora de realizar consultas, incrementos de costo en almacenamiento y procesamiento, es decir, problemas con la base de datos que pueden acarrear pérdida de información.

Para ello se han implementado soluciones a nivel de Hardware y Software como:

-  HADR: es un sistema de replicación de datos que permite, en caso de fallo en el servidor principal, que uno de los servidores secundarios tome el control y pase a ser el servidor primario.

-  PureScale: es una arquitectura basada en Clúster (2), es decir, la unión de varios servidores que trabajan como si fuese solo uno. Esto nos permite reducir el riesgo y el coste del crecimiento del negocio.

También se han implementado soluciones a nivel de base de datos para hacer frente a problemas de rendimiento como:

-   DPF: es una característica que permite hacer particionar la base de datos. Con esto mejoramos el rendimiento y la escalabilidad de nuestra base de datos. Está solución se utiliza cuando se manejan grandes volúmenes de información.

-  Table partitioning: es lo mismo que DPF pero aplicando el concepto a las tablas dentro de una base de datos.

-  MDC (Multi-Dimesion Clustering): es un método que permite agrupar los datos de una tabla en varias dimensiones simultáneamente de una manera automática y flexible para mejorar el rendimiento de las consultas.

-   También podemos recurrir a la compresión de datos, que consiste en reducir grandes volúmenes de información para que el espacio ocupado sea el menor posible. Esto nos permite reducir el coste de almacenamiento e incrementa el rendimiento de las consultas.



Data Warehouse y DataMart

Data Warehouse es un almacén de datos que se utiliza para explotar grandes cantidades de información con el objetivo de analizarla y ayudar a la toma de decisiones de empresas. Maneja base de datos de tipo OLAP, es decir no contienen datos actuales.

Data Mart es un subconjunto de datos de un Data Warehouse. Nos permite separar los datos para funciones, usuarios y áreas específicas. La principal diferencia con respecto a Data Warehouse es que puede contener bases de datos de tipo transaccional (OLTP).

El modelo de datos que se utiliza tanto en Data Warehouse como en Data Mart es el conocido como Star Schema o esquema en estrella. Es un modelo de datos que tiene una tabla de hechos (fact) que contiene los datos para el análisis y alrededor sus dimensiones, que están relacionadas a la tabla de hechos mediante una clave primaria. Este modelo es ideal por su simplicidad y velocidad para llevar acabo análisis.



El futuro es Big Data

Big Data (datos a gran escala) es el proceso de recolección de ingentes cantidades de datos para su inmediato análisis con el fin de encontrar información oculta, patrones recurrentes, nuevas correlaciones, etc. Es decir, el propósito principal de utilizar el Big Data es alcanzar una información precisa, eficiente y efectiva que nos permita ejecutar una toma de decisiones en línea con los movimientos del mercado.

Hay dos principales tipos de datos:

-  Datos estructurados: son aquellos que poseen una longitud y formato, como puedan ser fechas, y que pueden ser almacenados en tablas. Aquí se incluyen datos relacionados con los censos de población, encuestas, transacciones bancarias, compras realizadas online (3).

-  Datos no estructurados: son aquellos que carecen de un formato concreto, no pudiendo ser almacenados en tablas. Aquí diferenciamos los datos de tipo texto, que son los generados en redes sociales, foros, etc. Y los datos de tipo no-texto, como puede ser cualquier archivo de tipo imagen, video o audio.

-  Datos no estructurados: son aquellos datos que no se limitan a campos determinados aunque poseen organización interna, lo que facilita el tratamiento de sus elementos. Aquí se incluyen datos de tipo XML, HTML o JSON (3).

La utilización del Big Data supone grandes ventajas en ámbitos como:

-   Empresarial: una tienda online puede optimizar el stock a través de la información obtenida de lo que busca una persona en su página Web o analizando los foros o redes sociales. También se aprovecha de esto el sector de las telecomunicaciones, que gracias a la información extraída del consumo de voz y datos, pueden ofrecer unos determinados packs personalizados para cada cliente.

-  Seguridad: los gobiernos pueden aprovechar el Big Data para investigar criminales y poder luchar contra el terrorismo de manera más eficaz.

-  Sanidad: mediante el cruce de información de historiales clínicos, hábitos de consumo, clima y entorno, se puede ayudar a la detención precoz de enfermedades.

La principal desventaja del Big Data es la privacidad porque todo se controla, analiza y rentabiliza sin tener nosotros un control sobre el uso y fin de nuestra información (4). 


Referencias


No hay comentarios:

Publicar un comentario