Tema 3: Sistemas de almacenamiento actuales
¿Qué es una base de datos?
Todos sabemos lo que es un DVD, un USB o una
tarjeta micro SD. Son dispositivos de almacenamiento “simples”. Pero, ¿Qué
sucede si deseo tener mi información ordenada para unos determinados propósitos
y usos? Para ello necesito una base de
datos, que se define como un conjunto estructurado de datos coherentes.
Los dos principales tipos de base de datos
son:
- De tipo dinámico u OLTP (On Line Transaction Processing): la información se modifica en tiempo real, es decir, los datos se modifican, se insertan, se eliminan o se consultan en línea durante la operación del sistema. (1)
- De tipo estático u OLAP (On Line Analytical Processing): no se realizan operaciones en tiempo real, solamente se realizan consultas sobre los datos para el análisis y toma de decisiones. (1)
Problemas con la información almacenada
Al empezar a utilizar una base de datos
recién creada el desempeño de ésta es óptimo pero según se incrementa el volumen
de información pueden surgir problemas como problemas de espacio en disco,
problemas a la hora de realizar consultas, incrementos de costo en almacenamiento
y procesamiento, es decir, problemas con la base de datos que pueden acarrear
pérdida de información.
Para ello se han implementado soluciones a
nivel de Hardware y Software como:
- HADR: es un sistema de replicación de datos que permite, en caso de fallo en el servidor principal, que uno de los servidores secundarios tome el control y pase a ser el servidor primario.
- PureScale: es una arquitectura basada en Clúster (2), es decir, la unión de varios servidores que trabajan como si fuese solo uno. Esto nos permite reducir el riesgo y el coste del crecimiento del negocio.
También se han implementado soluciones a
nivel de base de datos para hacer frente a problemas de rendimiento como:
- DPF: es
una característica que permite hacer particionar la base de datos. Con esto
mejoramos el rendimiento y la escalabilidad de nuestra base de datos. Está
solución se utiliza cuando se manejan grandes volúmenes de información.
- Table
partitioning: es lo mismo que DPF pero aplicando el concepto a las tablas
dentro de una base de datos.
- MDC
(Multi-Dimesion Clustering): es un método que permite agrupar los datos de
una tabla en varias dimensiones simultáneamente de una manera automática y
flexible para mejorar el rendimiento de las consultas.
- También podemos recurrir a la compresión de datos, que consiste en
reducir grandes volúmenes de información para que el espacio ocupado sea el
menor posible. Esto nos permite reducir el coste de almacenamiento e incrementa
el rendimiento de las consultas.
Data Warehouse y DataMart
Data
Warehouse es un almacén de datos que se utiliza para explotar grandes
cantidades de información con el objetivo de analizarla y ayudar a la toma de
decisiones de empresas. Maneja base de datos de tipo OLAP, es decir no
contienen datos actuales.
Data
Mart es un subconjunto de datos de un Data Warehouse. Nos permite separar
los datos para funciones, usuarios y áreas específicas. La principal diferencia
con respecto a Data Warehouse es que puede contener bases de datos de tipo
transaccional (OLTP).
El modelo de datos que se utiliza tanto en
Data Warehouse como en Data Mart es el conocido como Star Schema o esquema en estrella. Es un modelo de
datos que tiene una tabla de hechos (fact) que contiene los datos para el
análisis y alrededor sus dimensiones, que están relacionadas a la tabla de
hechos mediante una clave primaria. Este modelo es ideal por su simplicidad y
velocidad para llevar acabo análisis.
El futuro es Big Data
Big
Data (datos a gran escala) es el proceso de recolección de ingentes
cantidades de datos para su inmediato análisis con el fin de encontrar
información oculta, patrones recurrentes, nuevas correlaciones, etc. Es decir,
el propósito principal de utilizar el Big Data es alcanzar una información
precisa, eficiente y efectiva que nos permita ejecutar una toma de decisiones
en línea con los movimientos del mercado.
Hay dos principales tipos de datos:
- Datos
estructurados: son aquellos que poseen una longitud y formato, como puedan
ser fechas, y que pueden ser almacenados en tablas. Aquí se incluyen datos
relacionados con los censos de población, encuestas, transacciones bancarias,
compras realizadas online (3).
- Datos no
estructurados: son aquellos que carecen de un formato concreto, no pudiendo
ser almacenados en tablas. Aquí diferenciamos los datos de tipo texto, que son
los generados en redes sociales, foros, etc. Y los datos de tipo no-texto, como
puede ser cualquier archivo de tipo imagen, video o audio.
- Datos no
estructurados: son aquellos datos que no se limitan a campos determinados
aunque poseen organización interna, lo que facilita el tratamiento de sus
elementos. Aquí se incluyen datos de tipo XML, HTML o JSON (3).
La utilización del Big Data supone grandes
ventajas en ámbitos como:
- Empresarial:
una tienda online puede optimizar el stock a través de la información obtenida
de lo que busca una persona en su página Web o analizando los foros o redes
sociales. También se aprovecha de esto el sector de las telecomunicaciones, que
gracias a la información extraída del consumo de voz y datos, pueden ofrecer
unos determinados packs personalizados para cada cliente.
- Seguridad:
los gobiernos pueden aprovechar el Big Data para investigar criminales y poder
luchar contra el terrorismo de manera más eficaz.
- Sanidad:
mediante el cruce de información de historiales clínicos, hábitos de consumo,
clima y entorno, se puede ayudar a la detención precoz de enfermedades.
La principal desventaja del Big
Data es la privacidad porque todo se controla, analiza y rentabiliza sin tener
nosotros un control sobre el uso y fin de nuestra información (4).
Referencias