fbpx

¿QUÉ ES BIG DATA?

5-big data

• Seguramente hemos leído o escuchado la palabra big data en algún lado y en nuestra mente la hemos almacenado junto con todas esas cosas que suponemos lo que son, sin estar completamente seguros. Y tal vez este sea el caso en el que el significado de la palabra no tiene que ver mucho con su título.

big data, big data, big data, big data, big data, big data, big data,

¿Qué es Big Data?

Para empezar, big data no es una sola cosa y forma parte de una cadena de herramientas utilizadas para asociar metodologías de recolección, almacenamiento y tratamiento de la información. En el caso particular de la big data   – o macrodata – , podemos decir que vino a resolver problemas de almacenamiento y tratado de nuevos tipos de datos.

 

El problema de los datos

 Para poder entender la problemática debemos partir de una máxima. Todo dispositivo electrónico genera datos. Ellos están estructurados en función a como fueron programados para generarse y dependiendo de su estructura pueden almacenarse  en diferentes  sistemas de gestión de base de datos (SGBD). Estos sistemas de almacenamiento son relacionaleses decir, son capaces de generar distinto tipo de información en función al tipo de relación que construyamos al consultar los datos allí almacenados.

Conforme al avance de la tecnología, las fuentes de datos se multiplicaron de forma incalculable y con ellas su valor, ya que con una buena cantidad de datos podemos recrear patrones de comportamiento y predecir con cierta eficacia sucesos o acontecimientos de distinta índole, desde patrones de consumo, hasta la durabilidad de maquinaria industrial pasando por mejoras sustanciales en los sistemas de predicción como aquellos relacionados a la meteorología, entre muchos otros. 

Podríamos decir sin riesgo a equivocarnos que el dato es el petróleo del siglo XXI ya que sobre su extracción y tratamiento se construye una industria fundamental en la cadena de valor, la industria tecnológica. 

El gran problema surgió a partir de que los SGBD convencionales no estaban preparados para almacenar y procesar tanta cantidad de datos, y al mismo tiempo, no tenían la capacidad de construir nueva información a partir de la introducción de nuevas estructuras de datos.

 

La problemática se dividió en tres partes

Escalabilidad: Debido a los costos que implicaba adquirir hardware para una cantidad de datos que crecía constantemente y la imposibilidad de trabajar con bases de datos relacionales en paralelo de forma segura.

Heterogeneidad: Causada por la aparición de nuevas estructuras de datos, principalmente aquellas denominadas de clave-valor (json) y la imposibilidad de ver cierto tipo de relaciones, como herencias de objetos o columnas variables según filas.

Velocidad: En la generación de datos y las dificultades para poder procesarlos debido a las limitaciones antes mencionadas.

"El dato es el petróleo del siglo XXI ya que sobre su extracción y tratamiento se construye una industria fundamental en la cadena de valor, la industria tecnológica."

sistema big data

big data, big data,

•La solución de Big Data

Afortunadamante el problema se vió solucionado con el surgimiento de las bases de datos no relacionales, también conocidas como NoSQL. Ellas permiten administrar datos no estructurados asegurando mayor velocidad y capacidad de procesamiento al no tener que incurrir en relaciones entre tablas, terminando de esta manera con las limitaciones antes mencionadas.Este tipo de bases –Not Only SQL- tienen distintas ramas, como por ejemplo:

BD key – value (clave – valor): Son aquellas que guardan información en clave binaria. La primer columna identifica la fila, y la segunda el valor. Lo malo de este tipo de BD es que la misma no puede interpretar esa información al encontrarse en binario (o-1). Así surgen las BD orientadas a documentos.

BD orientada a documentos: Surgen como una evolución de las bases de datos de tipo clave – valor, ya que los valores son almacenados en formato legible por el SGBD (json). Un ejemplo de este tipo de bases es MongoDB.

BD orientada a objetos: Este tipo de bases surgen a partir de la necesidad de llevar la Programación Orientada a Objetos (POO) a la estructura de las BD. Este tipo de bases permiten manejar conceptos como «herencia».

Otras soluciones: Aplicaciones distribuidas.

Este mismo problema tenían empresas como Google y Yahoo. La primera necesitaba procesar billones de páginas para resumir su ranking de páginas (PageRank). Con esta premisa, creó un algoritmo llamado MapReduce que permitió dar soporte al procesamiento de grandes volúmenes de datos en paralelo, en diferentes nodos (computadoras). Por su parte Yahoo desarrolló Hadoop, un entorno de licencia libre para desarrollar aplicaciones distribuidas (funcionales para trabajar en paralelo en diferentes sistemas) con capacidad de manejar grandes volúmenes de datos y al mismo tiempo trabajar con miles de nodos en red. 

En conjunto, se presentan como una solución para el tratamiento de grandes volúmenes de información de forma gratuita, muy utilizado en la actualidad por grandes empresas.

 

•¿Entonces?

Como hemos visto, Big Data es el proceso en el que se almacena y se procesan grandes cantidades de información (50 terabytes de mínima). Es necesario aclarar que si bien las soluciones de bases de datos no relacionales son muy utilizadas para este tipo de procesos, eso no significa que las bases de datos tradicionales se hayan dejado de utilizar, muy por el contrario. En un sistema de ventas, por ejemplo, no tiene sentido utilizar base de datos no relacionales. 

Por lo demás, el manejo de la macrodata  – o Big Data – ha dado lugar a otro tipo de actividades  como la Data Science y procesos ETL para Datawarehousing, entre muchos otros.

big data, big data,big data,
consultoria de empresas consultorías consultoria empresas consultoras consultorias empresariales gestión consultores consultora de marketing consultoras de marketing consultoria pyme consultoría pyme servicios de consultoria consultoria marketing consultoria en marketing consultoria
© 2019 All Rights Reserved