¿Qué es Big data?

Mundo conectado en la red
Los macrodatos,​ también llamados datos masivos, inteligencia de datos, datos a gran escala o big data (terminología en idioma inglés utilizada comúnmente) es un término que hace referencia a conjuntos de datos tan grandes y complejos que precisan de aplicaciones informáticas no tradicionales de procesamiento de datos para tratarlos adecuadamente. Los datos son la reproducción simbólica de un atributo o variable cuantitativa o cualitativa; según la RAE «Información sobre algo concreto que permite su conocimiento exacto o sirve para deducir las consecuencias derivadas de un hecho».​ Por ende, los procedimientos usados para encontrar patrones repetitivos dentro de esos datos son más sofisticados y requieren un software especializado. En textos científicos en español, con frecuencia se usa directamente el término en inglés big data, tal como aparece en el ensayo de Viktor Schönberger La revolución de los datos masivos.

El uso moderno del término "big data" tiende a referirse al análisis del comportamiento del usuario, extrayendo valor de los datos almacenados, y formulando predicciones a través de los patrones observados. La disciplina dedicada a los datos masivos se enmarca en el sector de las tecnologías de la información y la comunicación. Esta disciplina se ocupa de todas las actividades relacionadas con los sistemas que manipulan grandes conjuntos de datos. Las dificultades más habituales vinculadas a la gestión de estos grandes volúmenes de datos se centran en la recolección y el almacenamiento de los mismos, en las búsquedas, las comparticiones, y los análisis,​ y en las visualizaciones y representaciones. La tendencia a manipular enormes volúmenes de datos se debe en muchos casos a la necesidad de incluir dicha información para la creación de informes estadísticos y modelos predictivos utilizados en diversas materias, como los análisis sobre negocios, sobre publicidad, sobre enfermedades infecciosas, sobre el espionaje y el seguimiento a la población, o sobre la lucha contra el crimen organizado.

Definición
El término ha estado en uso desde la década de 1990, y algunos otorgan crédito a John Mashey​ por popularizarlo. Big data o macrodatos es un término que hace referencia a una cantidad de datos tal que supera la capacidad del software convencional para ser capturados, administrados y procesados en un tiempo razonable. El volumen de los datos masivos crece constantemente. En el 2012, se estimaba su tamaño de entre una docena de terabytes hasta varios petabyte de datos en un único conjunto de datos. En la metodología MIKE2.0, dedicada a investigar temas relacionados con la gestión de información, definen big data​ en términos de permutaciones útiles, complejidad y dificultad para borrar registros individuales.

Se ha definido también como datos lo suficientemente masivos como para poner de relieve cuestiones y preocupaciones en torno a la efectividad del anonimato desde una perspectiva más práctica que teórica.

En el 2001, en un informe de investigación que se fundamentaba en congresos y presentaciones relacionadas,​ la META Group (ahora Gartner) definía el crecimiento constante de datos como una oportunidad y un reto para investigar en el volumen, la velocidad y la variedad. Gartner' continúa usando datos masivos como referencia.​ Además, grandes proveedores del mercado de datos masivos están desarrollando soluciones para atender las demandas más críticas sobre cómo procesar tal cantidad de datos, como MapR y Cloudera.

Una definición de 2016 establece que "Big data representa los activos de información caracterizados por un volumen, velocidad y variedad tan altos que requieren una tecnología específica y métodos analíticos para su transformación en valor".​ Además, algunas organizaciones agregan una nueva V, veracidad para describirlo, revisionismo cuestionado por algunas autoridades de la industria.​ Las tres V (volumen, variedad y velocidad) se han ampliado a otras características complementarias del big data:
  • Aprendizaje automático: los grandes datos a menudo no preguntan por qué y simplemente detectan los patrones.
  • Huella digital: el Big Data es a menudo un subproducto libre de costo de la interacción digital.
Una definición de 2018 establece que "Big Data es donde se necesitan herramientas informáticas paralelas para manejar los datos", y señala: "Esto representa un cambio distinto y claramente definido en la informática utilizada a través de teorías de programación paralelas y pérdidas de algunas de las garantías y capacidades hechas por el modelo relacional de Codd".28​

La creciente madurez del concepto describe de manera clara y bien nítida, la diferencia entre "Big Data (Datos a gran escala)" y "Business intelligence (Inteligencia empresarial)":
  • La Business intelligence usa estadísticas descriptivas con datos con alta densidad de información para medir cosas, detectar tendencias, etc.
  • Por su parte, el Big Data usa estadísticas inductivas y conceptos de identificación de sistemas no lineales, para inferir leyes (regresiones, relaciones no lineales y efectos causales) a partir de grandes conjuntos de datos con baja densidad de información, con la finalidad de revelar relaciones y dependencias, o para realizar predicciones de resultados y comportamientos.
Características
Los macrodatos se pueden describir por las siguientes características:
  • Volumen: la cantidad de datos generados y guardados.
  • Variedad: el tipo y naturaleza de los datos para ayudar a las personas a analizar los datos y usar los resultados de forma eficaz. Los macrodatos usan textos, imágenes, audio y vídeo. También completan pedazos ¿Qué pedazos? pedidos a través de la fusión de datos.
  • Velocidad: en este contexto, la velocidad a la cual se generan y procesan los datos para cumplir las exigencias y desafíos de su análisis.
  • Veracidad: la calidad de los datos capturados puede variar mucho y así afectar a los resultados del análisis.
  • Valor: los datos generados deben ser útiles, accionables y tener valor.

Publicar un comentario

Artículo Anterior Artículo Siguiente