1. Introducción

Big data es un concepto que está de moda. Esta popularidad conlleva su referencia frecuentemente desde los últimos años y un gran número de empresas asegura utilizarlo en su actividad. Sin embargo, no todo lo que se menciona sobre big data es cierto. Se afirma que el 65 % de los proyectos de big data que se empiezan en España fracasan. Esta situación se debe a que las organizaciones no están preparadas, a la existencia de un gran desconocimiento, además de a una escasa formación.

El 65 % de los proyectos de big data que se empiezan en España fracasan

Pero ¿cuándo empezó realmente el big data?, ¿es una nueva tendencia o ya existía?, ¿tiene las horas contadas o será un concepto que ganará más importancia en el futuro a corto plazo?

A pesar de que el big data es una tendencia muy reciente gracias al desarrollo tecnológico de los últimos años, los cimientos de los conceptos que soportan este término de almacenamiento y tratamiento de datos llevan establecidos desde hace un largo periodo de tiempo.

En el siguiente cuadro se muestra la evolución histórica del concepto de almacenamiento de datos y el surgimiento del actual big data.

Cuadro 1. Evolución histórica del concepto de almacenamiento de datos y big data

Etapa

Avances

Historia antigua de los datos

18000 a. C.: Se registran datos de la actividad comercial e inventarios por primera vez a través de palillos.
2400 a. C.: Se crea el ábaco y surgen las primeras bibliotecas en Babilonia.
300-48 a. C.: La biblioteca de Alejandría se convierte en el mayor centro de almacenamiento de datos.
100-200 d. C.: Se desarrolla el mecanismo de Anticitera, el primer ordenador mecánico.

Aparición de la
estadística

1663: John Graunt lleva a cabo los primeros experimentos estadísticos para frenar la peste en Europa.
1865: Richard Millar utiliza por primera vez el término «inteligencia de negocios».
1881: Herman Hollerith fabrica la máquina de tabulación Hollerith para reducir la carga del censo de Estados Unidos.

Primeras bases de almacenamiento de datos modernas

1926: Nikola Tesla predice que en el futuro se podrán consultar grandes volúmenes de datos desde dispositivos tan pequeños que cabrán en un bolsillo.
1928: Fritz Pfleumer crea un método de almacenamiento de datos magnético, que será base del sistema de almacenamiento de datos digital moderno.

Inicio de la inteligencia de negocios

1958: Hans Peter Luhn define la inteligencia de los negocios como «la capacidad de aprender las interrelaciones de los hechos presentados, de tal forma que permiten orientar la acción hacia una meta deseada».

Primeros grandes centros de datos

1965: Se plantea en Estados Unidos un centro de datos capaz de almacenar 745 millones de declaraciones de impuestos y 175 millones de huellas digitales.
1970: Edgar F. Codd desarrolla para IBM el modelo de base de datos relacional y el sistema de archivos jerárquico que permite acceder a los registros mediante un sistema de índice simple. Esto posibilita el uso de bases de datos para cualquiera.
1976: La informática y el almacenamiento de datos se utilizan a diario.
1989: Erik Larson usa el término big data por primera vez en una revista de ficción.

Surgimiento de internet

1991: El nacimiento de internet facilita que cualquier persona pueda subir sus propios datos y analizar los del resto.
1996: El almacenamiento digital es más barato que en papel.
1997: Google lanza su motor de búsqueda y Michael Lesk valora que el universo digital está aumentando 10 veces su tamaño por año.

Primeras nociones de big data

1999: Se usa el término big data por primera vez en un trabajado académico: «Visually Exploring Gigabyte Datasets in Realtime» (ACM), y el término IoT (Internet of Things), en una presentación de Kevin Ashton para Procter and Gamble.
2001: Doug Laney define las tres uves (3 V) del big data: volumen, velocidad y variedad.

Origen de big data

2003-
2004: Doug Cutting crea Apache Hadoop junto con Mike Cafarella a partir de los papers de Google Labs (Google publica un paper sobre Google File System en octubre de 2003 y otro sobre MapReduce en diciembre de 2004).
Hadoop es un software que soporta aplicaciones de licencia libre y permite escalar desde un único servidor a miles de máquinas, cada una de las cuales ofrece un cómputo y almacenamiento local.

Aumento del volumen de datos

2005: Se aumenta el volumen de datos gracias a la web 2.0.

Concepto actual de big data

2007: Emerge el concepto actual de big data.
2008: Se procesan 9,57 zetabytes de información por las CPU del mundo y se estiman 14,7 exabytes de nueva creación para ese año.
2009: McKinsey Global Institute realiza el informe sobre big data «The Next Frontier for Innovation, Competition and Productivity», en el que valora el promedio de 200 terabytes de datos alojados en compañías estadounidenses con más de 100 empleados.
2010: Se crea Spark Research Paper y Eric Schmidt, presidente ejecutivo de Google, afirma que se crean más datos en dos días que desde el comienzo de la civilización humana hasta 2003.
2011: El informe de McKinsey predice para el año 2018 que Estados Unidos se enfrentará a un déficit entre 140.000 y 190.000 científicos profesionales de datos y plantea problemas sobre la privacidad, seguridad y propiedad de los datos.
2014: Spark se convierte en un proyecto Apache de alto nivel. Además, el uso de internet móvil supera por primera vez al de los ordenadores. 2015: Spark se convierte en el estándar para el desarrollo de procesamiento por lotes en Hadoop.
2016: El big data se convierte en un término de moda. Se generaliza la contratación de profesionales expertos en la materia, el machine learning llega a las fábricas y se extiende el uso del IoT.
2017: Apache Flink sustituye a Apache Spark para el procesamiento por lotes y de flujo. Los datos llegan en masa y se está dispuesto a usarlos. Las compañías utilizan analítica de datos en todas sus áreas y la población controla hasta sus patrones de descanso o gestiona sus finanzas con aplicaciones móviles.

Actualidad

2018: El Reglamento general de protección de datos –RGPD– (Reglamento (UE) 2016/679 del Parlamento Europeo y del Consejo, de 27 de abril de 2016) obliga a las empresas a obtener de cero el consentimiento expreso de los consumidores y se extienden tendencias como los chatbots.

Fuente: Elaboración propia basada en Marr (2016).

De forma visual, la evolución del ecosistema de Apache Hadoop se muestra en la siguiente figura:

Figura 1. Evolución del ecosistema Apache Hadoop

Por tanto, el almacenamiento de datos para su posterior aprovechamiento siempre ha existido. Son las nuevas tecnologías y tendencias las que han propulsado el desarrollo del concepto de big data, que se plantea como uno de los avances más prósperos para las industrias de todos los sectores de cara al futuro.

Son las nuevas tecnologías y tendencias las que han propulsado el desarrollo del concepto de big data, que se plantea como uno de los avances más prósperos para las industrias de todos los sectores de cara al futuro

Dentro del área de marketing, podríamos resumir su reciente aplicación en la siguiente figura:

Figura 2. Desarrollo de aplicaciones de big data en marketing

Para concluir con la introducción al caso, las tendencias que se plantean para el año 2018 se resumen en los siguientes bloques:

  • Extensión del machine learning y la analítica. Se espera que el uso de estas herramientas se extienda a todas las áreas de la empresa relacionadas con clientes y mercados tales como HR Analytics, mejoras en la cadena de producción, logística, tareas de aprovisionamiento, etc.
  • Obligatoriedad de administraciones y organismos públicos para la libre disposición de bases de datos abiertas.
    Esto permitirá a las empresas aprovecharse de información adicional para la formulación de sus estrategias.
  • Verticalización de soluciones analíticas basadas en big data en sectores poco maduros.
    Destacamos en esta tendencia el sector agrícola y la industria pesada que, gracias a los procesos de big data, podrán alimentar su cadena de valor.
  • Vinculación total de la robótica y machine automation para la toma de decisiones y el estudio del comportamiento humano. Será decisivo para la previsión de stock, detección de anomalías, etc., lo que se traducirá en ahorro de costes y mayor eficiencia en los procesos productivos.
  • Chatbots. Permitirán contestar las consultas de los consumidores y realizar pequeñas acciones automatizadas mediante un lenguaje natural.
  • Desarrollo de sistemas distribuidos para la ingesta, procesamiento y análisis de señales o eventos de IoT en tiempo real.