APACHE SPARK - Big Data - .1. INTRODUCCI“N Apache Spark 1.1 Introducci³n a Apache Spark...

download APACHE SPARK - Big Data - .1. INTRODUCCI“N Apache Spark 1.1 Introducci³n a Apache Spark Hoy en

of 54

  • date post

    19-Sep-2018
  • Category

    Documents

  • view

    260
  • download

    4

Embed Size (px)

Transcript of APACHE SPARK - Big Data - .1. INTRODUCCI“N Apache Spark 1.1 Introducci³n a Apache Spark...

  • APACHE SPARK - Big Data

    Alejandro Palomino Garca 2 ASIR

    http://code-industry.net/http://code-industry.net/

  • NDICE

    1. Introduccin..............................................................................................................................41.1 Introduccin a Apache Spark........................................................................................41.2 Evolucin de Apache Spark..........................................................................................41.3 Por Qu Spark?..........................................................................................................51.4 Componentes de Spark................................................................................................6

    2. Arquitectura de un clster de Apache Spark.........................................................................7

    3. API de Spark..............................................................................................................................83.1 Tipos de transformaciones de un RDD.........................................................................93.2 Transformaciones de un RDD....................................................................................103.3 Acciones de un RDD...................................................................................................133.4 Persistencia de los RDD.............................................................................................14

    4. Spark VS Hadoop....................................................................................................................164.1 Rendimiento................................................................................................................164.2 Usabilidad...................................................................................................................164.3 Costes.........................................................................................................................174.4 Compatibilidad ...........................................................................................................174.5 Procesamiento de datos.............................................................................................174.6 Tolerancia a fallos.......................................................................................................174.7 Seguridad...................................................................................................................184.8 Conclusiones..............................................................................................................18

    5. Topologa de red.....................................................................................................................19

    6. Caractersticas y requisitos...................................................................................................20

    7. Instalacin y configuracin de Spark en Debian.................................................................217.1 Instalacin de Java.....................................................................................................217.2 Instalacin de Scala....................................................................................................227.3 Instalacin y configuracin de OpenSSH...................................................................227.4 Instalacin y configuracin de Apache Spark.............................................................237.5 Creacin de los servidores esclavos..........................................................................247.6 Configuracin de OpenSSH en master.......................................................................267.7 Configuracin de Apache Spark en el servidor master...............................................27

    8. Instalacin y configuracin de Spark en Windows 10........................................................318.1 Instalacin de Java SE Development Kit 8.................................................................318.2 Instalacin de Scala....................................................................................................338.3 Instalacin de Spark...................................................................................................358.4 Instalacin de Winutils y establecimiento de variables...............................................36

    9. Conexin de MySQL con Spark.............................................................................................429.1 Ejecucin de algunas consultas al dataframe............................................................449.2 Creacin de un DataFrame basado en el contenido de un fichero JSON.................45

    10. Streaming de Tweet's............................................................................................................46

    11. Zeppelin + Spark....................................................................................................................4811.1 Qu es Zeppelin?....................................................................................................4811.2 Instalacin y configuracin de Zeppelin....................................................................4811.3 Ejemplos...................................................................................................................50

    http://code-industry.net/http://code-industry.net/

  • 12. Problemas encontrados.......................................................................................................5212.1: cat: /release: No such file or directory......................................................................5212.2 HOSTNAME: HOSTNAME: Name or service not known.........................................5212.3 The root scratch dir: /tmp/hive on HDFS should be writable....................................5212.4 java.lang.NoClassDef FoundError: org/apache/spark/Logging................................5312.5 warn replicated to only 0 peer(s) instead of 1 peers..............................................53

    13. Bibliografa............................................................................................................................54

    http://code-industry.net/http://code-industry.net/

  • Apache Spark 1. INTRODUCCIN

    1.1 Introduccin a Apache Spark

    Hoy en da se genera gran cantidad de datos en campos como la industria y la ciencia, por ello, es necesario herramientas como Apache Spark para trabajar con estos datos.

    Por otra parte, algunas industrias estn utilizando Hadoop para para almacenar, procesar y analizar grandes volmenes de datos. Hadoop se basa en el modelo de programacin MapReduce y permite una solucin de computacin que es escalable tolerante a fallos, flexible y rentable. La principal preocupacin que presenta Hadoop es mantener la velocidadde espera entre las consultas y el tiempo para ejecutar el programa en el procesamiento de grandes conjuntos de datos.

    Posteriormente sali a la luz Apache Spark introducido por la empresa Apache Software Foundation para acelerar el proceso de software de clculo computacional Hadoop.Aunque es importante mencionar que Apache Spark depende de Hadoop, ya que lo utiliza para propsitos de almacenamiento.

    Apache Spark es una infraestructura informtica de clster de cdigo abierto usado con frecuencia para cargas de trabajo de Big Data1. Adems ofrece un desempeo rpido , ya que el almacenamiento de datos se gestiona en memoria, lo que mejora el desempeo de cargas de trabajo interactivas sin costos de E/S (perifricos de entrada/salida). Por otro lado, Apache Spark es compatible con las bases de datos de grficos, el anlisis de transmisiones, el procesamiento general por lotes, las consultas ad-hoc y el aprendizaje automtico.

    Empresas como Alibaba Taobao y Tencent, ya estn utilizando Apache Spark como gestor de datos. La empresa Tencent posee actualemente 800 millones de usuarios activos, generando un total de 700 TB de datos procesados al da en un clster de ms de 8000 nodos de computacin.

    1.2 Evolucin de Apache Spark

    Spark fue un subproyecto de Hadoop desarrollado en 2009 por Matei Zaharia en la Universidad de Berkeley AMPLab, que posteriormente fue de cdigo abierto bajo una licencia BSD.Posteriormente, en 2013, el proyecto Spark fue donada a la empresa Apache Software Foundation ,y actualmente se ha convertido en un proyecto de alto nivel.

    1 Big Data: Conjunto de herramientas utilizadas para gestionar, manipular y analizar grandesvolmenes de datos que no pueden ser gestionados por herramientas informticas tradicionales como una base de datos.

    http://code-industry.net/http://code-industry.net/

  • 1.3 Por qu utilizar Spark?

    Alguna de las razones por las que se debera usar Apache Spark son:

    Velocidad: Apache Spark es capaz de ejecutar hasta 100 veces ms rpido aplicaciones ejecutadas en memoria y 10 veces ms rpido cuando se ejecuta en HDD. Esto se debe principalmente a la reduccin de nmero de operaciones de lectura / escritura en el disco y al nuevo almacenamiento de datos de procesamientointermedio en memoria. Gracias a esta mejora en la velocidad, Spark ofrece una experimentacin ms veloz, mayor interactividad y mayor productividad para los analistas.

    En la siguiente ilustraciones se pueden observar como Apache Spark posee una mayor velocidad de procesamiento en comparacin a Hadoop MapReduce:

    Potencia: Apache Spark nos permite realizar ms operaciones que Hadoop MapReduce: integracin con lenguaje R (Spark R), procesamiento de streaming, clculo de grafos (GraphX), machine learning (MLlib), y anlisis interactivos. Gracias a esta mejora en la potencia, se podr desplegar nuevos proyectos de Big Data con menos presupuesto y con soluciones ms comp