April 2020 - User's blogUser's blog

Seguro que en alguna ocasión nos ha tocado hacer un SHOW PARTITIONS de una tabla HIVE particionada, con la finalidad (para quien no lo sepa) de obtener/visualizar las particiones existentes de los datos. Hasta aquí nada nuevo, pero lo que quiero mostrarles en esta oportunidad es un método (nada espectacular) que me ha servido mucho donde obtengo las particiones de una tabla (Hive) y los usos que le he dado al método, entre otras con grandes ventajas en performance.

Como seguramente muchos de ustedes saben si invocamos un SHOW PARTITIONS en spark por ejemplo en la spark-shell, esta nos devuelve un DataFrame con una única columna, como el siguiente ejemplo:

+--------------------------------------------------------------------------+
|partition                                                                 |
+--------------------------------------------------------------------------+
|country=VENEZUELA/state=BOLIVAR/city=GUAYANA/dt=20191012/hour=1020        |
|country=VENEZUELA/state=DISTRITOCAPITAL/city=CARACAS/dt=20191012/hour=1200|
|country=VENEZUELA/state=CARABOBO/city=VALENCIA/dt=20191012/hour=1700      |
|country=VENEZUELA/state=CARABOBO/city=VALENCIA/dt=20191012/hour=1750      |
|country=VENEZUELA/state=MERIDA/city=MERIDA/dt=20191012/hour=1400          |
+--------------------------------------------------------------------------+

+--------------------------------------------------------------------------+

|partition |

+--------------------------------------------------------------------------+

|country=VENEZUELA/state=BOLIVAR/city=GUAYANA/dt=20191012/hour=1020 |

|country=VENEZUELA/state=DISTRITOCAPITAL/city=CARACAS/dt=20191012/hour=1200|

|country=VENEZUELA/state=CARABOBO/city=VALENCIA/dt=20191012/hour=1700 |

|country=VENEZUELA/state=CARABOBO/city=VALENCIA/dt=20191012/hour=1750 |

|country=VENEZUELA/state=MERIDA/city=MERIDA/dt=20191012/hour=1400 |

+--------------------------------------------------------------------------+

Con mi método lo que hago es transformar el DataFrame original en uno formateado donde cada variable de particionado es una columna. A continuación el método y el que sería el DataFrame resultante

+------------------------------------------------+
|country  |state          |city    |dt      |hour|
+------------------------------------------------+
|VENEZUELA|BOLIVAR        |GUAYANA |20191012|1020|
|VENEZUELA|DISTRITOCAPITAL|CARACAS |20191012|1200|
|VENEZUELA|CARABOBO       |VALENCIA|20191012|1700|
|VENEZUELA|CARABOBO       |VALENCIA|20191012|1750|
|VENEZUELA|MERIDA         |MERIDA  |20191012|1400|
+------------------------------------------------+

+------------------------------------------------+

+------------------------------------------------+

+------------------------------------------------+

Ahora ustedes se preguntarán y que hay de fascinante o interesante en este método. La verdad que el método en sí aporta poco es sencillamente una simple transformación pero para mí la magia reside en para que lo utilizo y es lo que les quiero contar.

Imaginen que la tabla que posee las 5 variables de partición (ni discutamos si es acertado poseer 5 variables de particionamiento) posee un sin fin de particiones y que a su vez para una misma ciudad en una misma fecha hay varias particiones por hora (como aparece en el ejemplo para la ciudad de Valencia) y cada partición a su vez tiene muchos registros. Con este supuesto si quisiéramos hacer una consulta para obtener la máxima partición (la más reciente) para una fecha, ciudad, estado y país en especifico podríamos llegar a tener problemas de TimeOut o SocketTimeOut ya que:
* El cluster se vería exigido intentando trabajar sobre las particiones pertinentes (debido al gran número de particiones).
* Una vez obtenidas las particiones cargar los datos desde HDFS y recorrer de forma innecesaria un conjunto de datos requiriendo mucho más memoria de la necesaria.

¿Recorrer de forma innecesaria?
Si, ya que recorreríamos un conjunto de registros donde muchos de esto compartirán el valor de la columna “hora” (partición) y apegándonoslos al ejemplo de arriba (la ciudad de Valencia) realmente los valores posibles serían 2:
* 1700
* 1750

Solución: Pues al obtener el DataFrame de particiones, si posteriormente filtramos por país, estado, ciudad y día solo nos quedarían 2 registros para el campo hora y sencillamente tendría que hallar el máximo valor de 2 registros en vez de tener que cargar datos de HDFS e iterar sobre todos estos.

¿Mucha más memoria de la necesaria?
Si, ya que al hacer un SHOW PARTITIONS, nosotros interactuamos con el metatstore y los metadatos en vez de trabajar con todos los datos de HDFS con todo lo que eso implica en cuanto a latencia, debido a la necesidad de ir a disco, etc.

¿Existe alguna otra ventaja de trabajar con el metastore?
Si, por ejemplo para hallar la máxima partición, trabajando únicamente con el DataFrame de particiones y una vez hallada la partición idónea, digamos que la más reciente, entonces construyo la consulta (muy especifica) indicando los valores de la partición deseada evitando esos errores de TimeOut haciendo uso eficiente de los recursos. De hecho yo lo que hecho es construir un WHERE dinámico (quizás lo comparto en la próxima entrada) a partir del DataFrame de particiones filtrado.

¿Se te ocurre otra ventaja de utilizar un método como este e interactuar con el metastore? ¿Habías hecho algo similar para tener mejoras de rendimiento y uso eficiente de recursos?

Espero que les sea de utilidad.

Ya llevamos más de un mes en cuarentena, donde las alegrías ahora se basan en pequeñas cosas, cosas simples, básicas, que seguramente siempre les hemos dado importancia pero sin ser algo que este de forma permanente en nuestra mente como en mi caso, por ejemplo les confieso que mis alegrías son: Que sigamos todos sanos (mi mamá, mi esposa que es la más expuesta, mis hijas, mi hermano y el resto de mi familia y amigos), el ir a botar la basura (¡en serio!) y poder contar un poquito de tiempo para leer y hacer cosas en el ordenador.

De lo último es que quiero compartirles un poco. El año pasado fui durante un pequeño periodo autónomo y en dicho periodo trabajé con un grupo de gente de distintos lugares del mundo que estaban diseñando e implementando una nueva cryptomoneda en esa aventura una de las tareas a las que me dediqué fue en realizar un blockchain explorer, para ello me decanté por elixir y phoenix solo conté con 1 mes para llevar a cabo esa prueba de concepto y en dicho periodo pude hacer una versión alfa (muy muy cruda) de un blockchain explorer (está en mi GitHub) y realmente después de 4 años volví a disfrutar del desarrollo Web, debido a la premura del proyecto no hubo oportunidad de seguir desarrollando el explorador y tuvimos que acudir a Github y reutilizar uno existente (elaborado con NodeJS). La sintaxis del lenguaje y las características del framework (elaborado con cierta similitud a RoR) resultaron en un mundo totalmente nuevo para mí pero de nuevo insisto disfruté ese mes. Ahora bien de vuelta al 2020, al ocurrir todo esto de la cuarentena pasadas las primera y segunda semana me empecé a dar cuenta que contaba con un poquito de más tiempo de lo habitual (o será mejor decir que me falta menos tiempo que de constumbre?) teniendo oportunidad de leer algunos artículos que tenía pendientes, charlas, etc. y fue entonces cuando me plantee ¿Y si retomo de nuevo la lectura de los libros de phoenix y elixir? y si culmino el blockchain explorer? y si me hago una API en elixir/phoenix con varios nodos y me hago un benchmark con spring-boot, quarkus y otros. Es así que hace quizás unas 2 semanas empecé de nuevo a leer de phoenix y a hacer todos los ejemplos del libro, a ver vídeos de su nuevo componente liveView (no dejen de buscarlo por Internet se ve fantástico, una especie de Ajax mediante websockets, sin tener uno que hacer el javascript), también estuve investigando acerca de herramientas de maquetación Web y empecé a practicar un poco con Adobe XD para conocerlo y darle un vistazo a otras herramientas como Overflow (esta particularmente me encantó y puede ser un complemento de Adobe XD), en fin, ha sido un mes y medio difícil y para muchos incluso triste y trágico, pero los informáticos debemos agradecer que muchos de nosotros hemos podido seguir trabajando desde nuestros hogares, pero sobre todo lo que quiero transmitirles es que no debemos dejar de investigar, de leer, de probar, dentro de todo lo malo aprovechar este tiempo para seguir creciendo a nivel personal y profesional aprendiendo nuevas herramientas, nuevos idiomas, nuevos lenguajes de programación, nuevas metodologías, preparar una certificación, aprovechando que incluso muchas plataformas están ofreciendo cursos gratuitos, lease coursera, edx, Udacity, Udemy, pragmaticstudio.com (curso de phoenix liveView) entre muchas otras, pero recuerden, “crecer”, seguramente tomará un tiempo para que volvamos a ser los mismos (sino es que esto genere un cambio para siempre en nosotros), pero también trabajemos en no ser los mismos (profesionalmente hablando) y volver siendo perfiles más completos, mas profesionales y muy muy muy por encima de todos más humanos.

User's blog

Monthly Archives: April 2020

Uso del SHOW PARTITIONS en Spark

Aprendizaje en tiempo de cuarentena