The first presentation of the HUG Italy.. The first part is brief description of the last news presented at the Europe Hadoop Summit 2014.
In the second part we talk about some technology for SQL on-hadoop in particular Hive on Tez and Impala
10. 10
Hadoop Summit - Impala
● Massive parallel processing SQL query
engine
● Utilizza i suoi demoni nel cluster
● Non usa map reduce
● Non materiallizza processi intermedi
● Usa il più possibile istruzioni macchina
● Usa la memoria per salvare i dati intermedi
● Non ha l’update
12. 12
Hadoop Summit – Perchè Tez?
● MR
● Uso intensivo di file
temporanei e
scritture in HDFS
● API espressive
● Non è necessario
persistere passi
intermedi
13. 13
Hadoop Summit – Tez API
● Esecuzione
● Logica + risorse
● Trasferimento Dati
● DAG
● Nodo
● Arco
Deve essere aciclico per meccanismo di fault tollerance