What is Hadoop? Oct 17 2013

Adam
Muise
–
Hortonworks

WELCOME
TO
HADOOP

“Big
Data”
is
the
marke=ng
term

of
the
decade

What
lurks
behind
the
marke=ng

and
hype
is
a
legi=mate
movement

forward
in
dealing
with
data

You
need
to
deal
with
Data

Put
it
away,
delete
it,
tweet
it,

compress
it,
shred
it,
wikileak-‐it,
put

it
in
a
database,
put
it
in
SAN/NAS,

put
in
the
cloud,
hide
it
in
tape…

Let’s
talk
challenges…

Volume

Volume

Volume

Volume

Volume
Volume

Volume

Volume

Volume
Volume

Volume

Volume

Volume
Volume

Volume

Volume

Volume

Volume

Volume

Volume
Volume

Volume
Volume

Volume

Volume

Volume
Volume

Volume

Volume

Volume
Volume

Volume

Volume

Volume

Volume

Volume

Volume

Volume

Volume

Volume
Volume

Volume

Volume

Volume

Volume

Volume
Volume

Volume

Volume

Volume

Volume

Volume

Volume

Volume

Volume

Volume

Volume

Volume

Volume

Volume

Volume

Volume

Volume

Volume

Volume

Volume

Volume

Volume

Volume

Volume

Volume

Volume

Volume
Volume

Volume

Volume

Volume
Volume
Volume

Volume

Volume

Volume

Volume

Volume
Volume

Volume

Volume

Volume

Volume
Volume

Volume

Volume

Volume

Volume

Volume

Volume

Volume
Volume

Volume

Volume

Volume
Volume
Volume

Volume

Volume

Volume

Volume

Volume

Volume

Volume

Volume
Volume

Volume
Volume

Volume

Volume

Volume

Volume

Volume

Volume

Volume

Volume
Volume

Volume

Volume

Volume

Volume
Volume

Volume
Volume

Volume

Volume

Volume

Volume
Volume
Volume

Volume

Volume

Volume

Volume
Volume

Volume
Volume

Volume

Volume
Volume
Volume
Volume

Volume
Volume

Volume

Volume

Volume
Volume

Volume
Volume

Volume

Volume
Volume

Volume

Volume

Volume
Volume

Volume

Volume

Volume

Volume
Volume

Volume

Volume

Volume

Volume

Volume
Volume

Volume
Volume

Volume
Volume

Volume

Volume

Volume
Volume

Volume
Volume
Volume
Volume

Volume
Volume

Volume

Volume

Volume
Volume

Volume

Volume

Volume
Volume

Volume

Volume
Volume

Volume

Volume
Volume

Volume
Volume
Volume

Volume

Volume

Volume

Volume
Volume

Volume

Volume
Volume
Volume

Volume

Volume

Volume
Volume
Volume

Volume
Volume

Volume

Volume

Volume
Volume

Volume

Volume

Volume

Volume
Volume

Volume
Volume

Volume
Volume

Volume

Volume
Volume

Volume

Volume

Volume
Volume
Volume
Volume

Volume

Storage,
Management,
Processing

all
become
challenges
with
Data
at

Volume

Tradi=onal
technologies
adopt
a

divide,
drop,
and
conquer
approach

Another
EDW

Analy=cal
DB

Data

Data
Data

Data
Data

Data

Data

Data
Data

Data

Data
Data

Data
Data

Data

Data

Data
Data

The
solu=on?

EDW

Data

Data
Data

Data
Data

Data

Data

Data
Data

OLTP

Data

Data
Data

Data
Data

Data

Data

Data
Data

Yet
Another
EDW

Data

Data
Data

Data
Data

Data

Data

Data
Data

Another
EDW

Analy=cal
DB

Data

Data
Data

Data
Data

Data

Data

Data
Data

Data

Data
Data

Data
Data

Data

Data

Data
Data

OLTP

Ummm…you

dropped
something

EDW

Data

Data
Data

Data
Data

Data

Data

Data
Data

Data

Data
Data

Data
Data

Data

Data

Data
Data

Yet
Another
EDW

Data

Data
Data

Data
Data

Data

Data

Data
Data

Data

Data

Data
Data

Data

Data

Data
Data

Data
Data
Data
Data

Data
Data

Data
Data

Data
Data

Data

Data
Data
Data

Data
Data
Data

Data
Data
Data

Data
Data
Data
Data
Data
Data
Data
Data
Data
Data
Data

Data
Data
Data

Data
Data
Data

Data

Data
Data

Data
Data

Data
Data
Data
Data
Data
Data

Data
Data

Data

Data

Data

Data

Data

Data
Data

Data
Data

Data

Data
Data

Data
Data
Data
Data
Data

Data

Data
Data

Analyzing
the
data
usually
raises

more
interes=ng
ques=ons…

…which
leads
to
more
data

Wait,
you’ve
seen
this
before.

Data

Data

Data

…

Sausage
Factory

Data

Data
Data

Data
Data

Data

Data

Data
Data

…

Data

Data
Data

Data
Data

Data
Data

Data

Data
Data

Data
Data

Data
Data

Data

Data
Data

Data

Data
Data

Data
Data

Data

Data
Data
Data

Data

Data
Data
Data
Data

Data

Data

Data
Data
Data

Data
Data
Data

Data
Data
Data
Data

Data

Data

Data

Data

Data
Data
Data
Data

Data
Data

Your
data
silos
are
lonely
places.

EDW

Accounts

Customers

Web
Proper=es

Data

Data

Data

Data

Data
Data

Data
Data

Data
Data

Data
Data

Data

Data

Data
Data

Data
Data
Data

Data
Data
Data

Data

Data
Data
Data

Data

Data

Data
Data

Data
Data

Data
Data

Data
Data

…
Data
likes
to
be
together.

EDW

Accounts

Customers

Data

Data

Web
Proper=es

Data
Data
Data
Data

Data

Data
Data
Data

Data
Data

Data

Data

Data

Data
Data
Data
Data
Data

Data

Data
Data

Data

Data
Data
Data
Data

Data

Data

Data
Data

Data
Data

Data
Data

New
types
of
data
don’t
quite
ﬁt

your
pris=ne
view
of
the
world

Logs

Data
Data

Data

Data

Data
Data

Data

CDR/SIP

Data
Data

Data

Data

Data
Data

Data

My
LiYle
Data
Empire

Data

?
Data

?
Data
Data

Data

Data
Data

?
?

Data

Data

To
resolve
this,
some
people
take

hints
from
Lord
Of
The
Rings..

…and
create
One-‐Schema-‐To-‐
Rule-‐Them-‐All…

EDW

Data

Data
Data

Data
Data

Schema

Data

Data

Data
Data

ETL

Data

Data

Data

ETL

ETL

ETL

EDW

Data

Data
Data

Data
Data

Schema

Data

Data

Data
Data

…but
that
has
its
problems
too.

ETL

Data

Data

Data

ETL

ETL

ETL

EDW

Data

Data
Data

Data
Data

Schema

Data

Data

Data
Data

So
what
is
the
answer?

Enter
the
Hadoop.

………

hYp://www.fabulouslybroke.com/2011/05/ninja-‐elephants-‐and-‐other-‐awesome-‐stories/

Hadoop
was
created
because
Big
IT

never
cut
it
for
the
Internet

Proper=es
like
Google,
Yahoo,

Facebook,
TwiYer,
LinkedIn

Tradi=onal
architecture
didn’t

scale
enough…

App
App
App
App

App
App
App
App

DB
DB

DB

SAN

App
App
App
App

DB
DB

DB

SAN

DB
DB

DB

SAN

$upercompu=ng

Tradi=onal
architectures
cost
too

much
at
that
volume…

$/TB

$pecial

Hardware

If
you
could
design
a
system
that

would
handle
this,
what
would
it

look
like?

It
would
probably
need
a
highly

resilient,
self-‐healing,
cost-‐eﬃcient,

distributed
ﬁle
system…

Storage

Storage

Storage

Storage

Storage

Storage

Storage

Storage

Storage

It
would
probably
need
a
completely

parallel
processing
framework
that

took
tasks
to
the
data…

Processing
Processing
Processing

Storage
Storage
Storage

Processing
Processing
Processing

Storage
Storage
Storage

Processing
Processing
Processing

Storage
Storage
Storage

It
would
probably
run
on
commodity

hardware,
virtualized
machines,
and

common
OS
pladorms

Processing
Processing
Processing

Storage
Storage
Storage

Processing
Processing
Processing

Storage
Storage
Storage

Processing
Processing
Processing

Storage
Storage
Storage

It
would
probably
be
open
source
so

innova=on
could
happen
as
quickly

as
possible

It
would
need
a
cri=cal
mass
of

users

{Processing
+
Storage}

=

{MapReduce/YARN+
HDFS}

HDFS
stores
data
in
blocks
and

replicates
those
blocks

block1

Processing
Processing
Processing

Storage
Storage
Storage

block2

block2

Processing
Processing
Processing

block1

Storage
Storage
Storage

block3

block2

Processing

Storage

block3

Processing
Processing

block1

Storage
Storage

block3

If
a
block
fails
then
HDFS
always
has

the
other
copies
and
heals
itself

block1

Processing
Processing
Processing

block3

Storage
Storage
Storage

block2

block2

Processing
Processing
Processing

block1

Storage
Storage
Storage

block3

block2

Processing

Storage

block3

Processing
Processing

block1

Storage
Storage

X

MapReduce
is
a
programming

paradigm
that
completely
parallel

Data

Data

Data

Data

Data

Data

Data

Data

Data

Data

Data

Data

Data

Data

Data

Mapper

Mapper

Mapper

Mapper

Mapper

Reducer

Data

Data

Data

Reducer

Data

Data

Data

Reducer

Data

Data

Data

MapReduce
has
three
phases:

Map,
Sort/Shuﬄe,
Reduce

Key,
Value

Key,
Value

Key,
Value

Key,
Value

Key,
Value

Key,
Value

Key,
Value

Key,
Value

Key,
Value

Mapper

Mapper

Key,
Value

Key,
Value

Key,
Value

Reducer

Key,
Value

Key,
Value

Key,
Value

Mapper

Reducer

Key,
Value

Key,
Value

Key,
Value

Key,
Value

Key,
Value

Key,
Value

Key,
Value

Key,
Value

Key,
Value

Mapper

Reducer

Key,
Value

Key,
Value

Key,
Value

Key,
Value

Key,
Value

Key,
Value

Mapper

Key,
Value

Key,
Value

Key,
Value

MapReduce
applies
to
a
lot
of

data
processing
problems

Data

Data

Data

Data

Data

Data

Data

Data

Data

Data

Data

Data

Data

Data

Data

Mapper

Mapper

Mapper

Mapper

Mapper

Reducer

Data

Data

Data

Reducer

Data

Data

Data

Reducer

Data

Data

Data

YARN
=
Yet
Another
Resource

Nego=ator

YARN
abstracts
resource

management
so
you
can
run
more

than
just
MapReduce

MapReduce
V2

MapReduce
V?
STORM

Giraph

Tez

YARN

HDFS2

MPI

HBase

…
and

more

YARN
turns
Hadoop
into
a
smart

phone:
An
App
Ecosystem

hortonworks.com/yarn/

Check
out
the
book
too…

Preview
at:

hortonworks.com/yarn/

YARN
is
an
essen=al
part
of
a

balanced
breakfast
in
Hadoop
2.0

Oct
15
2013:
Apache
Community

releases
Hadoop
2.2.0

Halloween
2013:
Hortonworks

releases
HDP
2.0
GA

Hadoop
has
other
open
source

projects…

Hive
=
{SQL
-‐>
MapReduce}

SQL-‐IN-‐HADOOP

Pig
=
{PigLa=n
-‐>
MapReduce}

HCatalog
=
{metadata*
for

MapReduce,
Hive,
Pig,
Hbase,
etc}

*metadata
=
tables,
columns,
par==ons,
types

Oozie
=
Job::{Task,
Task,
if
Task,

then
Task,
ﬁnal
Task}

Falcon

Feed
Feed

Feed

Feed

Hadoop

DR

Feed

Replica=on

Feed

Feed

Hadoop

Feed

Flume

Files

Flume

JMS

Weblogs

Events

Flume

Flume

Flume

Flume

Flume

Hadoop

Sqoop

DB

DB

Sqoop

Hadoop

Sqoop

Ambari
=
{install,
manage,

monitor}

HBase
=
{real-‐=me,
distributed-‐
map,
big-‐tables}

Storm
=
{Complex
Event
Processing,

Near-‐Real-‐Time,
Provisioned
by

YARN
}

Storm

HDFS

YARN

Pig

MapReduce

Apache
Hadoop

HCatalog

Hive

HBase

Ambari

Sqoop

Falcon

Flume

Storm

Pig

HDFS

YARN

MapReduce

Hortonworks
Data
Pladorm

HCatalog

Hive

HBase

Ambari

Sqoop

Falcon

Flume

What
else
are
we
working
on?

hortonworks.com/labs/

Hadoop
is
the
new
Data
Opera=ng

System
for
the
Enterprise

There is NO second place

Hortonworks

…the
Bull
Elephant
of
Hadoop
Innova@on

© Hortonworks Inc. 2012: DO NOT SHARE. CONTAINS HORTONWORKS CONFIDENTIAL & PROPRIETARY INFORMATION

Page
67

What is Hadoop? Oct 17 2013

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a What is Hadoop? Oct 17 2013

Similar a What is Hadoop? Oct 17 2013 (20)

Más de Adam Muise

Más de Adam Muise (13)

Último

Último (20)

What is Hadoop? Oct 17 2013