HSA-ENABLED POINTER DATA STRUCTURES

HSA APPLICATIONS
WEN-MEI HWU, PROFESSOR, UNIVERSITY OF ILLINOIS
WITH J.P. BORDES AND JUAN GOMEZ

USE CASES SHOWING HSA ADVANTAGE
Programming
Technique
Use Case Description HSA Advantage
Pointer-based Data
Structures
Binary tree searches
GPU performs parallel searches in a CPU created
binary tree.
CPU and GPU have access to entire unified coherent
memory. GPU can access existing data structures containing
pointers.
Platform Atomics
Work-Group Dynamic Task Management
GPU directly operate on a task pool managed
by the CPU for algorithms with dynamic
computation loads
Binary tree updates
CPU and GPU operating simultaneously on the
tree, both doing modifications
CPU and GPU can synchronize using Platform Atomics
Higher performance through parallel operations reducing the
need for data copying and reconciling.
Large Data Sets
Hierarchical data searches
Applications include object recognition, collision
detection, global illumination, BVH
memory. GPU can operate on huge models in place,
reducing copy and kernel launch overhead.
CPU Callbacks
Middleware user-callbacks
GPU processes work items, some of which require
a call to a CPU function to fetch new data
GPU can invoke CPU functions from within a GPU kernel
Simpler programming does not require “split kernels”
Higher performance through parallel operations
© Copyright 2014 HSA Foundation. All Rights Reserved

UNIFIED COHERENT MEMORY
FOR POINTER-BASED DATA
STRUCTURES

MORE EFFICIENT POINTER DATA STRUCTURES
Legacy
SYSTEM
MEMORY
KERNEL
GPU
TREE RESULT
BUFFER
L R
L R L R
GPU MEMORY
RESULT
BUFFER
FLAT
TREE

L R
Legacy
SYSTEM
MEMORY
KERNEL
GPU
TREE RESULT
BUFFER
L R
L R L R
GPU MEMORY
RESULT
BUFFER
FLAT
TREE

Legacy
SYSTEM
MEMORY
KERNEL
GPU
TREE RESULT
BUFFER
L R
L R L R
GPU MEMORY
RESULT
BUFFER
FLAT
TREE
L
R
L
R
L
R

Legacy
SYSTEM
MEMORY
KERNEL
GPU
TREE RESULT
BUFFER
L R
L R L R
GPU MEMORY
RESULT
BUFFER
FLAT
TREE
L R

SYSTEM
MEMORY
KERNEL
GPU
HSA and full OpenCL 2.0
TREE RESULT
BUFFER
L R
L R L R

HSA
SYSTEM
MEMORY
KERNEL
GPU
TREE RESULT
BUFFER
L R
L R L R

POINTER DATA STRUCTURES
- CODE COMPLEXITY
HSA Legacy

POINTER DATA STRUCTURES
- PERFORMANCE
0
10,000
20,000
30,000
40,000
50,000
60,000
1M 5M 10M 25M
Searchrate(nodes/ms)
Tree size ( # nodes )
Binary Tree Search
CPU (1 core)
CPU (4 core)
Legacy APU
HSA APU
Measured in AMD labs Jan 1-3 on system shown in back up
slide

PLATFORM ATOMICS FOR
DYNAMIC TASK MANAGEMENT

PLATFORM ATOMICS
ENABLING MORE EFFICIENT DYNAMIC TASK MANAGEMENT
Legacy*
0
SYSTEM
MEMORY
WORK-
GROUP 1
GPU
NUM.
WRITTEN
TASKS
GPU MEMORY
QUEUE 2QUEUE 1
TASKS
POOL
0
0
NUM.
CONSUMED
TASKS
0
QUEUE 1
QUEUE 2
WORK-
GROUP 2
0
NUM.
WRITTEN
TASKS
0
0
NUM.
CONSUMED
TASKS
0
QUEUE 1
QUEUE 2
WORK-
GROUP 3
WORK-
GROUP 4
*Chen et al., Dynamic load balancing on single- and multi-GPU systems, IPDPS 2010

0
SYSTEM
MEMORY
WORK-
GROUP 1
GPU
NUM.
WRITTEN
TASKS
GPU MEMORY
QUEUE 2QUEUE 1
0
0
NUM.
CONSUMED
TASKS
0
QUEUE 1
QUEUE 2
WORK-
GROUP 2
0
NUM.
WRITTEN
TASKS
0
0
NUM.
CONSUMED
TASKS
0
QUEUE 1
QUEUE 2
WORK-
GROUP 3
WORK-
GROUP 4
TASKS
POOL
PLATFORM ATOMICS
Legacy*
Asynchronous transfer

4
SYSTEM
MEMORY
WORK-
GROUP 1
GPU
NUM.
WRITTEN
TASKS
GPU MEMORY
QUEUE 2QUEUE 1
0
0
NUM.
CONSUMED
TASKS
0
QUEUE 1
QUEUE 2
WORK-
GROUP 2
0
NUM.
WRITTEN
TASKS
0
0
NUM.
CONSUMED
TASKS
0
QUEUE 1
QUEUE 2
WORK-
GROUP 3
WORK-
GROUP 4
TASKS
POOL
PLATFORM ATOMICS
Legacy*

4
SYSTEM
MEMORY
WORK-
GROUP 1
GPU
NUM.
WRITTEN
TASKS
GPU MEMORY
QUEUE 2QUEUE 1
0
0
NUM.
CONSUMED
TASKS
0
QUEUE 1
QUEUE 2
WORK-
GROUP 2
4
NUM.
WRITTEN
TASKS
0
0
NUM.
CONSUMED
TASKS
0
QUEUE 1
QUEUE 2
WORK-
GROUP 3
WORK-
GROUP 4
TASKS
POOL
PLATFORM ATOMICS
Legacy*
Asynchronous transfer

4
SYSTEM
MEMORY
WORK-
GROUP 1
GPU
NUM.
WRITTEN
TASKS
GPU MEMORY
QUEUE 2QUEUE 1
0
0
NUM.
CONSUMED
TASKS
0
QUEUE 1
QUEUE 2
WORK-
GROUP 2
4
NUM.
WRITTEN
TASKS
0
0
NUM.
CONSUMED
TASKS
0
QUEUE 1
QUEUE 2
WORK-
GROUP 3
WORK-
GROUP 4
TASKS
POOL
PLATFORM ATOMICS
Legacy*

4
SYSTEM
MEMORY
WORK-
GROUP 1
GPU
NUM.
WRITTEN
TASKS
GPU MEMORY
QUEUE 2QUEUE 1
0
0
NUM.
CONSUMED
TASKS
0
QUEUE 1
QUEUE 2
WORK-
GROUP 2
4
NUM.
WRITTEN
TASKS
0
1
NUM.
CONSUMED
TASKS
0
QUEUE 1
QUEUE 2
WORK-
GROUP 3
WORK-
GROUP 4
TASKS
POOL
PLATFORM ATOMICS
Legacy*
Atomic add

4
SYSTEM
MEMORY
WORK-
GROUP 1
GPU
NUM.
WRITTEN
TASKS
GPU MEMORY
QUEUE 2QUEUE 1
0
0
NUM.
CONSUMED
TASKS
0
QUEUE 1
QUEUE 2
WORK-
GROUP 2
4
NUM.
WRITTEN
TASKS
0
1
NUM.
CONSUMED
TASKS
0
QUEUE 1
QUEUE 2
WORK-
GROUP 3
WORK-
GROUP 4
TASKS
POOL
PLATFORM ATOMICS
Legacy*

4
SYSTEM
MEMORY
WORK-
GROUP 1
GPU
NUM.
WRITTEN
TASKS
GPU MEMORY
QUEUE 2QUEUE 1
0
0
NUM.
CONSUMED
TASKS
0
QUEUE 1
QUEUE 2
WORK-
GROUP 2
4
NUM.
WRITTEN
TASKS
0
2
NUM.
CONSUMED
TASKS
0
QUEUE 1
QUEUE 2
WORK-
GROUP 3
WORK-
GROUP 4
TASKS
POOL
PLATFORM ATOMICS
Legacy*
Atomic add

4
SYSTEM
MEMORY
WORK-
GROUP 1
GPU
NUM.
WRITTEN
TASKS
GPU MEMORY
QUEUE 2QUEUE 1
0
0
NUM.
CONSUMED
TASKS
0
QUEUE 1
QUEUE 2
WORK-
GROUP 2
4
NUM.
WRITTEN
TASKS
0
2
NUM.
CONSUMED
TASKS
0
QUEUE 1
QUEUE 2
WORK-
GROUP 3
WORK-
GROUP 4
TASKS
POOL
PLATFORM ATOMICS
Legacy*

4
SYSTEM
MEMORY
WORK-
GROUP 1
GPU
NUM.
WRITTEN
TASKS
GPU MEMORY
QUEUE 2QUEUE 1
0
0
NUM.
CONSUMED
TASKS
0
QUEUE 1
QUEUE 2
WORK-
GROUP 2
4
NUM.
WRITTEN
TASKS
0
3
NUM.
CONSUMED
TASKS
0
QUEUE 1
QUEUE 2
WORK-
GROUP 3
WORK-
GROUP 4
TASKS
POOL
PLATFORM ATOMICS
Legacy*
Atomic add

4
SYSTEM
MEMORY
WORK-
GROUP 1
GPU
NUM.
WRITTEN
TASKS
GPU MEMORY
QUEUE 2QUEUE 1
0
0
NUM.
CONSUMED
TASKS
0
QUEUE 1
QUEUE 2
WORK-
GROUP 2
4
NUM.
WRITTEN
TASKS
0
3
NUM.
CONSUMED
TASKS
0
QUEUE 1
QUEUE 2
WORK-
GROUP 3
WORK-
GROUP 4
TASKS
POOL
PLATFORM ATOMICS
Legacy*

4
SYSTEM
MEMORY
WORK-
GROUP 1
GPU
NUM.
WRITTEN
TASKS
GPU MEMORY
QUEUE 2QUEUE 1
0
0
NUM.
CONSUMED
TASKS
0
QUEUE 1
QUEUE 2
WORK-
GROUP 2
4
NUM.
WRITTEN
TASKS
0
4
NUM.
CONSUMED
TASKS
0
QUEUE 1
QUEUE 2
WORK-
GROUP 3
WORK-
GROUP 4
TASKS
POOL
PLATFORM ATOMICS
Legacy*
Atomic add

4
SYSTEM
MEMORY
WORK-
GROUP 1
GPU
NUM.
WRITTEN
TASKS
GPU MEMORY
QUEUE 2QUEUE 1
0
4
NUM.
CONSUMED
TASKS
0
QUEUE 1
QUEUE 2
WORK-
GROUP 2
4
NUM.
WRITTEN
TASKS
0
4
NUM.
CONSUMED
TASKS
0
QUEUE 1
QUEUE 2
WORK-
GROUP 3
WORK-
GROUP 4
TASKS
POOL
PLATFORM ATOMICS
Legacy*
Zero-copy

PLATFORM ATOMICS
0
HOST COHERENT
MEMORY
WORK-
GROUP 1
GPU
NUM.
WRITTEN
TASKS
QUEUE 2QUEUE 1
TASKS
POOL
0
0
NUM.
CONSUMED
TASKS
0
QUEUE 1
QUEUE 2
WORK-
GROUP 2
WORK-
GROUP 3
WORK-
GROUP 4
GPU MEMORY

PLATFORM ATOMICS
0
HOST COHERENT
MEMORY
WORK-
GROUP 1
GPU
NUM.
WRITTEN
TASKS
QUEUE 2QUEUE 1
TASKS
POOL
0
0
NUM.
CONSUMED
TASKS
0
QUEUE 1
QUEUE 2
WORK-
GROUP 2
WORK-
GROUP 3
WORK-
GROUP 4
GPU MEMORY
memcpy

PLATFORM ATOMICS
4
HOST COHERENT
MEMORY
WORK-
GROUP 1
GPU
NUM.
WRITTEN
TASKS
QUEUE 2QUEUE 1
TASKS
POOL
0
0
NUM.
CONSUMED
TASKS
0
QUEUE 1
QUEUE 2
WORK-
GROUP 2
WORK-
GROUP 3
WORK-
GROUP 4
GPU MEMORY

PLATFORM ATOMICS
4
HOST COHERENT
MEMORY
WORK-
GROUP 1
GPU
NUM.
WRITTEN
TASKS
QUEUE 2QUEUE 1
TASKS
POOL
0
1
NUM.
CONSUMED
TASKS
0
QUEUE 1
QUEUE 2
WORK-
GROUP 2
WORK-
GROUP 3
WORK-
GROUP 4
GPU MEMORY
Platform atomic add

PLATFORM ATOMICS
4
HOST COHERENT
MEMORY
WORK-
GROUP 1
GPU
NUM.
WRITTEN
TASKS
QUEUE 2QUEUE 1
TASKS
POOL
0
1
NUM.
CONSUMED
TASKS
0
QUEUE 1
QUEUE 2
WORK-
GROUP 2
WORK-
GROUP 3
WORK-
GROUP 4
GPU MEMORY

PLATFORM ATOMICS
4
HOST COHERENT
MEMORY
WORK-
GROUP 1
GPU
NUM.
WRITTEN
TASKS
QUEUE 2QUEUE 1
TASKS
POOL
0
2
NUM.
CONSUMED
TASKS
0
QUEUE 1
QUEUE 2
WORK-
GROUP 2
WORK-
GROUP 3
WORK-
GROUP 4
GPU MEMORY
Platform atomic add

PLATFORM ATOMICS
4
HOST COHERENT
MEMORY
WORK-
GROUP 1
GPU
NUM.
WRITTEN
TASKS
QUEUE 2QUEUE 1
TASKS
POOL
0
2
NUM.
CONSUMED
TASKS
0
QUEUE 1
QUEUE 2
WORK-
GROUP 2
WORK-
GROUP 3
WORK-
GROUP 4
GPU MEMORY

PLATFORM ATOMICS
4
HOST COHERENT
MEMORY
WORK-
GROUP 1
GPU
NUM.
WRITTEN
TASKS
QUEUE 2QUEUE 1
TASKS
POOL
0
3
NUM.
CONSUMED
TASKS
0
QUEUE 1
QUEUE 2
WORK-
GROUP 2
WORK-
GROUP 3
WORK-
GROUP 4
GPU MEMORY
Platform atomic add

PLATFORM ATOMICS
4
HOST COHERENT
MEMORY
WORK-
GROUP 1
GPU
NUM.
WRITTEN
TASKS
QUEUE 2QUEUE 1
TASKS
POOL
0
3
NUM.
CONSUMED
TASKS
0
QUEUE 1
QUEUE 2
WORK-
GROUP 2
WORK-
GROUP 3
WORK-
GROUP 4
GPU MEMORY

PLATFORM ATOMICS
4
HOST COHERENT
MEMORY
WORK-
GROUP 1
GPU
NUM.
WRITTEN
TASKS
QUEUE 2QUEUE 1
TASKS
POOL
0
4
NUM.
CONSUMED
TASKS
0
QUEUE 1
QUEUE 2
WORK-
GROUP 2
WORK-
GROUP 3
WORK-
GROUP 4
GPU MEMORY
Platform atomic add

PLATFORM ATOMICS – CODE COMPLEXITY
HSA
Legacy
Host enqueue function: 20 lines of code
Host enqueue function: 102 lines of code

PLATFORM ATOMICS - PERFORMANCE
0
100
200
300
400
500
600
700
64 128 256 512 64 128 256 512
4096 16384
Executiontime(ms)
Tasks per insertion
Tasks pool size
Legacy implementation (ms)
HSA implementation (ms)

PLATFORM ATOMICS FOR
CPU/GPU COLLABORATION

PLATFORM ATOMICS
ENABLING EFFICIENT GPU/CPU COLLABORATION
Legacy
Only GPU
can work
on input
array
Concurre
nt
processin
g not
possible
TREEINPUT
BUFFER
GPU
KERNEL

PLATFORM ATOMICS
Legacy
Only GPU
can work
on input
array
Concurre
nt
processin
g not
possible
TREEINPUT
BUFFER
GPU
KERNEL

GPU
KERNEL
PLATFORM ATOMICS
Both
CPU+GPU
operating
on same
data
structure
concurren
tly
TREEINPUT
BUFFER
CPU
0
CPU
1

FOR LARGE
DATA SETS

PROCESSING LARGE DATA SETS
The CPU creates a large
data structure in System
Memory. Computations
using the data are
offloaded to the GPU.
SYSTEM
MEMORY
GPU

SYSTEM
MEMORY
Leve
l 1
Leve
l 2
Leve
l 3
Leve
l 4
Leve
l 5
PROCESSING LARGE DATA SETS
Large3Dspatialdata
structure
GPU
The CPU creates a large
data structure in System
Memory. Computations
using the data are
offloaded to the GPU.
Compare HSA and
Legacy methods

SYSTEM
MEMORY
LEGACY ACCESS USING GPU MEMORY
Legacy
GPU Memory
is smaller
Have to copy and
process in chunks
GPU
GPU
MEMORY

SYSTEM
MEMORY
Legacy
Leve
l 1
Leve
l 2
Leve
l 3
Leve
l 4
Leve
l 5
LEGACY ACCESS TO LARGE STRUCTURES
Large3Dspatialdata
structure
GPU
GPU
MEMOR
Y

SYSTEM
MEMORY
COPY ONE CHUNK AT A TIME
Legacy
Leve
l 1
Leve
l 2
Leve
l 3
Leve
l 4
Leve
l 5
GPU
KERNEL
Copy of top 2 levels of
hierarchy
Large3Dspatialdata
structure
GPU
MEMORY

GPU
GPU
MEMORY
SYSTEM
MEMORY
PROCESS ONE CHUNK AT A TIME
Legacy
Leve
l 1
Leve
l 2
Leve
l 3
Leve
l 4
Leve
l 5
FIRST
KERNEL

SYSTEM
MEMORY
Legacy
Leve
l 1
Leve
l 2
Leve
l 3
Leve
l 4
Leve
l 5
GPU
GPU
MEMORY
FIRST
KERNEL

SYSTEM
MEMORY
Legacy
Leve
l 1
Leve
l 2
Leve
l 3
Leve
l 4
Leve
l 5
GPU
GPU
MEMORY

SYSTEM
MEMORY
Legacy
Leve
l 1
Leve
l 2
Leve
l 3
Leve
l 4
Leve
l 5
GPU
KERNEL
Copy of bottom 3 levels of
one branch of the hierarchy
GPU
MEMORY

SYSTEM
MEMORY
Legacy
Leve
l 1
Leve
l 2
Leve
l 3
Leve
l 4
Leve
l 5
GPU
KERNEL
GPU
MEMORY
SECOND
KERNEL

SYSTEM
MEMORY
Legacy
Leve
l 1
Leve
l 2
Leve
l 3
Leve
l 4
Leve
l 5
GPU
Copy of bottom 3 levels of a
different branch of the
hierarchy
GPU
MEMORY

SYSTEM
MEMORY
Legacy
Leve
l 1
Leve
l 2
Leve
l 3
Leve
l 4
Leve
l 5
GPU
KERNEL
GPU
MEMORY
Nth
KERNEL

LARGE SPATIAL DATA STRUCTURE
Leve
l 1
Leve
l 2
Leve
l 3
Leve
l 4
Leve
l 5
Large3Dspatialdata
structure
SYSTEM
MEMORY
KERNEL
GPU

SYSTEM
MEMORY
GPU CAN TRAVERSE ENTIRE HIERARCHY
Leve
l 1
Leve
l 2
Leve
l 3
Leve
l 4
Leve
l 5
HSA
KERNEL
GPU

SYSTEM
MEMORY
GPU CAN TRAVERSE ENTIRE HIERARCHY
Leve
l 1
Leve
l 2
Leve
l 3
Leve
l 4
Leve
l 5
KERNEL
HSA
GPU

CALLBACKS
 Parallel processing algorithm with branches
 A seldom taken branch requires new data from the CPU
 On legacy systems, the algorithm must be split:
 Process Kernel 1 on GPU
 Check for CPU callbacks and if any, process on CPU
 Process Kernel 2 on GPU
 Example algorithm from Image Processing
 Perform a filter
 Calculate average LUMA in each tile
 Compare LUMA against threshold and call CPU callback if exceeded (rare)
 Perform special processing on tiles with callbackxs
COMMON SITUATION IN HC
Input Image Output Image

CALLBACKS
Legacy
GPUTHREADS
0
1
2
N
.
.
.
.
.
.
.
.
.
Continuation kernel
finishes up kernel
works
results in poor GPU
utilization

CALLBACKS
Input Image
1 Tile = 1 OpenCL Work
Item
Output
Image
GPU
• Work items compute average RGB value
of all the pixels in a tile
• Work items also compute average Luma
from the average RGB
• If average Luma > threshold, workgroup
invokes CPU CALLBACK
• In parallel with callback, continue compute
CPU
• For selected tiles, update average Luma
value (set to RED)
GPU
• Work items apply the Luma value to all
pixels in the tile
GPU to CPU callbacks use Shared
Virtual Memory (SVM) Semaphores,
implemented using Platform Atomic
Compare-and-Swap.

CALLBACKS
A few kernel threads
need CPU callback
services but serviced
immediately
GPUTHREADS
0
1
2
N
.
.
.
.
.
.
.
.
.
CPU
callbacks

SUMMARY - HSA ADVANTAGE
Programming
Technique
Use Case Description HSA Advantage
Pointer-based Data
Structures
Binary tree searches
GPU performs parallel searches in a CPU created
binary tree.
memory. GPU can access existing data structures containing
pointers.
Platform Atomics
Work-Group Dynamic Task Management
GPU directly operate on a task pool managed
by the CPU for algorithms with dynamic
computation loads
Binary tree updates
CPU and GPU operating simultaneously on the
tree, both doing modifications
CPU and GPU can synchronize using Platform Atomics
Higher performance through parallel operations reducing the
need for data copying and reconciling.
Large Data Sets
Hierarchical data searches
Applications include object recognition, collision
detection, global illumination, BVH
memory. GPU can operate on huge models in place,
reducing copy and kernel launch overhead.
CPU Callbacks
Middleware user-callbacks
GPU processes work items, some of which require
a call to a CPU function to fetch new data
GPU can invoke CPU functions from within a GPU kernel
Simpler programming does not require “split kernels”
Higher performance through parallel operations

HSA-ENABLED POINTER DATA STRUCTURES

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a HSA-ENABLED POINTER DATA STRUCTURES

Similar a HSA-ENABLED POINTER DATA STRUCTURES (20)

Más de HSA Foundation

Más de HSA Foundation (13)

Último

Último (20)

HSA-ENABLED POINTER DATA STRUCTURES

Notas del editor