PEARC17: Designsafe: Using Elasticsearch to Share and Search Data on a Science Web Portal

Designsafe: Using Elasticsearch to
Share and Search Data on a Science
Web Portal
Josue Balandrano Coronel
Stephen Mock
Texas Advanced Computing Center

- What is DesignSafe?
- Natural Hazards Engineering Research Infrastructure
Context

- Shared-use research infrastructure
Context

- Users within a project
Context

- Users and Experimental Facilities
Context

- Infrastructure
Context

Context: DesignSafe Architecture
Django
Middleware
Science Gateway

Django
Middleware
Agave
Elasticsearch
RabbitMQ
Custom APIs
Science Gateway Distributed Services

Django
Middleware
Agave
Elasticsearch
RabbitMQ
Stampede
Maverick
Custom APIs
Corral
Science Gateway Distributed Services HPC

- Infrastructure
- Data Depot
Context

- Infrastructure
- Data Depot
- Workspace
Context

- Infrastructure
- Data Depot
- Workspace
- Reconnaissance
Context

- What is Agave?
- Provides a holistic view of core computing concepts
Context

- What is Agave?
- Abstraction layer on top of HPC systems (execution and storage)
Context

- What is Agave?
- File permissions and access
Context

- What is Agave?
- File permissions and access
- Simpler ACL interface
Context

- Discoverable and searchable data
Problem

- Main queries:
Problem

- Main queries:
- Give me every file/folder I have access and it’s not in my home dir
Problem

- Main queries:
- Give me every file/folder I have access and it’s not in my home dir
- Search within context of the UI
Problem

- Search engine based on Lucene
Elasticsearch

- RESTful API
Elasticsearch

- RESTful API
- Schema-free JSON documents
Elasticsearch

- RESTful API
- Distributed
Elasticsearch

- RESTful API
- Distributed
- Near Realtime
Elasticsearch

- Consists of 3 blocks:
Elasticsearch - Analyzers

- Character filters

- Character filters
Removing HTML tags.

- Character filters
- Tokenizers

- Character filters
- Tokenizers
Hierarchical
“username/path/to/file.txt”
[“username”,
“username/path”,
“username/path/to”,
“username/path/to/file.txt”]

- Character filters
- Tokenizers
- Token filters

- Character filters
- Tokenizers
- Token filters
Case insensitive, i.e. lower case, or removing stop words

- Character filters
- Tokenizers
- Token filters
- Out of the box or custom

- Character filters
- Tokenizers
- Token filters
- Standard: Divides terms on word boundaries and lowercase token filter

- Character filters
- Tokenizers
- Token filters
- Keyword: Noop analyzer

- Character filters
- Tokenizers
- Token filters
- Custom Hierarchical: Breaks on specific character

- Character filters
- Tokenizers
- Token filters
- Custom Hierarchical: Breaks on specific character
- Language: remove stop words, exclude keywords, stemming

Elasticsearch
“name”: “file.txt” => “file.txt”
[“file”, “txt”]

Elasticsearch
“sytemId”: “designsafe.storage.default” =>
“designsafe.storage.default”
[“designsafe”,
“designsafe.storage”
“designsafe.storage.default”]

Elasticsearch
“sytemId”: “designsafe.storage.default” =>
“designsafe.storage.default”
[“designsafe”,
“designsafe.storage”
“designsafe.storage.default”]
“path”: “username/path/to” => “username/path/to”
“username/path/to”
[“username”,
“username/path”,
“username/path/to”]

Elasticsearch
- List all the files/folders I have access to in a specific system AND are not in my home directory

Elasticsearch
- List all the files/folders I have access to in a specific system which are not in my home directory

Elasticsearch
- List all the files/folders I have access to in a specific system under a specific folder

Elasticsearch
- List all the files/folders I have access to under a specific system under a specific folder

Elasticsearch
- List all the files/folders which matches a specific query string

Elasticsearch
- List all the files/folders in my home directory which matches a specific query string

Elasticsearch - Simple Query String

Elasticsearch - Simple Query String
- Simple language:
+ signifies AND operation
| signifies OR operation
- negates a single token
" wraps a number of tokens to signify a phrase for searching
* at the end of a term signifies a prefix query
( and ) signify precedence
~N after a word signifies edit distance (fuzziness)
~N after a phrase signifies slop amount
- Will never return an error, discards invalid parts of the query.

Elasticsearch - Caveats
- Manage dedup

- Manage dedup
- Not a persistent DB. How to recreate index quickly

- Manage dedup
- Synchronizing data

- Manage dedup
- Synchronizing data
- Access management

Elasticsearch - Other Uses
- Site-wide search

- Site-wide search
- Publications metadata

- Site-wide search
- Publications metadata
- Quick metrics calculations

Thank You
Special thanks to:
- DesignSafe Team
- TACC
- Stephen Mock
- PEARC
- My wife: Gigimaria Flores
Email: jcoronel@tacc.utexas.edu
Twitter: @eusoj_xirdneh
IRC: josuebc @ freenode

PEARC17: Designsafe: Using Elasticsearch to Share and Search Data on a Science Web Portal

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to PEARC17: Designsafe: Using Elasticsearch to Share and Search Data on a Science Web Portal

Similar to PEARC17: Designsafe: Using Elasticsearch to Share and Search Data on a Science Web Portal (20)

Recently uploaded

Recently uploaded (20)

PEARC17: Designsafe: Using Elasticsearch to Share and Search Data on a Science Web Portal

Editor's Notes