Este documento presenta una introducción al Stack Elastic y sus capacidades de machine learning. Explica brevemente cada componente del stack, incluyendo Elasticsearch para almacenamiento y búsqueda de datos, Kibana para visualización, y Beats y Logstash para ingesta de datos. Luego se enfoca en las capacidades de machine learning de Elasticsearch, discutiendo detección de anomalías en series temporales y análisis con data frames para detección de valores atípicos y machine learning supervisado.
With the rise of the Internet of Things (IoT) and low-latency analytics, streaming data becomes ever more important. Surprisingly, one of the most promising approaches for processing streaming data is SQL. In this presentation, Julian Hyde shows how to build streaming SQL analytics that deliver results with low latency, adapt to network changes, and play nicely with BI tools and stored data. He also describes how Apache Calcite optimizes streaming queries, and the ongoing collaborations between Calcite and the Storm, Flink and Samza projects.
This talk was given Julian Hyde at Apache Big Data conference, Vancouver, on 2016/05/09.
Serverless Kafka and Spark in a Multi-Cloud Lakehouse ArchitectureKai Wähner
Apache Kafka in conjunction with Apache Spark became the de facto standard for processing and analyzing data. Both frameworks are open, flexible, and scalable.
Unfortunately, the latter makes operations a challenge for many teams. Ideally, teams can use serverless SaaS offerings to focus on business logic. However, hybrid and multi-cloud scenarios require a cloud-native platform that provides automated and elastic tooling to reduce the operations burden.
This session explores different architectures to build serverless Apache Kafka and Apache Spark multi-cloud architectures across regions and continents.
We start from the analytics perspective of a data lake and explore its relation to a fully integrated data streaming layer with Kafka to build a modern data Data Lakehouse.
Real-world use cases show the joint value and explore the benefit of the "delta lake" integration.
The document provides an introduction to the ELK stack, which is a collection of three open source products: Elasticsearch, Logstash, and Kibana. It describes each component, including that Elasticsearch is a search and analytics engine, Logstash is used to collect, parse, and store logs, and Kibana is used to visualize data with charts and graphs. It also provides examples of how each component works together in processing and analyzing log data.
Introduction to Elastic Search
Elastic Search Terminology
Index, Type, Document, Field
Comparison with Relational Database
Understanding of Elastic architecture
Clusters, Nodes, Shards & Replicas
Search
How it works?
Inverted Index
Installation & Configuration
Setup & Run Elastic Server
Elastic in Action
Indexing, Querying & Deleting
Unify Stream and Batch Processing using Dataflow, a Portable Programmable Mod...DataWorks Summit
Google Cloud Dataflow is a fully managed service that allows users to build batch or streaming parallel data processing pipelines. It provides a unified programming model for batch and streaming workflows. Cloud Dataflow handles resource management and optimization to efficiently execute data processing jobs on Google Cloud Platform.
Batch Processing at Scale with Flink & IcebergFlink Forward
Flink Forward San Francisco 2022.
Goldman Sachs's Data Lake platform serves as the firm's centralized data platform, ingesting 140K (and growing!) batches per day of Datasets of varying shape and size. Powered by Flink and using metadata configured by platform users, ingestion applications are generated dynamically at runtime to extract, transform, and load data into centralized storage where it is then exported to warehousing solutions such as Sybase IQ, Snowflake, and Amazon Redshift. Data Latency is one of many key considerations as producers and consumers have their own commitments to satisfy. Consumers range from people/systems issuing queries, to applications using engines like Spark, Hive, and Presto to transform data into refined Datasets. Apache Iceberg allows our applications to not only benefit from consistency guarantees important when running on eventually consistent storage like S3, but also allows us the opportunity to improve our batch processing patterns with its scalability-focused features.
by
Andreas Hailu
With the rise of the Internet of Things (IoT) and low-latency analytics, streaming data becomes ever more important. Surprisingly, one of the most promising approaches for processing streaming data is SQL. In this presentation, Julian Hyde shows how to build streaming SQL analytics that deliver results with low latency, adapt to network changes, and play nicely with BI tools and stored data. He also describes how Apache Calcite optimizes streaming queries, and the ongoing collaborations between Calcite and the Storm, Flink and Samza projects.
This talk was given Julian Hyde at Apache Big Data conference, Vancouver, on 2016/05/09.
Serverless Kafka and Spark in a Multi-Cloud Lakehouse ArchitectureKai Wähner
Apache Kafka in conjunction with Apache Spark became the de facto standard for processing and analyzing data. Both frameworks are open, flexible, and scalable.
Unfortunately, the latter makes operations a challenge for many teams. Ideally, teams can use serverless SaaS offerings to focus on business logic. However, hybrid and multi-cloud scenarios require a cloud-native platform that provides automated and elastic tooling to reduce the operations burden.
This session explores different architectures to build serverless Apache Kafka and Apache Spark multi-cloud architectures across regions and continents.
We start from the analytics perspective of a data lake and explore its relation to a fully integrated data streaming layer with Kafka to build a modern data Data Lakehouse.
Real-world use cases show the joint value and explore the benefit of the "delta lake" integration.
The document provides an introduction to the ELK stack, which is a collection of three open source products: Elasticsearch, Logstash, and Kibana. It describes each component, including that Elasticsearch is a search and analytics engine, Logstash is used to collect, parse, and store logs, and Kibana is used to visualize data with charts and graphs. It also provides examples of how each component works together in processing and analyzing log data.
Introduction to Elastic Search
Elastic Search Terminology
Index, Type, Document, Field
Comparison with Relational Database
Understanding of Elastic architecture
Clusters, Nodes, Shards & Replicas
Search
How it works?
Inverted Index
Installation & Configuration
Setup & Run Elastic Server
Elastic in Action
Indexing, Querying & Deleting
Unify Stream and Batch Processing using Dataflow, a Portable Programmable Mod...DataWorks Summit
Google Cloud Dataflow is a fully managed service that allows users to build batch or streaming parallel data processing pipelines. It provides a unified programming model for batch and streaming workflows. Cloud Dataflow handles resource management and optimization to efficiently execute data processing jobs on Google Cloud Platform.
Batch Processing at Scale with Flink & IcebergFlink Forward
Flink Forward San Francisco 2022.
Goldman Sachs's Data Lake platform serves as the firm's centralized data platform, ingesting 140K (and growing!) batches per day of Datasets of varying shape and size. Powered by Flink and using metadata configured by platform users, ingestion applications are generated dynamically at runtime to extract, transform, and load data into centralized storage where it is then exported to warehousing solutions such as Sybase IQ, Snowflake, and Amazon Redshift. Data Latency is one of many key considerations as producers and consumers have their own commitments to satisfy. Consumers range from people/systems issuing queries, to applications using engines like Spark, Hive, and Presto to transform data into refined Datasets. Apache Iceberg allows our applications to not only benefit from consistency guarantees important when running on eventually consistent storage like S3, but also allows us the opportunity to improve our batch processing patterns with its scalability-focused features.
by
Andreas Hailu
The document discusses Netflix's use of Elasticsearch for querying log events. It describes how Netflix evolved from storing logs in files to using Elasticsearch to enable interactive exploration of billions of log events. It also summarizes some of Netflix's best practices for running Elasticsearch at scale, such as automatic sharding and replication, flexible schemas, and extensive monitoring.
Deep Dive on ElasticSearch Meetup event on 23rd May '15 at www.meetup.com/abctalks
Agenda:
1) Introduction to NOSQL
2) What is ElasticSearch and why is it required
3) ElasticSearch architecture
4) Installation of ElasticSearch
5) Hands on session on ElasticSearch
In this presentation, we are going to discuss how elasticsearch handles the various operations like insert, update, delete. We would also cover what is an inverted index and how segment merging works.
This document describes how to use the ELK (Elasticsearch, Logstash, Kibana) stack to centrally manage and analyze logs from multiple servers and applications. It discusses setting up Logstash to ship logs from files and servers to Redis, then having a separate Logstash process read from Redis and index the logs to Elasticsearch. Kibana is then used to visualize and analyze the logs indexed in Elasticsearch. The document provides configuration examples for Logstash to parse different log file types like Apache access/error logs and syslog.
This document discusses the ELK stack, which consists of Elasticsearch, Logstash, and Kibana. It provides an overview of each component, including that Elasticsearch is a search and analytics engine, Logstash is a data collection engine, and Kibana is a data visualization platform. The document then discusses setting up an ELK stack to index and visualize application logs.
Elastic Security: Unified protection for everyoneElasticsearch
1. Elastic Security provides unified protection for everyone through its security solutions including SIEM, endpoint security, threat hunting, and more.
2. It is powered by the Elastic Stack and can be deployed anywhere including Elastic Cloud on Kubernetes.
3. Elastic Security differentiates itself through its fast and scalable search engine, rich visualizations, fully operationalized machine learning, field-proven detection library, and vibrant community ecosystem.
The document discusses various components of the ELK stack including Elasticsearch, Logstash, Kibana, and how they work together. It provides descriptions of each component, what they are used for, and key features of Kibana such as its user interface, visualization capabilities, and why it is used.
This slide deck talks about Elasticsearch and its features.
When you talk about ELK stack it just means you are talking
about Elasticsearch, Logstash, and Kibana. But when you talk
about Elastic stack, other components such as Beats, X-Pack
are also included with it.
what is the ELK Stack?
ELK vs Elastic stack
What is Elasticsearch used for?
How does Elasticsearch work?
What is an Elasticsearch index?
Shards
Replicas
Nodes
Clusters
What programming languages does Elasticsearch support?
Amazon Elasticsearch, its use cases and benefits
This is the presentation for the talk I gave at JavaDay Kiev 2015. This is about an evolution of data processing systems from simple ones with single DWH to the complex approaches like Data Lake, Lambda Architecture and Pipeline architecture
Log Management
Log Monitoring
Log Analysis
Need for Log Analysis
Problem with Log Analysis
Some of Log Management Tool
What is ELK Stack
ELK Stack Working
Beats
Different Types of Server Logs
Example of Winlog beat, Packetbeat, Apache2 and Nginx Server log analysis
Mimikatz
Malicious File Detection using ELK
Practical Setup
Conclusion
If you are looking to gain all the benefits of Splunk software with all the benefits of a cloud-service, this is a must-attend session. In this session learn why Splunk Cloud is the industry-leading SaaS platform for operational intelligence and hear how Splunk Cloud customers use Splunk software with zero operational overhead. You will also learn how Splunk Cloud offers the full feature set of Splunk Enterprise, access to 500+ apps and single pane-of-glass visibility across Splunk Cloud and Splunk Enterprise deployments.
Apache Iceberg - A Table Format for Hige Analytic DatasetsAlluxio, Inc.
Data Orchestration Summit
www.alluxio.io/data-orchestration-summit-2019
November 7, 2019
Apache Iceberg - A Table Format for Hige Analytic Datasets
Speaker:
Ryan Blue, Netflix
For more Alluxio events: https://www.alluxio.io/events/
Databricks: A Tool That Empowers You To Do More With DataDatabricks
In this talk we will present how Databricks has enabled the author to achieve more with data, enabling one person to build a coherent data project with data engineering, analysis and science components, with better collaboration, better productionalization methods, with larger datasets and faster.
The talk will include a demo that will illustrate how the multiple functionalities of Databricks help to build a coherent data project with Databricks jobs, Delta Lake and auto-loader for data engineering, SQL Analytics for Data Analysis, Spark ML and MLFlow for data science, and Projects for collaboration.
Splunk is a scalable software that indexes and searches logs and IT data in real time. It can analyze data from any application, server, or device. Splunk uses a server component and forwarders to collect and index streaming data, and provides a web interface for searching, reporting, monitoring and alerting on the data.
The ELK stack is an open source toolset for data analysis that includes Logstash, Elasticsearch, and Kibana. Logstash collects and parses data from various sources, Elasticsearch stores and indexes the data for fast searching and analytics, and Kibana visualizes the data. The ELK stack can handle large volumes of time-series data in real-time and provides actionable insights. Commercial plugins are also available for additional functionality like monitoring, security, and support.
Keeping Up with the ELK Stack: Elasticsearch, Kibana, Beats, and LogstashAmazon Web Services
Version 7 of the Elastic Stack adds powerful new features to the popular open source platform for search, logging, and analytics. Come hear directly from Elastic engineers and architecture team members on powerful new additions like GIS functionality and frozen-tier search. Plus, hear about the full range of orchestration options for getting the most out of your deployments, however and wherever you choose to run them. This session is sponsored by Elastic.
This document provides an overview of setting up a Splunk environment, including installation, configuration, and deployment options. It discusses installing Splunk Enterprise or Universal Forwarder software, enabling Splunk to run at system startup, and optionally configuring the Distributed Management Console. Recommendations are provided for system prerequisites like hardware sizing, ports, and time synchronization across servers. Standalone, distributed, and universal forwarder deployment models are introduced at a high level.
More Data, More Problems: Scaling Kafka-Mirroring Pipelines at LinkedIn confluent
(Celia Kung, LinkedIn) Kafka Summit SF 2018
For several years, LinkedIn has been using Kafka MirrorMaker as the mirroring solution for copying data between Kafka clusters across data centers. However, as LinkedIn data continued to grow, mirroring trillions of Kafka messages per day across data centers uncovered the scale limitations and operability challenges of Kafka MirrorMaker. To address such issues, we have developed a new mirroring solution, built on top our stream ingestion service, Brooklin. Brooklin MirrorMaker aims to provide improved performance and stability, while facilitating better management through finer control of data pipelines. Through flushless Kafka produce, dynamic management of data pipelines, per-partition error handling and flow control, we are able to increase throughput, better withstand consume and produce failures and reduce overall operating costs. As a result, we have eliminated the major pain points of Kafka MirrorMaker. In this talk, we will dive deeper into the challenges LinkedIn has faced with Kafka MirrorMaker, how we tackled them with Brooklin MirrorMaker and our plans for iterating further on this new mirroring solution.
The document provides an overview of the Databricks platform, which offers a unified environment for data engineering, analytics, and AI. It describes how Databricks addresses the complexity of managing data across siloed systems by providing a single "data lakehouse" platform where all data and analytics workloads can be run. Key features highlighted include Delta Lake for ACID transactions on data lakes, auto loader for streaming data ingestion, notebooks for interactive coding, and governance tools to securely share and catalog data and models.
Automatizar detecciones de amenazas y evitar falsos positivosElasticsearch
Eliminar puntos ciegos significa que ahora tendras suficiente contexto. ¿Pero podras obtener información importante de ese contexto cuando la necesites? Conoce cómo detectar amenazas (y evitar la interferencia de los falsos positivos) con el motor de detección en Elastic Security. Verás cómo automatizar la detección de amenazas a través de correlaciones y Machine Learning, con ejemplos del mundo real de ambos.
The document discusses Netflix's use of Elasticsearch for querying log events. It describes how Netflix evolved from storing logs in files to using Elasticsearch to enable interactive exploration of billions of log events. It also summarizes some of Netflix's best practices for running Elasticsearch at scale, such as automatic sharding and replication, flexible schemas, and extensive monitoring.
Deep Dive on ElasticSearch Meetup event on 23rd May '15 at www.meetup.com/abctalks
Agenda:
1) Introduction to NOSQL
2) What is ElasticSearch and why is it required
3) ElasticSearch architecture
4) Installation of ElasticSearch
5) Hands on session on ElasticSearch
In this presentation, we are going to discuss how elasticsearch handles the various operations like insert, update, delete. We would also cover what is an inverted index and how segment merging works.
This document describes how to use the ELK (Elasticsearch, Logstash, Kibana) stack to centrally manage and analyze logs from multiple servers and applications. It discusses setting up Logstash to ship logs from files and servers to Redis, then having a separate Logstash process read from Redis and index the logs to Elasticsearch. Kibana is then used to visualize and analyze the logs indexed in Elasticsearch. The document provides configuration examples for Logstash to parse different log file types like Apache access/error logs and syslog.
This document discusses the ELK stack, which consists of Elasticsearch, Logstash, and Kibana. It provides an overview of each component, including that Elasticsearch is a search and analytics engine, Logstash is a data collection engine, and Kibana is a data visualization platform. The document then discusses setting up an ELK stack to index and visualize application logs.
Elastic Security: Unified protection for everyoneElasticsearch
1. Elastic Security provides unified protection for everyone through its security solutions including SIEM, endpoint security, threat hunting, and more.
2. It is powered by the Elastic Stack and can be deployed anywhere including Elastic Cloud on Kubernetes.
3. Elastic Security differentiates itself through its fast and scalable search engine, rich visualizations, fully operationalized machine learning, field-proven detection library, and vibrant community ecosystem.
The document discusses various components of the ELK stack including Elasticsearch, Logstash, Kibana, and how they work together. It provides descriptions of each component, what they are used for, and key features of Kibana such as its user interface, visualization capabilities, and why it is used.
This slide deck talks about Elasticsearch and its features.
When you talk about ELK stack it just means you are talking
about Elasticsearch, Logstash, and Kibana. But when you talk
about Elastic stack, other components such as Beats, X-Pack
are also included with it.
what is the ELK Stack?
ELK vs Elastic stack
What is Elasticsearch used for?
How does Elasticsearch work?
What is an Elasticsearch index?
Shards
Replicas
Nodes
Clusters
What programming languages does Elasticsearch support?
Amazon Elasticsearch, its use cases and benefits
This is the presentation for the talk I gave at JavaDay Kiev 2015. This is about an evolution of data processing systems from simple ones with single DWH to the complex approaches like Data Lake, Lambda Architecture and Pipeline architecture
Log Management
Log Monitoring
Log Analysis
Need for Log Analysis
Problem with Log Analysis
Some of Log Management Tool
What is ELK Stack
ELK Stack Working
Beats
Different Types of Server Logs
Example of Winlog beat, Packetbeat, Apache2 and Nginx Server log analysis
Mimikatz
Malicious File Detection using ELK
Practical Setup
Conclusion
If you are looking to gain all the benefits of Splunk software with all the benefits of a cloud-service, this is a must-attend session. In this session learn why Splunk Cloud is the industry-leading SaaS platform for operational intelligence and hear how Splunk Cloud customers use Splunk software with zero operational overhead. You will also learn how Splunk Cloud offers the full feature set of Splunk Enterprise, access to 500+ apps and single pane-of-glass visibility across Splunk Cloud and Splunk Enterprise deployments.
Apache Iceberg - A Table Format for Hige Analytic DatasetsAlluxio, Inc.
Data Orchestration Summit
www.alluxio.io/data-orchestration-summit-2019
November 7, 2019
Apache Iceberg - A Table Format for Hige Analytic Datasets
Speaker:
Ryan Blue, Netflix
For more Alluxio events: https://www.alluxio.io/events/
Databricks: A Tool That Empowers You To Do More With DataDatabricks
In this talk we will present how Databricks has enabled the author to achieve more with data, enabling one person to build a coherent data project with data engineering, analysis and science components, with better collaboration, better productionalization methods, with larger datasets and faster.
The talk will include a demo that will illustrate how the multiple functionalities of Databricks help to build a coherent data project with Databricks jobs, Delta Lake and auto-loader for data engineering, SQL Analytics for Data Analysis, Spark ML and MLFlow for data science, and Projects for collaboration.
Splunk is a scalable software that indexes and searches logs and IT data in real time. It can analyze data from any application, server, or device. Splunk uses a server component and forwarders to collect and index streaming data, and provides a web interface for searching, reporting, monitoring and alerting on the data.
The ELK stack is an open source toolset for data analysis that includes Logstash, Elasticsearch, and Kibana. Logstash collects and parses data from various sources, Elasticsearch stores and indexes the data for fast searching and analytics, and Kibana visualizes the data. The ELK stack can handle large volumes of time-series data in real-time and provides actionable insights. Commercial plugins are also available for additional functionality like monitoring, security, and support.
Keeping Up with the ELK Stack: Elasticsearch, Kibana, Beats, and LogstashAmazon Web Services
Version 7 of the Elastic Stack adds powerful new features to the popular open source platform for search, logging, and analytics. Come hear directly from Elastic engineers and architecture team members on powerful new additions like GIS functionality and frozen-tier search. Plus, hear about the full range of orchestration options for getting the most out of your deployments, however and wherever you choose to run them. This session is sponsored by Elastic.
This document provides an overview of setting up a Splunk environment, including installation, configuration, and deployment options. It discusses installing Splunk Enterprise or Universal Forwarder software, enabling Splunk to run at system startup, and optionally configuring the Distributed Management Console. Recommendations are provided for system prerequisites like hardware sizing, ports, and time synchronization across servers. Standalone, distributed, and universal forwarder deployment models are introduced at a high level.
More Data, More Problems: Scaling Kafka-Mirroring Pipelines at LinkedIn confluent
(Celia Kung, LinkedIn) Kafka Summit SF 2018
For several years, LinkedIn has been using Kafka MirrorMaker as the mirroring solution for copying data between Kafka clusters across data centers. However, as LinkedIn data continued to grow, mirroring trillions of Kafka messages per day across data centers uncovered the scale limitations and operability challenges of Kafka MirrorMaker. To address such issues, we have developed a new mirroring solution, built on top our stream ingestion service, Brooklin. Brooklin MirrorMaker aims to provide improved performance and stability, while facilitating better management through finer control of data pipelines. Through flushless Kafka produce, dynamic management of data pipelines, per-partition error handling and flow control, we are able to increase throughput, better withstand consume and produce failures and reduce overall operating costs. As a result, we have eliminated the major pain points of Kafka MirrorMaker. In this talk, we will dive deeper into the challenges LinkedIn has faced with Kafka MirrorMaker, how we tackled them with Brooklin MirrorMaker and our plans for iterating further on this new mirroring solution.
The document provides an overview of the Databricks platform, which offers a unified environment for data engineering, analytics, and AI. It describes how Databricks addresses the complexity of managing data across siloed systems by providing a single "data lakehouse" platform where all data and analytics workloads can be run. Key features highlighted include Delta Lake for ACID transactions on data lakes, auto loader for streaming data ingestion, notebooks for interactive coding, and governance tools to securely share and catalog data and models.
Automatizar detecciones de amenazas y evitar falsos positivosElasticsearch
Eliminar puntos ciegos significa que ahora tendras suficiente contexto. ¿Pero podras obtener información importante de ese contexto cuando la necesites? Conoce cómo detectar amenazas (y evitar la interferencia de los falsos positivos) con el motor de detección en Elastic Security. Verás cómo automatizar la detección de amenazas a través de correlaciones y Machine Learning, con ejemplos del mundo real de ambos.
Laboratorio práctico: La sazón del científico de datosSoftware Guru
Este taller pretende hacer una conexión entre el arte y la ciencia necesarias para desarrollar un modelo correcto. Nos enfrentaremos a datos agrios y modelos aguados, pero entenderemos el camino para corregir.
El rápido incremento de Internet de las Cosas en las organizaciones genera grandes volúmenes de datos, los cuales nos pueden brindar información valiosa para innovar, optimizar, mejorar los procesos y obtener respuestas a preguntas de negocio.
En este webinario veremos cómo sacar provecho a los datos generados por los dispositivos inteligentes para:
• Innovar y mejorar los procesos mediante el uso de los datos generador por sensores y máquinas, productos, cadenas de suministro y consumidores.
• Convierta los datos de sensores en información estratégica en tiempo real.
• Analice flujos de datos de IoT para reconocer patrones y automatizar eventos.
• Implemente, ejecute y actualice modelos analíticos para prever y prevenir incidentes en tiempo real y encontrar anomalías no detectadas.
Este documento presenta un taller sobre reconocimiento pasivo. Introduce al orador y explica que el reconocimiento pasivo implica buscar información pública sobre un objetivo sin interactuar directamente. Luego discute técnicas tradicionales y nuevas como OSINT, metadata y herramientas como Maltego para relacionar la información. Finaliza con 5 laboratorios prácticos para aplicar las técnicas discutidas.
El documento describe las herramientas y estilos de inteligencia de negocios, incluyendo informes empresariales, análisis de cubos, consultas ad-hoc, análisis estadísticos y envío de alertas. También explica cómo la inteligencia de negocios puede transformar los datos en conocimiento para apoyar la toma de decisiones mediante el almacenamiento y análisis de datos históricos en un almacén de datos.
Este documento presenta las etapas del ciclo de vida de análisis de datos, incluyendo la toma de requisitos, análisis exploratorio de datos, modelado de datos, visualización de datos y retroalimentación de requisitos. Explica cada etapa en detalle con ejemplos. El objetivo es proporcionar una guía sobre cómo llevar a cabo un análisis de datos completo y efectivo desde el inicio hasta la conclusión del proyecto.
Obtener visibilidad completa y encontrar problemas de seguridad ocultosElasticsearch
Este documento resume cómo Elastic resuelve el dilema de los datos de seguridad para las organizaciones. Ofrece un marco común para la recopilación de datos a través de múltiples fuentes, una administración configurable de los datos mediante un estándar abierto y la capacidad de hacer accionables los datos a través de la búsqueda de amenazas, detección automatizada y prevención de amenazas. Elastic Agent permite la recopilación centralizada de datos y protección de terminales de forma integral.
Este documento presenta un procedimiento de 10 pasos para el análisis forense en entornos Windows. Inicialmente se discute la recopilación de evidencias de manera segura y sin alteraciones. Luego, el análisis incluye examinar archivos, registros, procesos y tráfico de red para identificar malware u otras anomalías. El objetivo final es recuperar información eliminada, detectar rootkits y otras amenazas, y establecer la cadena de custodia de las pruebas.
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...Socialmetrix
Juan Martín Pampliega presenta sobre la construcción de una infraestructura de Big Data escalable y rentable. Explica que evolucionaron su arquitectura para manejar un volumen creciente de datos, reducir tiempos de procesamiento, y mitigar errores. Adoptaron conceptos como la arquitectura Lambda y sistemas distribuidos. Implementaron Kafka, Spark y Cassandra para lograr procesamiento distribuido, robusto y escalable. Aprendieron que es importante probar los sistemas y monitorearlos, y que herramientas no deben usarse
1. El documento introduce conceptos básicos de analítica de datos como Big Data, Smart Data y Web Scraping. 2. Explica las 3 V y 7 V del Big Data, así como fases de proyectos de analítica. 3. Incluye secciones sobre ecosistemas, aplicaciones, casos reales y conclusiones sobre la importancia de volumen, velocidad y variedad de datos.
ANALÍTICA DE DATOS EN INSTITUCIONES EDUCATIVAS 1CARLOS MASSUH
El documento describe la importancia de la analítica de datos en las instituciones educativas. Explica conceptos clave como Big Data, analítica de aprendizaje y tableros analíticos de control. También detalla el proceso de extracción, transformación y limpieza de datos, así como técnicas y herramientas para la extracción y transformación de datos con el fin de lograr una visión integrada de la información. El objetivo final es generar conocimiento a través del análisis de datos que permita mejorar la gestión y los resultados en las instituc
Este documento presenta una introducción al aprendizaje automático (ML), describiendo los tipos principales de ML como el aprendizaje supervisado, no supervisado y reforzado. También discute brevemente el software de ML como Python, R y Weka, así como el ecosistema del ML que incluye conceptos como inteligencia artificial, big data y ciencia de datos.
Este documento introduce el análisis de datos masivos (Big Data), definiendo qué es, las tecnologías involucradas como Hadoop y MapReduce, e infraestructura como visualización de datos. Explica los conceptos de volumen, velocidad, variedad y veracidad de los datos, y cómo el análisis puede identificar estrategias educativas efectivas.
OpenText Magellan: Información general (Spanish)OpenText
El documento presenta OpenText Magellan, una plataforma de análisis e inteligencia artificial que permite la adquisición, gestión y análisis de grandes cantidades de datos estructurados y no estructurados para ofrecer recomendaciones automatizadas y optimización de procesos. La plataforma se describe como pre-integrada, de código abierto y capaz de procesar datos complejos de diversas fuentes para brindar perspectivas a usuarios de negocios y tomadores de decisiones.
Herramienta de Almacén de Datos e Inteligencia de ReportesNicolás Pace
Las organizaciones generan información útil para su gestión diaria, pero la falta de herramientas y el volumen de información generada usualmente dificulta obterner datos desde ahi. Les acercamos una solución que les permitirá entender los datos y utilizarlos para mejorar la gestión de su organización.
El documento describe los conceptos clave de minería de datos e incluye las siguientes secciones: (1) definición de minería de datos, (2) proceso de minería de datos, (3) características principales, (4) aplicaciones, (5) extracción de conocimiento en bases de datos (KDD), (6) técnicas como clasificación, agrupamiento, asociación, y (7) herramientas de software como Weka.
El documento proporciona una introducción a las plataformas de datos inteligentes. Explica que una plataforma de datos inteligente integra funciones como bases de datos operativas, análisis, inteligencia artificial, gobernanza de datos y seguridad para permitir que las organizaciones aprovechen al máximo sus datos. También describe los componentes clave de una plataforma de datos inteligente, incluida la ingesta de datos, el almacenamiento analítico y la visualización de datos.
Similar a Introducción al Stack Elastic y Machine Learning con Elasticsearch (20)
Rebuilding Your Cloud Native Community Lessons learned from Stardew ValleyImma Valls Bernaus
In the wake of COVID-19, many cloud-native communities struggle to regain their former footing.
This talk draws inspiration from Stardew Valley to provide actionable strategies for reviving and revitalizing your cloud-native community meetup. Just like restoring a farm, revitalizing a community requires careful planning, dedication, and a touch of gamification.
We'll discuss the strategies used for a successful comeback of the Barcelona community, such as engaging older and new organizers, finding captivating topics and events, securing venues and sponsors, attracting speakers, or establishing a regular meetup schedule.
Join me as we transform a community from a neglected patch of land back into a thriving hub of learning and connection!
As enterprises adopt Prometheus and Kubernetes, the rate of metrics growth has skyrocketed, and so have the costs associated with it. Unfortunately, more metrics does not mean better business outcomes: Enterprises see no visible improvements to mean time to resolution (MTTR) when more than 50% of metrics go unused.
In this talk we introduce how Grafana Cloud tackles the problem of unmanageable metrics growth with Adaptive Metrics, the newest cardinality optimization feature in Grafana Cloud that eliminates unused and partially used time series through customized aggregation.
Troubleshooting your Elasticsearch cluster like an Elastic Support EngineerImma Valls Bernaus
Where to start when troubleshooting an Elasticsearch cluster? Is your cluster down, or experiencing degraded performance?
Join this talk if you want to learn how Elastic Support Engineers approach troubleshooting and some best practices they recommend to customers.
Te damos la bienvenida a una nueva forma de realizar búsquedasImma Valls Bernaus
Al igual que la mayoría de las organizaciones modernas, tus equipos probablemente usan más de 10 aplicaciones basadas en la nube a diario, pero dedican demasiado tiempo a buscar la información que necesitan en todas estas. Gracias a las características integradas de Elastic Workplace Search, podrás comprobar lo sencillo que resulta poner el contenido relevante al alcance de tus equipos gracias a la búsqueda unificada para todas las aplicaciones que usan para llevar a cabo su trabajo.
Automatiza las detecciones de amenazas y evita falsos positivosImma Valls Bernaus
Eliminar los puntos ciegos significa que tienes suficiente contexto. ¿Pero, puedes obtener información importante de ese contexto cuándo lo necesitas? Aprende a detectar amenazas mientras evitas el ruido de falsos positivos, con el motor de detección de Elastic Security. Verás cómo automatizar la detección de amenazas mediante correlaciones y Machine Learning, con ejemplos reales de cada uno.
Troubleshooting your Elasticsearch cluster like a support engineerImma Valls Bernaus
We’ve all been stuck Where to start when troubleshooting an Elasticsearch cluster? Is your cluster down, or experiencing degraded performance? Did it fail to upgrade?
A well-configured Elasticsearch installation is able to better utilize available resources and respond more efficiently to requests. Join this talk if you want to learn the tools available to help you out (Elasticsearch REST APIs, log analysis, monitoring) and how to prevent the most common issues we see in Elastic support, with the recommended best practices to avoid them.
Descubre las mas recientes y futuras características del Stack: gestión del ciclo de vida de los datos para arquitecturas hot/warm/cold con DataStreams, mejoras en uso de memoria y disco, mejoras en el enrutado de las consultas; Analítica de datos multi lenguaje con query cDSL, SQL, KQL, PromQL y EQL; el nuevo sistema de Alertas y Acciones.
Presentación de Kibana Lens: Una forma fácil e intuitiva de visualizar los datosImma Valls Bernaus
Te presentamos a Kibana Lens, una nueva forma fácil e intuitiva para que todos visualicen sus datos dentro de Kibana. Con una nueva interfaz de arrastrar y soltar, características de exploración de datos con un clic y el poder de proporcionar sugerencias de visualización, Lens es la forma mas rápida de descubrir información de tus datos de Elasticsearch.
Incluye una demo para descubrir cómo Lens puede ayudar tanto a los usuarios de Kibana nuevos como a los experimentados. Revisaremos cómo optimizar las actividades de análisis existentes y demostraremos lo fácil que es visualizar los datos.
Machine Learning para detección de anomalías, modelado de series temporales y...Imma Valls Bernaus
No tienes que ser un científico de datos para usar las características de machine learning de Elastic ni para saber crear y operar con modelos de datos en tiempo real. Aprende cómo se han integrado en el Elastic Stack y cómo se usan para el modelado de series temporales para la previsión y detección de anomalías. Echa también un vistazo en primicia a las nuevas características que permitirán más aplicaciones nuevas de machine learning.
Deploying Elasticsearch and Kibana on Kubernetes with the Elastic Operator / ECKImma Valls Bernaus
Managing and Elasticsearch deployment on Kubernetes can be challenging. Orchestrating a deployment or upgrading are not simple tasks. Our operator will help you easily manage simple or complex deployments like hot/warm/cold.
In this talk, Janko Strassburg and Imma Valls, Sr. Support Engineers at Elastic will demonstrate how to use the new operator, Elastic Cloud on Kubernetes (ECK) to automate deployments and manage an Elasticsearch cluster.
Monitorizando con el Stack Elastic Elige tu propia aventuraImma Valls Bernaus
In this workshop, we’ll give you the tools to start monitoring your infrastructure and applications using the Elastic Stack. Just bring your laptop with docker-compose installed, and we will guide you through the steps to start collecting and visualizing some logs and metrics.
And come prepared to Choose Your Own Adventure!
We will dive into:
- System metrics: Collect infrastructure metrics.
- Application logs: Collect structured logs in a central location.
- Uptime monitoring: Ping services and actively monitor their availability and response time.
Desplegando Elasticsearch y Kibana en Kubernetes con el Operator de Elastic (...Imma Valls Bernaus
Desplegar Elasticsearch y Kibana sobre Kubernetes nunca fue tan fácil! Elastic Cloud on Kubernetes(ECK) es el operador desarrollado por Elastic que te permite realizar despliegues, actualizar versiones y escalarlos en forma declarativa.
El Stack Elastic / Stack ELK presenta en cada versión de todos sus productos (Elasticsearch, Kibana, Beats y Logstash), ya sea minor o major, nuevas y potentes funcionalidades. La actualización del Stack Elastic a la última versión te permite aprovechar estas mejoras y nuevas funciones. Sin embargo, las actualizaciones de software pueden ser una tarea desalentadora, especialmente cuando el software en cuestión da servicio a aplicaciones críticas. Pero, no tiene porque serlo. Únete a nuestro webinar para aprender cómo hacer que la actualización sin complicaciones, adoptando unos simples consejos.
Troubleshooting your elasticsearch cluster like a support engineerImma Valls Bernaus
Where to start when troubleshooting an Elasticsearch cluster? Is your cluster down, or experiencing degraded performance? Did it fail to upgrade?
A well-configured Elasticsearch installation is able to better utilize available resources and respond more efficiently to requests.
Join this talk if you want to learn the tools available to help you out (Elasticsearch REST APIs, log analysis, monitoring) and how to prevent the most common issues we see in Elastic support, with the recommended best practices to avoid them.
Automatiza las detecciones de amenazas y evita falsos positivosImma Valls Bernaus
Eliminar los puntos ciegos significa que tienes suficiente contexto. ¿Pero, puedes obtener información importante de ese contexto cuándo lo necesitas? Aprende a detectar amenazas mientras evitas el ruido de falsos positivos, con el motor de detección de Elastic Security. Verás cómo automatizar la detección de amenazas mediante correlaciones y Machine Learning, con ejemplos reales de cada uno.
Te damos la bienvenida a una nueva forma de realizar búsquedasImma Valls Bernaus
Al igual que la mayoría de las organizaciones modernas, tus equipos probablemente usan más de 10 aplicaciones basadas en la nube a diario, pero dedican demasiado tiempo a buscar la información que necesitan en todas estas. Gracias a las características integradas de Elastic Workplace Search, podrás comprobar lo sencillo que resulta poner el contenido relevante al alcance de tus equipos gracias a la búsqueda unificada para todas las aplicaciones que usan para llevar a cabo su trabajo.
Barcelona Elastic Meetup January 31 2019 - Release 6.5 features
Introducción al Stack Elastic y Machine Learning con Elasticsearch
1. Introducción al Stack Elastic
Search. Observe. Protect.
Imma Valls
@eyeveebee
https://github.com/immavalls/
5 de Mayo 2020
2. Agenda
Las búsquedas en tecnología
El Stack Elastic
Elasticsearch
Visualización y gestión de datos con Kibana
3
1
4
Ingesta de datos
2
5
¿Cómo funciona todo junto?
6
Soluciones con el Stack Elastic
7
11. El Stack Elastic
Obtener datos de forma fiable y
segura de cualquier fuente, en
cualquier formato, para luego buscar,
analizar y visualizar en tiempo real.
2
15. 3
Elasticsearch
¿Cómo almacenar los datos?
● Datos en origen en distintos formatos: BBDD, CSV, etc.
● Se deben convertir a objetos JSON para enviar al API REST de Elasticsearch. Los
documentos se almacenan en índices, agrupaciones lógicas de Lucene shards.
17. 3
Elasticsearch
Dos tipos de búsquedas
○ Queries
¿Qué vuelos tienen origen en “Amsterdam”?
¿Qué vuelos se retrasaron 60 minutos o más?
○ Agregaciones
¿Cuáles son los top 3 aeropuertos origen?
¿Qué retraso tienen en media los vuelos en los 2 top aeropuertos origen?
18. 3
Elasticsearch
Búsquedas - Queries
Query DSL (Domain Specific Language) basado en JSON para definir queries
¿Qué vuelos
tienen origen
en
“Amsterdam”?
¿Qué vuelos
se retrasaron
60 minutos o
más?
26. Logstash
Ingestar datos de distintos
tipos y fuentes
Parsear y transformar
dinámicamente datos
Transportar datos a varias
salidas
Securizar y encriptar
entradas de datos
Construye tus propias
pipelines Gran variedad de plugins
5
31. Beats
Enviar datos desde
las fuentes
Enviar y centralizar los
datos en Elasticsearch
Enviar datos a Logstash si se
requieren transformaciones
Enviar al Cloud de Elastic Libbeat: API framework para
construir beats a medida 70+ Beats de comunidad
5
34. 5
Elasticsearch Kibana
Logstash
Beats
• Agentes de recolección
ligeros
• Ficheros, métricas,
paquetes, eventos de
auditoría
• Módulos
pre-construidos para
análisis y visualización
• Normalizar, filtrar,
enriquecer
• Configuración
centralizada
• Colas persistentes
• Buen rendimiento en
búsquedas y
analítica
• Escalable, resiliente,
alta disponibilidad
• Tipos de nodos
configurables
• Explorar y buscar
• Interacción visual
con los datos
• Herramientas de
desarrollo y gestión
Pipeline Lógica de Ingesta
39. Elastic is a Search Company.
www.elastic.co
Pausa para Café
40. Machine Learning con Elasticsearch
Search. Observe. Protect.
Imma Valls
@eyeveebee
https://github.com/immavalls/
5 de Mayo 2020
41. Agenda
Introducción. Funcionamiento y Casos de Uso
Detección de Anomalías en Series Temporales
Analítica con Data Frames: Outlier Detection y
Machine Learning Supervisado
3
1
2
48. 1
¿Supervisado no supervisado?
• ¿Por qué este servidor está enviando
muchos más datos ahora?
• ¿Que es este nuevo proceso?
• ¿Por qué son de mayor tamaño que
antes estas peticiones al DNS?
• ¿Tengo sistemas comprometidos, con
algun malware?
• ¿Qué usuarios podrían ser una
amenaza de seguridad interna?
• ¿Qué incidentes en el tráfico de red
están causando el mayor retraso?
Dos enfoques distintos para resolver distintos casos de uso
No Supervisado
• ¿Qué transacciones son fraudulentas?
• ¿Qué productos deberíamos recomendar a
los clientes?
• ¿Qué clientes es probable que abandonen?
• ¿Cómo puedo clasificar la actividad según el
tipo de terminal de origen (ej.
smartphone)?
• ¿En qué idioma está escrito un documento?
• ¿Qué resultados de búsqueda son más
relevantes basándonos en el ratio de
click-through?
Supervisado
49. 1
No Supervisado
Supervisado
Data Driven:
Reconocimiento
de patrones
Datos
etiquetados para
aprendizaje y
predicción
● Detección Anomalías
● Detección valores
atípicos
● Forecasting
● Identificación idioma
● Detección fraude
● Clasificación usuarios
Expandiendo casos de uso
Machine Learning Supervisado extremo a extremo con la versión 7.6
51. 2
Conceptos sobre Anomalías
Detectando anomalías en los datos
Aprendizaje no supervisado
● Aprendizaje sin ejemplos etiquetados por humanos
● Basarse sólo en los datos
Detección de Anomalías
● Descubrir lo que es extraño o diferente, no necesariamente malo.
Bayesiano
● Determinar las probabilidades posteriores en función de las
probabilidades anteriores y la nueva información. Cuando se recopile
información adicional.
55. 1
¿Cómo definimos “Normal”?
1. Algo que se comporta de
manera consistente con
respecto a sí mismo, en
el tiempo
2. Algo se comporta de
manera consistente en
comparación con
entidades similares
2
56. 1
¿Qué es “Anormal”?
1. Si algo cambia su
comportamiento, en
comparación con su propia
historia, ese cambio es
anómalo
2
“normal” “normal”
anomalía
“normal” “normal”
anomalía
57. 1
¿Qué es “Anormal”?
2. Si algo es drásticamente
diferente que otros dentro
de una población, entonces
esa entidad es anómala
2
“normal”
anómalo
58. 1
¿Qué es “Anormal”?
2. Si algo es drásticamente
diferente que otros dentro
de una población, entonces
esa entidad es anómala
También existe el concepto de
ser "algo anómalo"
2
“normal”
anómalo
algo anómalo
59. 1
¿Cómo definimos “Anormal”?
1. Cuando el
comportamiento de una
entidad cambia de
manera significativa y
repentina
2. Cuando una entidad es
drásticamente diferente
de otras dentro de una
población
2
60. 1
¿Cómo se escoge el “Modelo”
que mejor se adapta a
nuestros datos?
2
61. 1
Machine Learning lo escoge
por nosotros,
no supervisado
● Utiliza técnicas sofisticadas de
machine-learning para ajustar
mejor el modelo estadístico
adecuado para nuestros datos
● Mejor modelo = mejor detección
valores atípicos = menos falsas
alarmas
● Las anomalías ocurren cuando
estamos en zonas de baja
probabilidad de esos valores
2
62. 2
periodicidad
En dos días se ha
aprendido la
periodicidad diaria
Tras dos semanas, se ha
aprendido la
periodicidad semanal
70. 3
Casos de Uso construir Modelo
¿De qué comportamiento podemos aprender para hacer predicciones?
● Machine Learning en Search
■ ¿En qué idioma está escrito un documento?
■ ¿Cómo incrementar la relevancia en las búsquedas para entidades nombradas?
■ ¿Qué resultados son más relevantes basados en el ratio de click-through?
● Seguridad
■ ¿Cómo identificar nombres de dominio maliciosos generados por DGAs?
■ ¿Cómo clasificar la actividad según el tipo de terminal de origen (ej. smartphone)?
● Observabilidad
■ ¿Que usuarios o servidores son atípicos?
■ ¿Cómo clasificar alertas y enrutarlas al equipo adecuado?
■ ¿Qué clientes es probable que nos abandonen?
71. Analítica Data Frames
● Permite entrenar un modelo y evaluarlo
■ Outlier Detection / Detección de valores atípicos (No supervisado)
■ Análisis de Regresión (Supervisado)
■ Análisis de Clasificación (Supervisado)
■ Inferencia - Predicción sobre datos no etiquetados
3
Definir un
problema de
ML y proponer
soluciones
Construir
conjunto de
datos
Transformar
los datos
Entrenar el
modelo
Usar el modelo
para hacer
predicciones
72. 3
valores atípicos
¿Cómo los identifica Elasticsearch?
● El objetivo es identificar puntos de datos que no siguen el
modelo
● Métodos utilizados basados en
■ distancia
■ densidad
● Salidas
■ Outlier score
■ Feature influencer score
● Casos de uso
■ Detección de fraude
■ Problemas médicos
■ Detección de amenazas en seguridad
73. 3
valores atípicos
“Entity-centric” vs “Event-centric”
● Típicamente recibimos eventos en
forma de serie temporal. Son datos
“event-centric”
● Los transformaremos en
“entity-centric” para detectar valores
atípicos
74. 3
valores atípicos
Requerimientos
● Identificar valores atípicos requiere
una estructura diferente
● Usaremos Data Transforms para
crear un índice “Entity-centric”, en vez
de serie temporal
● Actualización frecuente del índice
transformado
76. 3
Clasificación
¿Cómo funcionan?
● El objetivo es predecir la categoría/clase de un punto dentro del
conjunto de datos.
● Método utilizado: boosted tree regression
● Dos tipos: binaria, multi-clase
● Casos de uso
■ Detección de cáncer
■ Clasificar música o texto
■ Predicción de riesgo en préstamos
77. 3
Clasificación
Requerimientos
● Supervisado implica que alguien tiene que etiquetar los datos para aprender
● Requiere
■ Feature variables / características
■ Dependent variable / variable dependiente
customer a customer b
total duration
of customer
sessions in
last month 80:21:07 1:01:11
tv episodes
watched in last
month 24 1
films watched
in last month 5 0
newness of
titles watched
in last month 9.8 1.2
change in
duration of
customer
sessions this
month 6:22:17 16:43:29
customer
subscription
plan gold platinum
customer tenure 32 26
has churned? no yes
Características
Variable dependiente
78. 3
Regresión
¿Cómo funcionan?
● El objetivo es estimar la relación entre varios campos dentro del
conjunto de datos.
● Método utilizado: extreme gradient boost
● Mismos requerimientos que clasificación
■ Feature variables / características
■ Dependent variable / variable dependiente
● Casos de uso
■ Precio del alquiler/compra
■ Tiempo que se retrasará un vuelo
Variable dependiente
Característica
Size (m2) Monthly rent (GBP)
44 1600
24 1055
63 2300
79. 3
Validación Modelo
Medir la calidad del modelo con datos de prueba
Clasificación
Matriz de
confusión
Curva ROC
Importancia
de las feature
variables
Regresión
R-cuadrado
Error Medio
cuadrado
80. 3
Predicción Inferencia
Aplicar un modelo a nuevos datos en streaming
Nodo de Machine
Learning
Elasticsearch
Modelo ML
supervisado
Ejemplos
etiquetados
Nodo de Ingesta y
Machine Learning
Elasticsearch
Modelo ML supervisado
Datos no
etiquetados
Predicciones
Entrenamiento/Test/Validación Inferencia del modelo
PUT _ml/data_frame/analytics/churn
{
"source": {
"index": "customer_behaviour"
},
"dest": {
"index": "customer_behaviour_churn"
},
"analysis": {
"regression": {
"dependent_variable": "churn_probability",
"training_percent": 80,
"save_model": {
"name": "churn"
}
}
}
}
POST _ml/data_frame/analytics/churn/_start
PUT _ingest/pipeline/predict_churn
{
"description" : "Predict customer churn",
"processors" : [
{
"inference" : {
"model": {
"regression": {
"model_id" : "churn",
"target_field":
"churn_probability"
}
}
}
}
]
}
PUT _ingest/pipeline/lang_ident
{
"description" : "Identify language",
"processors" : [
{
"inference" : {
"model": {
"lang_ident": {
"target_field": "text",
"target_language_field": "lang",
"target_probability_field": "lang_prob"
}
}
}
}
]
}