This webinar is in Spanish -
El uso de análisis predictivo o minería de datos está en auge. A nivel mundial, cada vez más, las empresas contratan servicios especializados de análisis de información que ayuden a marcar una diferencia con la competencia. Por otro lado, el volumen creciente de data así como su naturaleza cambiante y compleja, hacen inmanejable el proceso de análisis de forma tradicional y está siendo necesario incorporar tecnología y consultoría de punta, basada en el uso de modelos matemáticos avanzados. Pentaho Corporation y Matrix CPM Solutions los invita a participar en el seminario en línea “Análisis Predictivo con Pentaho Data Mining”, en donde se revisarán las grandes oportunidades que existen para su uso y aplicación.
Presentación "Aplicaciones de BI con Pentaho", dada por Datalytics en la segunda edición de las Jornadas de Minería de Datos organizadas por la cátedra de Sistemas de Gestión 2 de la UTN Regional Rosario
Recommendation is one of the most popular applications in machine learning (ML). In this workshop, we’ll show you how to build a movie recommendation model based on factorization machines — one of the built-in algorithms of Amazon SageMaker — and the popular MovieLens dataset.
(BDT303) Construct Your ETL Pipeline with AWS Data Pipeline, Amazon EMR, and ...Amazon Web Services
An advantage to leveraging Amazon Web Services for your data processing and warehousing use cases is the number of services available to construct complex, automated architectures easily. Using AWS Data Pipeline, Amazon EMR, and Amazon Redshift, we show you how to build a fault-tolerant, highly available, and highly scalable ETL pipeline and data warehouse. Coursera will show how they built their pipeline, and share best practices from their architecture.
With the expansion of big data and analytics, organizations are looking to incorporate data streaming into their business processes to make real-time decisions.
Join this webinar as we guide you through the buzz around data streams:
- Market trends in stream processing
- What is stream processing
- How does stream processing compare to traditional batch processing
- High and low volume streams
- The possibilities of working with data streaming and the benefits it provides to organizations
- The importance of spatial data in streams
Presentación "Aplicaciones de BI con Pentaho", dada por Datalytics en la segunda edición de las Jornadas de Minería de Datos organizadas por la cátedra de Sistemas de Gestión 2 de la UTN Regional Rosario
Recommendation is one of the most popular applications in machine learning (ML). In this workshop, we’ll show you how to build a movie recommendation model based on factorization machines — one of the built-in algorithms of Amazon SageMaker — and the popular MovieLens dataset.
(BDT303) Construct Your ETL Pipeline with AWS Data Pipeline, Amazon EMR, and ...Amazon Web Services
An advantage to leveraging Amazon Web Services for your data processing and warehousing use cases is the number of services available to construct complex, automated architectures easily. Using AWS Data Pipeline, Amazon EMR, and Amazon Redshift, we show you how to build a fault-tolerant, highly available, and highly scalable ETL pipeline and data warehouse. Coursera will show how they built their pipeline, and share best practices from their architecture.
With the expansion of big data and analytics, organizations are looking to incorporate data streaming into their business processes to make real-time decisions.
Join this webinar as we guide you through the buzz around data streams:
- Market trends in stream processing
- What is stream processing
- How does stream processing compare to traditional batch processing
- High and low volume streams
- The possibilities of working with data streaming and the benefits it provides to organizations
- The importance of spatial data in streams
Building Advanced Serverless Workflows with AWS Step Functions | AWS Floor28Amazon Web Services
AWS Step Functions lets you coordinate multiple AWS services into serverless workflows so you can build and update apps quickly. Using Step Functions, you can design and run workflows that stitch together services such as AWS Lambda and Amazon ECS into feature-rich applications. Application development is simpler and more intuitive using Step Functions, because it translates your workflow into a state machine diagram that is easy to understand, easy to explain to others, and easy to change.
Amazon Elastic Compute Cloud (Amazon EC2) provides resizable compute capacity in the cloud and makes web scale computing easier for customers. Amazon EC2 provides a wide variety of compute instances suited to every imaginable use case, from static websites to high performance supercomputing on-demand, available via highly flexible pricing options. Amazon EC2 works with Amazon Elastic Block Store (Amazon EBS) and Auto Scaling to make it easy for you to get the performance and availability you need for your applications. This session will introduce the key features and different instance types offered by Amazon EC2, demonstrate how you can get started and provide guidance on choosing the right types of instance and purchasing options.
Data Transformation Patterns in AWS - AWS Online Tech TalksAmazon Web Services
Learning Objectives:
- Learn how to accelerate common data transformations from a variety of data
- Learn how to efficiently orchestrate transformation jobs
- Learn best practices and methodologies in data preparation for analytics
This session will introduce you the features of Amazon SageMaker, including a one-click training environment, highly-optimized machine learning algorithms with built-in model tuning, and deployment without engineering effort. With zero-setup required, Amazon SageMaker significantly decreases your training time and overall cost of building production machine learning systems. You'll also hear how and why Intuit is using Amazon SageMaker on AWS for real-time fraud detection.
Like any major transformation project, the migration to Cloud requires a compelling business case to justify the move. In this session, we: cover the fundamental commercial levers that AWS provides its customers; work through a framework to help identify the possible benefits of moving to cloud; and, outline the steps required to create a Cloud business case.
ABD318_Architecting a data lake with Amazon S3, Amazon Kinesis, AWS Glue and ...Amazon Web Services
"Learn how to architect a data lake where different teams within your organization can publish and consume data in a self-service manner. As organizations aim to become more data-driven, data engineering teams have to build architectures that can cater to the needs of diverse users - from developers, to business analysts, to data scientists. Each of these user groups employs different tools, have different data needs and access data in different ways.
In this talk, we will dive deep into assembling a data lake using Amazon S3, Amazon Kinesis, Amazon Athena, Amazon EMR, and AWS Glue. The session will feature Mohit Rao, Architect and Integration lead at Atlassian, the maker of products such as JIRA, Confluence, and Stride. First, we will look at a couple of common architectures for building a data lake. Then we will show how Atlassian built a self-service data lake, where any team within the company can publish a dataset to be consumed by a broad set of users."
Ejecutar proyectos de Big Data nunca ha sido más sencillo. Con AWS, puede ejecutar Hadoop, Spark, Hive, Flink y marcos similares de forma más rápida y rentable. En este seminario web, aprenderá cómo mejorar el rendimiento del procesamiento de datos y reducir los costos, especialmente en comparación con un entorno local.
Training for AWS Solutions Architect at http://zekelabs.com/courses/amazon-web-services-training-bangalore/.Training for AWS Solutions Architect at http://zekelabs.com/courses/amazon-web-services-training-bangalore/. This slide describes about features of simple storage service, s3 buckets, s3-static web hosting, cross region replication, storage classes and comparison, glacier, transfer acceleration, life cycle management, security and encryption
___________________________________________________
zekeLabs is a Technology training platform. We provide instructor led corporate training and classroom training on Industry relevant Cutting Edge Technologies like Big Data, Machine Learning, Natural Language Processing, Artificial Intelligence, Data Science, Amazon Web Services, DevOps, Cloud Computing and Frameworks like Django,Spring, Ruby on Rails, Angular 2 and many more to Professionals.
Reach out to us at www.zekelabs.com or call us at +91 8095465880 or drop a mail at info@zekelabs.com
AWS Lambda is a compute service that lets you run your code without managing any servers. Join this session to learn with live examples, how you can develop, test and run your Python functions with AWS Lambda, at any scale.
Markku Lepisto, Principal Technology Evangelist, Amazon Web Services, APAC
Introduction to Serverless computing and AWS Lambda | AWS Floor28Amazon Web Services
Serverless computing allows you to build and run applications without the need for provisioning or managing servers. With serverless computing, you can build web, mobile, and IoT backends; run stream processing or big data workloads; run chatbots, and more.In this session, we will learn how to get started with serverless computing using AWS Lambda, which lets you run code without provisioning or managing servers.
Cloudwatch: Monitoring your AWS services with Metrics and AlarmsFelipe
Brief intro to AWS Cloudwatch. Motivation, examples and use cases. Shows how you can collect and monitors metrics for all your AWS services to better control your applications and infrastructure. #cloud-computing #aws #amazon-web-services
Training for AWS Solutions Architect at http://zekelabs.com/courses/amazon-web-services-training-bangalore/.This slide describes about cloud watch key concepts, workflow, dashboard, metrics, cloud watch agent, alarms, events and logs.
___________________________________________________
zekeLabs is a Technology training platform. We provide instructor led corporate training and classroom training on Industry relevant Cutting Edge Technologies like Big Data, Machine Learning, Natural Language Processing, Artificial Intelligence, Data Science, Amazon Web Services, DevOps, Cloud Computing and Frameworks like Django,Spring, Ruby on Rails, Angular 2 and many more to Professionals.
Reach out to us at www.zekelabs.com or call us at +91 8095465880 or drop a mail at info@zekelabs.com
The data lake has become extremely popular, but there is still confusion on how it should be used. In this presentation I will cover common big data architectures that use the data lake, the characteristics and benefits of a data lake, and how it works in conjunction with a relational data warehouse. Then I’ll go into details on using Azure Data Lake Store Gen2 as your data lake, and various typical use cases of the data lake. As a bonus I’ll talk about how to organize a data lake and discuss the various products that can be used in a modern data warehouse.
Migrating your .NET Applications to the AWS Serverless PlatformAmazon Web Services
Windows and .NET-based workloads are first-class citizens on AWS. In this session, we show how you can easily move an existing .NET application to the AWS cloud and take advantage of it serverless capabilities. We will cover migration and architectural considerations for porting your C# application to AWS Lambda, and using API Gateway to create a façade for your application to safely make changes as you migrate.
Speakers:
Stephen Liedig, Public Sector Solutions Architect, Amazon Web Services
Shane Baldacchino, Solutions Architect, Amazon Web Services
This presentation examines the main building blocks for building a big data pipeline in the enterprise. The content uses inspiration from some of the top big data pipelines in the world like the ones built by Netflix, Linkedin, Spotify or Goldman Sachs
YouTube Link: https://youtu.be/vpOLiDyhNUA
** Machine Learning Masters Program: https://www.edureka.co/masters-program/machine-learning-engineer-training **
This Edureka PPT on 'What is a Neural Network' will help you understand how Neural Networks can be used to solve complex, data-driven problems along with their real-world applications.
Follow us to never miss an update in the future.
YouTube: https://www.youtube.com/user/edurekaIN
Instagram: https://www.instagram.com/edureka_learning/
Facebook: https://www.facebook.com/edurekaIN/
Twitter: https://twitter.com/edurekain
LinkedIn: https://www.linkedin.com/company/edureka
Castbox: https://castbox.fm/networks/505?country=in
Auto scaling using Amazon Web Services ( AWS )Harish Ganesan
In this article i would like to share some of the insights on AWS Auto Scaling in following perspectives:
• Need for Auto Scaling
• How AWS Auto scaling can help to handle the various load volatility scenarios
• How to configure an Auto scaling policy in AWS
• Things to remember before Scaling out and down
• Understand the intricacies while integrating Auto scaling with other Amazon Web Services
• Risks involved in AWS Auto scaling
Data Mining. Extracción de Conocimiento en Grandes Bases de DatosRoberto Espinosa
Data Mining.
Extracción de Conocimiento en
Grandes Bases de Datos. Realizado por
José M. Gutiérrez
Dpto. de Matemática Aplicada,
Universidad de Cantabria, Santander
http://personales.unican.es/gutierjm/docs/trans_DataMining.pdf
Building Advanced Serverless Workflows with AWS Step Functions | AWS Floor28Amazon Web Services
AWS Step Functions lets you coordinate multiple AWS services into serverless workflows so you can build and update apps quickly. Using Step Functions, you can design and run workflows that stitch together services such as AWS Lambda and Amazon ECS into feature-rich applications. Application development is simpler and more intuitive using Step Functions, because it translates your workflow into a state machine diagram that is easy to understand, easy to explain to others, and easy to change.
Amazon Elastic Compute Cloud (Amazon EC2) provides resizable compute capacity in the cloud and makes web scale computing easier for customers. Amazon EC2 provides a wide variety of compute instances suited to every imaginable use case, from static websites to high performance supercomputing on-demand, available via highly flexible pricing options. Amazon EC2 works with Amazon Elastic Block Store (Amazon EBS) and Auto Scaling to make it easy for you to get the performance and availability you need for your applications. This session will introduce the key features and different instance types offered by Amazon EC2, demonstrate how you can get started and provide guidance on choosing the right types of instance and purchasing options.
Data Transformation Patterns in AWS - AWS Online Tech TalksAmazon Web Services
Learning Objectives:
- Learn how to accelerate common data transformations from a variety of data
- Learn how to efficiently orchestrate transformation jobs
- Learn best practices and methodologies in data preparation for analytics
This session will introduce you the features of Amazon SageMaker, including a one-click training environment, highly-optimized machine learning algorithms with built-in model tuning, and deployment without engineering effort. With zero-setup required, Amazon SageMaker significantly decreases your training time and overall cost of building production machine learning systems. You'll also hear how and why Intuit is using Amazon SageMaker on AWS for real-time fraud detection.
Like any major transformation project, the migration to Cloud requires a compelling business case to justify the move. In this session, we: cover the fundamental commercial levers that AWS provides its customers; work through a framework to help identify the possible benefits of moving to cloud; and, outline the steps required to create a Cloud business case.
ABD318_Architecting a data lake with Amazon S3, Amazon Kinesis, AWS Glue and ...Amazon Web Services
"Learn how to architect a data lake where different teams within your organization can publish and consume data in a self-service manner. As organizations aim to become more data-driven, data engineering teams have to build architectures that can cater to the needs of diverse users - from developers, to business analysts, to data scientists. Each of these user groups employs different tools, have different data needs and access data in different ways.
In this talk, we will dive deep into assembling a data lake using Amazon S3, Amazon Kinesis, Amazon Athena, Amazon EMR, and AWS Glue. The session will feature Mohit Rao, Architect and Integration lead at Atlassian, the maker of products such as JIRA, Confluence, and Stride. First, we will look at a couple of common architectures for building a data lake. Then we will show how Atlassian built a self-service data lake, where any team within the company can publish a dataset to be consumed by a broad set of users."
Ejecutar proyectos de Big Data nunca ha sido más sencillo. Con AWS, puede ejecutar Hadoop, Spark, Hive, Flink y marcos similares de forma más rápida y rentable. En este seminario web, aprenderá cómo mejorar el rendimiento del procesamiento de datos y reducir los costos, especialmente en comparación con un entorno local.
Training for AWS Solutions Architect at http://zekelabs.com/courses/amazon-web-services-training-bangalore/.Training for AWS Solutions Architect at http://zekelabs.com/courses/amazon-web-services-training-bangalore/. This slide describes about features of simple storage service, s3 buckets, s3-static web hosting, cross region replication, storage classes and comparison, glacier, transfer acceleration, life cycle management, security and encryption
___________________________________________________
zekeLabs is a Technology training platform. We provide instructor led corporate training and classroom training on Industry relevant Cutting Edge Technologies like Big Data, Machine Learning, Natural Language Processing, Artificial Intelligence, Data Science, Amazon Web Services, DevOps, Cloud Computing and Frameworks like Django,Spring, Ruby on Rails, Angular 2 and many more to Professionals.
Reach out to us at www.zekelabs.com or call us at +91 8095465880 or drop a mail at info@zekelabs.com
AWS Lambda is a compute service that lets you run your code without managing any servers. Join this session to learn with live examples, how you can develop, test and run your Python functions with AWS Lambda, at any scale.
Markku Lepisto, Principal Technology Evangelist, Amazon Web Services, APAC
Introduction to Serverless computing and AWS Lambda | AWS Floor28Amazon Web Services
Serverless computing allows you to build and run applications without the need for provisioning or managing servers. With serverless computing, you can build web, mobile, and IoT backends; run stream processing or big data workloads; run chatbots, and more.In this session, we will learn how to get started with serverless computing using AWS Lambda, which lets you run code without provisioning or managing servers.
Cloudwatch: Monitoring your AWS services with Metrics and AlarmsFelipe
Brief intro to AWS Cloudwatch. Motivation, examples and use cases. Shows how you can collect and monitors metrics for all your AWS services to better control your applications and infrastructure. #cloud-computing #aws #amazon-web-services
Training for AWS Solutions Architect at http://zekelabs.com/courses/amazon-web-services-training-bangalore/.This slide describes about cloud watch key concepts, workflow, dashboard, metrics, cloud watch agent, alarms, events and logs.
___________________________________________________
zekeLabs is a Technology training platform. We provide instructor led corporate training and classroom training on Industry relevant Cutting Edge Technologies like Big Data, Machine Learning, Natural Language Processing, Artificial Intelligence, Data Science, Amazon Web Services, DevOps, Cloud Computing and Frameworks like Django,Spring, Ruby on Rails, Angular 2 and many more to Professionals.
Reach out to us at www.zekelabs.com or call us at +91 8095465880 or drop a mail at info@zekelabs.com
The data lake has become extremely popular, but there is still confusion on how it should be used. In this presentation I will cover common big data architectures that use the data lake, the characteristics and benefits of a data lake, and how it works in conjunction with a relational data warehouse. Then I’ll go into details on using Azure Data Lake Store Gen2 as your data lake, and various typical use cases of the data lake. As a bonus I’ll talk about how to organize a data lake and discuss the various products that can be used in a modern data warehouse.
Migrating your .NET Applications to the AWS Serverless PlatformAmazon Web Services
Windows and .NET-based workloads are first-class citizens on AWS. In this session, we show how you can easily move an existing .NET application to the AWS cloud and take advantage of it serverless capabilities. We will cover migration and architectural considerations for porting your C# application to AWS Lambda, and using API Gateway to create a façade for your application to safely make changes as you migrate.
Speakers:
Stephen Liedig, Public Sector Solutions Architect, Amazon Web Services
Shane Baldacchino, Solutions Architect, Amazon Web Services
This presentation examines the main building blocks for building a big data pipeline in the enterprise. The content uses inspiration from some of the top big data pipelines in the world like the ones built by Netflix, Linkedin, Spotify or Goldman Sachs
YouTube Link: https://youtu.be/vpOLiDyhNUA
** Machine Learning Masters Program: https://www.edureka.co/masters-program/machine-learning-engineer-training **
This Edureka PPT on 'What is a Neural Network' will help you understand how Neural Networks can be used to solve complex, data-driven problems along with their real-world applications.
Follow us to never miss an update in the future.
YouTube: https://www.youtube.com/user/edurekaIN
Instagram: https://www.instagram.com/edureka_learning/
Facebook: https://www.facebook.com/edurekaIN/
Twitter: https://twitter.com/edurekain
LinkedIn: https://www.linkedin.com/company/edureka
Castbox: https://castbox.fm/networks/505?country=in
Auto scaling using Amazon Web Services ( AWS )Harish Ganesan
In this article i would like to share some of the insights on AWS Auto Scaling in following perspectives:
• Need for Auto Scaling
• How AWS Auto scaling can help to handle the various load volatility scenarios
• How to configure an Auto scaling policy in AWS
• Things to remember before Scaling out and down
• Understand the intricacies while integrating Auto scaling with other Amazon Web Services
• Risks involved in AWS Auto scaling
Data Mining. Extracción de Conocimiento en Grandes Bases de DatosRoberto Espinosa
Data Mining.
Extracción de Conocimiento en
Grandes Bases de Datos. Realizado por
José M. Gutiérrez
Dpto. de Matemática Aplicada,
Universidad de Cantabria, Santander
http://personales.unican.es/gutierjm/docs/trans_DataMining.pdf
Update: Social Harvest is going open source, see http://www.socialharvest.io for more information.
My MongoSV 2011 talk about implementing machine learning and other algorithms in MongoDB. With a little real-world example at the end about what Social Harvest is doing with MongoDB. For more updates about my research, check out my blog at www.shift8creative.com
Manuel Torres Gil
mtorres@ual.es
Departamento de Lenguajes y Computación
Universidad de Almería
Documento original:
http://indalog.ual.es/mtorres/cursodw/DisDimensional.pdf
Empieza a utilizar Big Data en tus análisis
Vivimos en un mundo “Big Data”. Este término está relacionado con la tecnología para manejar inmensas cantidades de datos, recogidas en diferentes formatos y a partir de una gran variedad de orígenes cada segundo. Estos datos hablan de nosotros, de nuestra vida diaria y son recogidos tanto de fuentes nuevas como tradicionales, constituyendo una gran oportunidad de mejorar el conocimiento de los clientes.
Uno de los principales factores de éxito en las empresas de hoy es convertir esos grandes volúmenes de datos, siempre cambiantes y de orígenes diversos, en información válida para la toma de decisiones.
En este curso de big data aprenderás, desde un punto de vista práctico y realista, a abordar y resolver problemáticas analíticas desde entornos big data, dando respuestas a través de soluciones tecnológicas tanto en tiempo real como en diferido. Recorreremos contigo el camino desde el área de análisis de cliente, CRM o B.I. tradicionales hacia los nuevos retos en proyectos Big Data.
¿Quieres convertirte en un experto en Big Data?
En esta presentación vemos aspectos de introducción a Big Data.
Saludos,
Ing. Eduardo Castro, PhD
Microsoft SQL Server MVP
http://tinyurl.com/comunidadwindows
Introducción al MOOC de Business Intelligence que ofrece la Universitat Oberta de Catalunya (UOC) a través de MiriadaX.
Más información:
https://www.miriadax.net/web/introduccion-al-business-intelligence
H. Gomis y E. Cañizares. Herramientas BI : Elección y Buenas Prácticas. Seman...COIICV
Ponencia: Herramientas BI : Elección y Buenas Prácticas. Claves para la implantación con éxito de un Cuadro de mando en la PYME. COIICV: Jornada Big Data, transformando procesos y negocios
Ponencia B2C Antonio Alonso. Big Data. Nuevas oportunidades de empleoCICE
BIG DATA. Nuevos perfiles y oportunidades de empleo.
Conviértete en un experto en la gestión de grandes volúmenes de datos y en la inteligencia de negocio.
www.cice.es
Programa de Dirección en Big Data - IE Business School DEMETRIO BARRAGAN
Big Data – El programa de Dirección del IE Business School es considerado el mejor de su categoría en el ranking entre las mejores escuelas de negocio del mundo.
Entre los aspectos considerados destacan su enfoque estratégico y de creación de valor.
Programa de Dirección en Big Data - IE Business School DEMETRIO BARRAGAN
Big Data – El programa de Dirección del IE Business School es considerado el mejor de su categoría en el ranking entre las mejores escuelas de negocio del mundo.
Entre los aspectos considerados destacan su enfoque estratégico y de creación de valor.
¿Cuál es el futuro de la estrategia de datos?Denodo
Watch full webinar here: https://bit.ly/2JANh47
En la era del Big Data, la Inteligencia Artificial y el cloud computing, el volumen y la diversidad de datos no para de crecer. El desafío es crear los procesos, estándares y protocolos necesarios que pongan la información al servicio del negocio.
En este webinar hablaremos de las cuatro tendencias tecnológicas que guían las estrategias de datos de las compañías de todo el mundo. No te lo pierdas si quieres estar al día sobre cómo elevar el dato a la categoría de activo estratégico para ser (de verdad) data-driven:
- ¿Cuál es la evolución de las arquitecturas de provisión y gestión del dato en las grandes organizaciones? ¿Cómo ayuda el concepto de 'data fabric'?
- ¿Cómo gestionar la integración de datos distribuidos en múltiples localizaciones derivados de los cambios forzados por la migración a la nube?
- ¿Cómo las compañías pueden monetizar la infraestructura de data as service construida durante los últimos años?
- ¿Qué papel pueden jugar las técnicas de voice computing en el futuro de la analítica de datos?
Similar a Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining (20)
Explore how data integration (or “mashups”) can maximize analytic value and help business teams create streamlined data pipelines that enables ad-hoc analytic inquiries. You’ll learn why businesses increasingly focused on blending data on demand and at the source, the concrete analytic advantages that this approach delivers, and the type of architectures required for delivering trusted, blended data. We provide a checklist to assess your data integration needs and capabilities, and review some real-world examples of how blending various data types has created significant analytic value and concrete business impact.
Filling the Data Lake - Strata + HadoopWorld San Jose 2016 Preview PresentationPentaho
Preview of the Strata + Hadoop World Strata San Jose 2016 session about truly scalable and automated data onboarding for Hadoop
Attend the presentation at the conference to learn how to tackle repeatable, self-service Hadoop ingestion without coding
Filling the Data Lake
Thursday, March 31 11:50a-12:30p
Room 230B
http://conferences.oreilly.com/strata/hadoop-big-data-ca/public/schedule/detail/50677
James Dixon has a unique perspective on the big data space - he coined the term "data lake." In this on-demand webinar the Big Data Maverick talks big data - watch to learn more about the technology landscape and evolving use cases. He covers topics such as:
- What are today's technologies of choice - where did they come from and why?
- Why is the emergence and definition of these use cases so important?
- What technologies are likely to come next?
- Why did the data explosion start and will it continue?
- Why are data scientists in such huge demand?
- What is the role of open source in big data, and the role of big data in open source?
Check out this presentation from Pentaho and ESRG to learn why product managers should understand Big Data and hear about real-life products that have been elevated with these innovative technologies.
Learn more in the brief that inspired the presentation, Product Innovation with Big Data: http://www.pentaho.com/resources/whitepaper/product-innovation-big-data
What's in store for Big Data in 2015? Will the 'Internet of Things' fuel the Industrial Internet? Will Big Data get Cloudy? Check out the top five Big Data predictions for 2015 according to Quentin Gallivan, CEO, Pentah0
With the combination of Pentaho and MongoDB, it’s drastically simpler and faster to build single analytical views of clients by aggregating and blending data from a variety of internal sources (customer, transaction, position data) and external sources (social networking, central bank, news, pricing) with fast response times.
Webinar covers:
An insider’s view of new ways financial services companies are using MongoDB to rapidly store and consume unlimited shapes and sizes of data
How Pentaho makes it easy to enrich data in MongoDB with predictive scoring, visual data integration tools, reports, interactive dashboards, and data visualizations
A live demo of blending Twitter, equity pricing, and news data into a single analytical view that unlocks market intelligence to create investment opportunities
Users and customers don't just want products and services anymore - they also want the data and analytics that are under the hood! The good news is that delivering value with data is more achievable than ever before thanks to greater access to diverse data sources and the ability to process, blend, and refine data at unprecedented scale.
Up Your Analytics Game with Pentaho and Vertica Pentaho
Big Data is a game-changer.
In the face of exploding volumes and varieties of data, traditional data management and ETL systems just aren’t cutting it anymore. A new way of sifting through vast volumes of data to find the most relevant info, combining this data with other data sources to extract faster insights is desperately needed. Enter HP|Vertica and Pentaho with a proven solution for lightning fast queries and blended data and analytics capabilities for your business users.
Pentaho Analytics for MongoDB - presentation from MongoDB World 2014Pentaho
Bo Borland presentation at MongoDB World in NYC, June 24, 2014. Data Integration and Advanced Analytics for MongoDB: Blend, Enrich and Analyze Disparate Data in a Single MongoDB View
30 for 30: Quick Start Your Pentaho EvaluationPentaho
These slides are from our recent 30 for 30 webinar tailored towards people that have downloaded the Pentaho evaluation and want to know more about all the data integration and business analytics components part of the trial, how to easily integrate data, and best practices for installing/developing content.
KAWARU CONSULTING presenta el projecte amb l'objectiu de permetre als ciutadans realitzar tràmits administratius de manera telemàtica, des de qualsevol lloc i dispositiu, amb seguretat jurídica. Aquesta plataforma redueix els desplaçaments físics i el temps invertit en tràmits, ja que es pot fer tot en línia. A més, proporciona evidències de la correcta realització dels tràmits, garantint-ne la validesa davant d'un jutge si cal. Inicialment concebuda per al Ministeri de Justícia, la plataforma s'ha expandit per adaptar-se a diverses organitzacions i països, oferint una solució flexible i fàcil de desplegar.
HPE presenta una competició destinada a estudiants, que busca fomentar habilitats tecnològiques i promoure la innovació en un entorn STEAM (Ciència, Tecnologia, Enginyeria, Arts i Matemàtiques). A través de diverses fases, els equips han de resoldre reptes mensuals basats en àrees com algorísmica, desenvolupament de programari, infraestructures tecnològiques, intel·ligència artificial i altres tecnologies. Els millors equips tenen l'oportunitat de desenvolupar un projecte més gran en una fase presencial final, on han de crear una solució concreta per a un conflicte real relacionat amb la sostenibilitat. Aquesta competició promou la inclusió, la sostenibilitat i l'accessibilitat tecnològica, alineant-se amb els Objectius de Desenvolupament Sostenible de l'ONU.
Catalogo general Ariston Amado Salvador distribuidor oficial ValenciaAMADO SALVADOR
Distribuidor Oficial Ariston en Valencia: Amado Salvador distribuidor autorizado de Ariston, una marca líder en soluciones de calefacción y agua caliente sanitaria. Amado Salvador pone a tu disposición el catálogo completo de Ariston, encontrarás una amplia gama de productos diseñados para satisfacer las necesidades de hogares y empresas.
Calderas de condensación: Ofrecemos calderas de alta eficiencia energética que aprovechan al máximo el calor residual. Estas calderas Ariston son ideales para reducir el consumo de gas y minimizar las emisiones de CO2.
Bombas de calor: Las bombas de calor Ariston son una opción sostenible para la producción de agua caliente. Utilizan energía renovable del aire o el suelo para calentar el agua, lo que las convierte en una alternativa ecológica.
Termos eléctricos: Los termos eléctricos, como el modelo VELIS TECH DRY (sustito de los modelos Duo de Fleck), ofrecen diseño moderno y conectividad WIFI. Son ideales para hogares donde se necesita agua caliente de forma rápida y eficiente.
Aerotermia: Si buscas una solución aún más sostenible, considera la aerotermia. Esta tecnología extrae energía del aire exterior para calentar tu hogar y agua. Además, puede ser elegible para subvenciones locales.
Amado Salvador es el distribuidor oficial de Ariston en Valencia. Explora el catálogo y descubre cómo mejorar la comodidad y la eficiencia en tu hogar o negocio.
En este documento analizamos ciertos conceptos relacionados con la ficha 1 y 2. Y concluimos, dando el porque es importante desarrollar nuestras habilidades de pensamiento.
Sara Sofia Bedoya Montezuma.
9-1.
2. Carenne Ludeña.
DATA SCIENTIST
• Presentación
• Analítica Predictiva (PA):
• ¿Qué?, ¿Dónde?, ¿Cuándo?
• Realidades Cambiantes: PA y Big
Data
• El “Data Science Team”
• Tendencias, mitos y realidades
• PA, Big Data y Pentaho
• Weka-R
• Integración (PDI)
• Un caso en desarrollo: predicción de
Churn
• Dos casos de estudio
• Arquitectura de un proyecto
• Pentaho + Matrix DataLabs
3. Presentador
Jose L. Camara
Channel Manager LATAM / Pentaho
Jose has more than 15 years of experience in sales, distribution, consulting
and support of Business Intelligence and Data Integration Solutions. Jose
has been involved in different types of projects like Data Warehouse, Data
Cleansing, Data Governance, Data Consolidation, Master Data
Management, OLAP Analysis, Predictive Analysis and Business
Intelligence with customers such as General Electric, Merrill Lynch, Nike,
BBVA Bancomer, Santander, Martí, Elektra, Banco de Costa Rica, Cemex,
Telmex, Lime Communications and some others providing hundreds of
thousand of dollars in savings during the implementation of these projects.
Currently José works for Pentaho as a Channel Manager for Latin America
4. LOS EXPOSITORES
Carlos Urgelles
DATA SCIENTIST
Carenne Ludeña
DATA SCIENTIST
Carenne es Científica de Datos e investigadora en matemática estadística.
Luego de su doctorado en la Universidad de Orsay (Francia), trabajó
durante 15 años en el Instituto Venezolano de Investigaciones Científicas y
es Coordinadora de la maestría de Modelos Aleatorios de la Universidad
Central de Venezuela. Combina sus intereses académicos con desarrollo
de aplicaciones en petróleo, salud, finanzas y telecomunicaciones. Es
experta en minería de datos y el uso de R y Weka. En 2011 fue
galardonada con el premio de la Fundación Empresas Polar,
una de las distinciones científicas más importantes de Venezuela.
Carlos tiene más de 20 años de experiencia en consultaría de desarrollo
de sistemas de información especializados en el área de Inteligencia de
Negocios. Se ha desempeñado como consultor, líder técnico, gerente de
proyectos y ventas. Posee más de 50 proyectos implantados en 7 paises
y en áreas que incluyen ventas, finanzas, consolidación y planificación
financiera, logística e inventarios. Con muchas horas de cursos dictados
en su haber, en los 90 hizo la labor de evangelización de BI en Latinoamérica
y ha sido una gran promotor de Pentaho en la región. Es un emprendedor
de proyectos relacionados con BI.
5. ANALÍTICA PREDICTIVA
¿QUÉ, CUÁNDO Y DÓNDE?
Es un término que engloba
una serie de técnicas, algoritmos
y procedimientos para la extracción
de patrones subyacentes en la data.
Estos patrones permiten descubrir,
predecir, entender y explicar.
Caterpillar
Inc.
reduced
rota1ng
machinery
anomalies
by
nearly
45
percent,
thanks
to
improvents
delivered
bydata-‐mining
methods.
Predicting Quality
Outcomes Through
Data Mining
6. APLICACIO
NES
APLICACIONES
Sector
público
Energía
Tele-
comunicaciones
Retail
Petróleo
Salud
Banca
Y
aseguradoras
Mercadeo E-gobierno
Producción/Distribución
Churn
Atención individualizadaControl automatizado
Historias automatizadas
Modelos de riesgo
Detección de fraude
Campañas dirigidas
7. • Cada día hay más datos
• Se requieren respuestas en tiempo real
• Muchos negocios: atención
individualizada del clientes
• Control de Calidad de datos
• Mercados competidos: atracción de
nuevos clientes y diseño de nuevos
productos
• Tecnología que evoluciona rápidamente
• En conclusión: ¡más y más rápido!
REALIDADES CAMBIANTES
8. BA en un punto de inflexión
8
(Gartner,
December
2011)
“The proliferation of data has caused enterprises to need new tools and processes to collect data (both structured and
unstructured) and to store, manage, manipulate, analyze, aggregate, combine, and integrate data. ”
J|M|P
Securi1es,
Big
Data
and
How
BI
Got
Its
Groove
Back,
Nov.
2011
(IDC
Digital
Universe
Study,
June
2011)
40
35
30
25
20
15
10
5
0
2005 2010 2015 2020
ZB
(IDC
Digital
Universe
Study,
June
2011)
Estas realidades cambiantes ponen a prueba las herramientas clásicas de BI
9. • Fenómeno Big Data:
• Volumen
• Variedad
• Velocidad
• Veracidad
• Se requiere poder extraer, procesar
y almacenar grandes volúmenes de datos
en tiempo real
• Aplicaciones de algoritmos de alta demanda
de tiempo y memoria
• Imperativo: mecanismos eficientes
para pre-procesamiento y análisis de datos
• Nuevas tecnologías de extracción, capacidad
de almacenamiento y análisis implican nuevas
tendencias en el manejo de información
ANALÍTICA PREDICTIVA Y BIG DATA
10. BIG DATA / NUEVAS TENDENCIAS
Variedad y volumen:
Bases de datos no estructuradas
Web mining
Crawling de redes sociales
Text mining
Spatial data mining
…
11. DE MINERÍA DE DATOS AL DATA SCIENCE TEAM
• Ahora es un trabajo de equipo
• Manejo, extracción y análisis de la información, tarea
compleja
• Se requiere de especialistas capaces de trabajar en
conjunto
• Tendencia de grandes empresas y empresas de BI
alrededor del mundo
• Data Science Team (DST):
• Ingenieros de datos (manejo y extracción
de información)
• Analistas de datos
• Estadísticos
• Expertos en fraude y calidad de datos
• No es siempre posible crear un DST. Opciones:
• Tercerización
• Consultoría
12. ANALÍTICA PREDICTIVA EN
CIFRAS
Empresas líderes y su relación con Big Data
Fuente: Estudio Aberdeen 2013
Los líderes aumentan su tendencia a seguirlo siendo por su incremento
en el uso de habilidades asociadas al uso inteligente de la información.
Keeping Up with Customers – Dynamic
Behavior Profiles
14. LAS EMPRESAS LÍDERES Y ADOPCIÓN DE
ESTRATEGIAS DE AP
Hug a Geek- State of IT/Marketing
Alignment
Predictive Value – Best-in-Class
Adoption of Data Analytics Technologies
for Marketing
Los líderes invierten más en tecnología y los que invierten más son líderes.
La mayor inversión de las empresas líderes es en Analítica Predictiva.
15. CIFRAS EN AMÉRICA LATINA
Inversión en BD/PA a nivel
mundial
Median Spending per company
on Big Data in 2012- by country
Percentage of Companies whose Big
Data initiatives have
Improved Decision-Making
Inversión baja,
pero alto impacto
16. MITOS
• Es interesante pero demasiado
costoso para mi empresa
• Para poder hacer analítica predictiva
o minería de datos es necesario invertir
en la compra de software
especializado
• Es necesario contar con personal
calificado y entrenado y mi empresa
no puede costear este gasto
• El tipo de información que se obtiene
de la aplicación de este tipo de técnicas
la sabe de todos modos el que
“sabe del negocio”
• En conclusión: no vale la pena
17. REALIDADES
• Existen “soluciones a la medida”.
• Una intervención puntual puede
resolver un problema importante
• La inversión en software depende de
las necesidades de la empresa
• Pueden implementarse
soluciones “llave en mano”
• La instalación de DST es un proceso
gradual y no es necesario en todos los
casos
• “El que sabe del negocio” tiene una
visión intuitiva importante. Sin embargo,
esta información es:
• Intransferible y no automatizable
• Ineficiente al aumentar el volumen
del negocio
• Incompleta
• Uso inteligente de la información= más
y mejores negocios
19. • Apoyo en todo el proceso de exploración y construcción de modelos
Pre-procesamiento de datos
Evaluación y comparación estadística de modelos
Exploración gráfica de datos e interfaces gráficas para visualización y comparación de modelos
• Herramientas y Algoritmos
69 (y aumentando) herramientas (filtros) para pre-procesamiento
118 (y aumentando) algoritmos de clasificación/regresión
11 (y aumentando) algoritmos de agrupamiento
18 evaluadores para atributos más informativos+ 12 algoritmos de búsqueda
6 algoritmos de reglas de asociación
• Interfaces
Explorer – exploración, visualización y procesamiento de data. Construcción, evalución
preliminar y exportación de modelos.
Experimenter – Comparación en gran escala de algoritmos usando pruebas estadísticas
para determinación de diferencias significativas en modelos.
KnowledgeFlow – minería de datos como procesos. Exportación de modelos/procesos.
• Integración a la suite Pentaho
PENTAHO DATA MINING (AKA WEKA)
20. BIG DATA Y PENTAHO
20
• Incorporación de información en formato no tradicional y manejo eficiente de grandes
volúmenes de datos: bases de datos no estructuradas integradas a Pentaho
• Algunos ejemplos
• Extracción grandes volúmenes (Teras) Haddop/ Hive/ Pentaho
• Web mining y crawling de redes sociales: extracción y almacenamiento en NoSQL
22. EXTRACCIÓN+PROCESAMIENTO+REPORTING
22
Análisis/predicción/integración
• Exploración
• Descubrimiento
• Modelaje y predicción
Gerencia para la toma
de decisiones
• Visualización
y exploración
• Tableros/Índices
• Seguimiento
interactivo del negocio
• Uso versátil de la información
• Facilidad
• Velocidad
• Flexibilidad
Extracción
Procesamiento
Reportes
23. UN EJEMPLO EN DESARROLLO
CÁLCULO DE PROBABILIDADES DE
CANCELACIÓN o CHURN
23
El Churn o cancelación
de clientes, se refiere a
la proporción
o tasa de clientes que
se van o dejan al
proveedor
de un servicio durante
un horizonte de tiempo
determinado.
El modelo de predicción
Churn busca identificar
los suscriptores con
alta probabilidad de
abandonar el servicio
en el futuro cercano , su
valor para el negocio y
los factores que la
causan, para así
tomar las acciones
correspondientes.
La cancelación de un
cliente siempre genera
pérdidas.
Es mas difícil y costoso
conseguir un nuevo
cliente que retenerlo.
Modelos de cancelación de clientes (Churn)
Cálculo de probabilidades de cancelación: identificación de clientes difíciles/mejoría en tasas de retención/atención
individualizada.
Modelos adaptados por categorías o segmentos de clientes para mejorar capacidad predictiva
24. Caracterización
de clientes
Identificación
de variables
y análisis
supervivencia
Identificación
de Grupos
de influencia
y redes sociales
Conocer cuáles son
las variables que más
influyen
Si probabilidad de
cancelación alta: cuál
es la probabilidad de
cancelación en 3
meses o 6 meses
A veces es relevante
conocer las redes
de interacción de clientes
§ Recuperables/
No recuperables
§ Probabilidad
de recuperación
Técnicas de análisis
UN EJEMPLO EN DESARROLLO
CÁLCULO DE PROBABILIDADES DE
CANCELACIÓN o CHURN
25. Esquema Modular Pentaho-Weka-R
Exploración: integración
Pentaho/Weka/R
• Esquema modular
• Mejor modelo
• Segmentación previa
• Análisis supervivencia
• Análisis redes
Modelaje
Integración
Análisis
Exploratio
UN EJEMPLO EN DESARROLLO
CÁLCULO DE PROBABILIDADES DE
CANCELACIÓN o CHURN
27. Segmentación de clientes: información valiosa sub-utilizada
• Datos históricos de fidelidad y consumo (RFM).
• ¿Quién compra qué y cómo paga?
• Campañas dirigidas/Nuevos productos
Detección de fraude: problema importante
con significativas implicaciones económicas y sociales
• Detección de valores o patrones anómalos
• Estrategias sofisticadas y variadas: difícil con Big Data
CASOS DE ESTUDIO
28. Empresa de telecomunicaciones
Data: varios millones de registros
con más de 350 atributos
Características
de clientes (forma de pago,
tecnología, localización
geográfica, planes,...)
Variables de uso:
agregados mensuales
de llamadas (entrantes
y salientes por operadora), mensajes
(entrantes y salientes
por operadora), volumen
de datos. Variables de consumo
Determinar la vigencia de planes
pre-existentes.
Mejorar el rendimiento del proceso
de mercadeo/ventas: mercadeo
dirigido.
Detectar nuevas necesidades
y targets
Proponer nuevos productos
u oportunidades de negocio
Preparando la Data
Muestreo inicial de la data:
Pentaho + hadoop
Exploración-determinación de
variables informativas: WEKA
Construcción de un modelo de
segmentación inicial: WEKA
Construyendo el modelo
Segmentación: k-medias (algoritmo
paralelizble usando hadoop map/
reducer)
Ajuste y selección del mejor modelo:
WEKA
Exportando el modelo: Knowledge
Flow plugins
Aplicando el modelo a toda la data:
PDI
Esquemas integrados en Pentaho
para análisis y reportes
SEGMENTACIÓN DE CLIENTES
Introducción
29. • Segmentación automatizada:
Datos futuros
• Aplicación de los modelos
sobre toda la base de
datos
•
Exploración: datos pasados y
presentes
• Descubrir relaciones entre
variables o entre individuos.
• Determinar segmentos que
respondan a las expectativas
del negocio.
• Descubrir cuáles son las
variables que determinan
ciertos comportamientos
• Construcción de modelos de
segmentación apropiados
Integración
modelos
Map-Reduce
Creación del
Modelo base
(knowledge flow)
SEGMENTACIÓN DE CLIENTES
30. SEGMENTACIÓN DE CLIENTES
Soluciones
• Análisis de probabilidades de clasificación
permite detectar casos confusos
• Análisis de planes existentes
con segmentos identificados
Pentaho/Weka
• Integración del segmentador al sistema de manejo de clientes permite
utilizar las herramientas de BI con esta nueva variable
• Diseñar nuevas políticas de mercadeo y ventas
• Mejora en eficiencia: mayor adaptabilidad a las necesidades reales de
clientes
No existen planes
adaptados para 14%
de clientes en pre-pago
con mayor consumo
Patrones de consumo
de 76% de clientes deben
canalizarse mejor. No hay
planes adecuados para
este grupo de clientes
mayoritario
Más de 90% de planes hechos
para menos de 10% de clientes
post-pago sin diferenciar
características
de consumo
Análisis y conclusiones
31. Empresa de distribución masiva
Data: relaciones de ventas de
empresas revendedoras (varios
millones de clientes) a su
empresa matriz.
Datos diarios de ventas
Comportamiento estacional
marcado:
Variaciones interdiarias
Variaciones trimestrales
Tendencia creciente anual
Luego de un cambio de
plataforma tecnológica ocurrida
a final de abril 2007, la
empresa matriz sospecha que
una de las revendedoras está
“maquillando” los números.
Sin embargo dado el gran
volumen de datos se hace
difícil observar anomalías que
sólo se intuyen por una pérdida
en la masa global de las
ganancias reportadas.
Preparando la data:
Limpieza de datos: datos
faltantes
Eliminación de
tendencias: anuales,
trimestrales y diarios (por
día de la semana).
Construyendo el modelo:
Análisis exploratorio en R
Aplicación de
transformaciones
adecuadas.
Determinación de mecanismo
de fraude.
Estimación de pérdidas
generadas por el fraude
DETECCIÓN DE FRAUDE
Introducción
32. Diseño de
modelos
Solución a la
medida
Análisis exploratorio
Pentaho/R
Evaluación
del
problema:
comprensión
del
mecanismo
de
fraude
y
es1mación
de
pérdidas
Exploración
y
creación
de
una
transformación
apropiada
de
los
datos
para
determinación
cuan1ta1va
de
fraude
DETECCIÓN DE FRAUDE
Esquema PENTAHO-R
33. Soluciones
• Fraude ocasionado por eliminación de
valores que sobrepasan un cierto umbral.
• Las pérdidas estimadas se basan en la
relación entre las ganancias diarias y la
mediana.
Pentaho/R
• Solución a la medida
• El ajuste monetario debido al
reconocimiento del fraude fue significativo.
Transformación
apropiada permite
análisis cuantitativo de
mecanismo de fraude
El análisis de los grupos
antes y después permite
hacer un cálculo de
ganancias no percibidas.
Análisis y conclusiones
DETECCIÓN DE FRAUDE
35. ARQUITECTURA PENTAHO DATA MINING
Data warehouse
Pentaho Data Integration
• Combinar/preparar data
• Construir & guardar modelos de DM
• Incluir modelos para Scoring & actualización
del DW con predicciones
Pentaho Data Mining (WEKA)
• Exploración & preparación de data
• Construir, probar y comparar modelos
Repositorio ETL
de transformación
Servidor Pentaho BA
• Dashboards, reporting etc.
36. • Creación del repositorio:
• Pre-procesamiento/calidad de data
• Análisis descriptivo y predictivo:
• Pre-procesamiento para análisis (grandes
volúmenes)
• Análisis descriptivo/reducción de dimensiones
• Creación y evaluación de modelos
• Agregación y/o selección de modelos
• Creación de modelos exportables Pentaho y/o
elaboración entregables
• Creación reportes y dashboards en Pentaho
• Ajustes
• Análisis de efectividad
ARQUITECTURA DE UN PROYECTO
Recepción de
los Datos
Data QualityKick Off
Semana
0
Semana
1
Semana
2
Semana
3
Semana
4
–
Semana
N
Pre-‐procesamiento Análisis
DescripFvo
y
PredicFvo
Creación
Modelo
Evaluación
Modelo
Exportación/Entregables
Reportes
y
Dahboards
Ajustes
Análisis
de
EfecFvidad
38. SOLUCIONES A LA MEDIDA
SOPORTE
CONSULTORÍA
CAPACITACIÓN
SOLUCIONES INTEGRADAS
PENTAHO + BD + DM
EN SITIO OUTSOURCING SAAS
Herramienta flexible
• Pentaho Business Analytics
• Pentaho Data Mining
Equipo multifacético
• Analítica + BI
• Big Data +PA
• Científicos de datos
• Web and text mining
PENTAHO + MATRIX DATA LABS
39. Matrix Data Labs , unidad de negocios de Matrix
CPM Solutions, nace en 2012 como una iniciativa
de Carenne, Carlos y sus equipos
de trabajo, convencidos del gran potencial
del desarrollo de esta área en la región.
Matrix Data Labs desarrolla proyectos con
tecnología de estado del arte en el área
de analítica predictiva, Big Data e integración
de información.
40. MATRIX CPM SOLUTIONS
• Empresa fundada en Diciembre de 2005
• Con oficinas en Venezuela y Colombia
• Amplia experiencia en el desarrollo de modelos
de Inteligencia de Negocios.
• “Pentaho Certified Partner” desde Enero 2007.
“Pentaho Gold Reseller” Febrero 2009. “Latin
American Partner of the Year 2008”. “Pentaho
Global Partner Award 2011; Reseller of the
Year”
• “Infobright System Integrator & Reseller
Partner” desde Abril 2009
• Cuenta con experiencia en soporte, consultoría
y capacitación en USA, México, República
Dominicana, Colombia, Venezuela, Bolivia,
Perú, Ecuador, El Salvador y Chile.