15. Inserimento delle informazioni
in modo veloce ed efficace
Non consentono analisi significative
in grado di produrre
vera e propria conoscenza
Non sono adatti all’inserimento di
grandi quantità di dati
16. la
semplice memorizzazione
di informazioni
non può essere considerata
un obiettivo strategico
da parte dell’organizzazione
17. PRODURRE
CONOSCENZA
SUPPORTARE
I PROCESSI DECISIONALI
18.
19.
20. SISTEMI INTEGRATI NEI PROCESSI AZIENDALI
E FORTEMENTE ORIENTATI ALLA MISSION DELL’ORGANIZZAZIONE
CON LO SCOPO DI FACILITARE QUATTRO FASI STRATEGICHE
DELLA PIANIFICAZIONE AZIENDALE:
1.Previsione;
2.Predizione;
3.Simulazione;
4.Costruzione di scenari alternativi
21. DIMENSIONE
APPLICAZIONI
DI PROSPETTICA
BUSINESS dell’ATTIVITA’
INTELLIGENCE di MISURAZIONE
ed ELABORAZIONE
22. SPESSO QUANDO CI SI RIFERISCE
AD UN SISTEMA GESITIONALE
ORIENTATO ALLA BUSINESS
INTELLIGENCE
SI FA RIFERIMENTO AD APPLICAZIONI E
SISTEMI ALTRESI’ INDICATI CON IL
TERMINE
DSS
(DECISION SUPPORT SYSTEM)
24. DATA MINING
Processo che consente di analizzare
grandi quantità di dati
attraverso l’impiego di strumenti
automatici o semiautomatici
al fine di scoprire ad esempio,
associazioni fra dati ed indicatori,
regole, tendenze
e schemi significativi, ecc
25. Le applicazioni di
DATA MINING
si avvalgono
di una particolare forma
di immagazzinamento dei dati…
26. particolare modalità
di immagazzinamento dei dati
nella quale la memorizzazione degli
stessi
avviene a diversi livelli di aggregazione
il che consente all’utilizzatore
di poter analizzare i dati
praticamente in tempo reale
e secondo prospettive differenti
28. WEKA: the software
• Machine learning/data mining software written in Java
(distributed under the GNU Public License)
• Used for research, education, and applications
• Complements “Data Mining” by Witten & Frank
• Main features:
– Comprehensive set of data pre-processing tools, learning
algorithms and evaluation methods
– Graphical user interfaces (incl. data visualization)
– Environment for comparing learning algorithms
29. @relation heart-disease-simplified
@attribute age numeric
@attribute sex { female, male}
@attribute chest_pain_type { typ_angina, asympt, non_anginal, atyp_angina}
@attribute cholesterol numeric
@attribute exercise_induced_angina { no, yes}
@attribute class { present, not_present}
@data
63,male,typ_angina,233,no,not_present
67,male,asympt,286,yes,present
67,male,asympt,229,yes,present
38,female,non_anginal,?,no,not_present
...
30.
31. • Data can be imported from a file in various
formats: ARFF, CSV, C4.5, binary
• Data can also be read from a URL or from an
SQL database (using JDBC)
• Pre-processing tools in WEKA are called “filters”
• WEKA contains filters for:
– Discretization, normalization, resampling, attribute
selection, transforming and combining attributes, …
36. • New graphical user interface for WEKA
• Java-Beans-based interface for setting up and running
machine learning experiments
• Data sources, classifiers, etc. are beans and can be
connected graphically
• Data “flows” through components: e.g.,
“data source” -> “filter” -> “classifier” -> “evaluator”
• Layouts can be saved and loaded again later
Notas del editor
La processabilità di un dato non è tanto una caratteristica del dato stesso quanto della sua modalità di presentazione Essa rappresenta la possibilità del dato stesso di essere facilmente incrociato, confrontato o elaborato al fine di produrre conoscenza
Ogni organizzazione basa la propria attività su tre elementi fondamentali: Risorse; Persone; Informazioni
Il fabbisogno informativo è fortemente condizionato dalla complessità dell’organizzazione nel senso che maggiore è la sua complessità e maggiore è l'importanza che la qualità e la quantità delle informazioni riveste per il buon funzionamento dell’organizzazione
Per questa ragione si parla sempre più di PATRIMONIO INFORMATIVO
Nelle organizzazioni complesse, inoltre, il fabbisogno informativo risulta correlato in maniera direttamente proporzionale al livello di servizio atteso..
Un dato può essere considerato come la descrizione soggettiva di un evento
Quando si fa riferimento alla gestione dei dati ci si riferisce ad un’insieme di operazioni che possono essere distinte in:
Esso è composto dal suo contenuto che rappresenta appunto la descrizione dell’evento in oggetto , e da una serie di metadati che aggiungono significato al contenuto aumentandone la reperibilità all’interno del sistema o dei repository da parte degli appositi software . I metadati sono di solito costituiti da descrittori o parole chiave che, se gestiti con attenzione, aumentano ed agevolano la reperibilità delle informazioni a cui fanno riferimento.
I repository a cui si è appena accennato costituiscono vere e proprie basi di dati (generalmente indicate con il relativo termine inglese “Data Base ”) all’interno dei quali le informazioni sono archiviate in modo elettronico sotto forma di file. L’accesso ad un database ovviamente avviene da parte di ciascun utente sulla base di un’identificazione (solitamente attraverso la digitazione di username e password ) che non solo ne autorizza appunto l'accesso da parte dell'operatore ma discrimina anche, sulla base del profilo di utilizzo solitamente connesso allo username, le regole di utilizzo che chiariscono la tipologia delle informazioni alle quali l’utente ha accesso e le modalità di gestione di tali informazioni a lui riservate (esempio: modifica, cancellazione, sovrascrittura, condivisione, ecc.). Tutte queste regole così come quelle relative all’archiviazione e al trasferimento delle informazioni sono gestite dal Data Base Managemet System (spesso indicato con l’acronimo DBMS) che è l’unico elemento autorizzato a “dialogare” direttamente con la base dati ed è costituito da un insieme di software che, oltre a preservarne l’integrità accettano le richieste di dati provenienti dai vari applicativi e danno mandato ai software dedicati di reperire le informazioni ricercate . A questa continua richiesta di informazioni (query) da parte dell’utente segue la generazione di una o più risposte (report). Le formulazioni di query e la generazione di report costituiscono l’essenza dell’interattività del sistema la cui efficienza ed efficacia è proprio a carico del Data Base Management System.
I sistemi tradizionali di gestione delle informazioni con i quali siamo soliti avere a che fare sono anche definiti: “Sistemi di elaborazione delle transizioni on line” (o OLTP, on-line transaction processing).
Questi sistemi, per le loro caratteristiche intrinseche, a fronte della possibilità di inserire informazioni in modo estremamente veloce ed affidabile, non consentono però analisi significative in grado di produrre vera e propria conoscenza e, inoltre, non sono adatti all’ analisi di grandi quantità di dati.
Si è detto infatti che le informazioni all’interno di un’azienda, per essere realmente considerate come una risorsa devono essere in grado di supportare i processi decisionali e mettere pertanto chi di dovere nelle condizioni di compiere le scelte migliori e nel miglior tempo possibile.
E’ già stato chiarito che a fare realmente la differenza non è tanto la quantità di informazione in oggetto (anche se come vedremo la quantità di informazione influenza sensibilmente le modalità di elaborazione alle quali la si può sottoporre) ma la sua qualità, o meglio la forma con la quale essa è raccolta e conservata perché tale modalità incide poi direttamente sulla possibilità di estrapolare informazioni e conoscenza dai dati memorizzati.
L’insieme delle attività che utilizzano i dati aziendali per fornire informazioni sul contesto di riferimento così da supportare i processi decisionali, prede il nome di “ Business Intelligence ”. Tali attività sono estremamente integrate all’interno del classico processo aziendale “misurazione, analisi, decisione, azione” al punto tale che non possono esistere due sistemi di supporto alle decisioni progettati nello stesso modo a fronte di due realtà diverse. Questo perché ciascun sistema di Business Intelligence è ideato in modo da risultare fortemente orientato alla mission dell’azienda e al raggiungimento dei suoi obiettivi.
Osservato dal punto di vista dei risultati che si propone, un sistema di Business Intelligence può essere considerato come un processo che punta alla facilitazione di quattro fasi strategiche della pianificazione aziendale: Previsione; Predizione; Simulazione; Costruzione di scenari alternativi
Le applicazioni di Business Intelligence si differenziano dai tradizionali sistemi di gestione operativa dei dati proprio in virtù di questa dimensione prospettica dell’attività di misurazione ed elaborazione.
Questo genere di conoscenza si trova di solito nascosta nella grande mole di dati che ogni giorno un’azienda così come anche un servizio di Diagnostica produce o con i quali si trova costantemente ad avere a che fare. Lo scopo del processo di Data Mining è proprio quello di portare alla luce questa conoscenza per renderla disponibile ha chi ha la responsabilità di prendere decisioni. Ciò è possibile estrapolando dal database i dati generati dalle comuni operazioni di gestione differenziandoli da quelli realmente utili alla presa di decisioni