
Come garantire in azienda un’immediata consultazione delle informazioni ed un accesso controllato alle stesse?
Per diffondere in azienda una cultura data-driven garantendo un utilizzo trasversale dei dati tra le diverse aree aziendali è importante riuscire a far dialogare Business e IT.
Ci viene in aiuto il Data Literacy attraverso la creazione di un catalogo di Business Terms che permette alle strutture tecniche e al business di dialogare in modo efficace.
In questo intervento di Annarita Bovi, Presale Italia erwin by Quest, potrai approfondire la visione Business di erwin Data Intelligence 13.0. In particolare, le componenti della piattaforma funzionali al Business che saranno trattate sono:
- Data Literacy
- Data Marketplace e i suoi concetti chiave (Shop & Share, Find & Compare e Score)
- Data Quality con approfondimento delle Analisi dei Record, Analisi dei Pattern e Data Quality Score.
Compila il form per ricevere il link di accesso al video
Clicca qui per leggere la trascrizione del video
00:33: Buongiorno a tutti, io sono Annarita bovi. Sono parte dei servizi professionali Erwin by Quest e seguo anche le attività di Presale per l’Italia su tutto quello che è lo stack dei prodotti.
1:03: Il mio intervento sarà sulla parte della piattaforma, orientata non tanto ai tecnici quanto alle persone di business.
1:11: Infatti, lo vedete già dal titolo, la visione di business della Data Governance, soprattutto nell’ottica dell’ultima versione della piattaforma che è stata rilasciata che è la versione 13.0.
1:23: Cosa andremo a vedere oggi?
1:26: Tre moduli in particolare all’interno della piattaforma, innanzitutto la data Literacy che è proprio la componente per utenti di business, quindi non stiamo più parlando di metadati tecnici, di tabelle di campi, ma stiamo parlando di definizioni di business dell’informazione, quindi glossary di business, termini di business, ma non solo questo, il dato va arricchito di informazioni, l’avete visto sulla curva del maturity model; a un certo punto parliamo di qrate, ma non la qrate della data quality, la qrate intesa come arricchimento dell’informazione, quindi andare a mappare altri elementi di business intorno al termine di business, dire quale policy, quale rule governano l’informazione. Andare a definire anche dei processi che usano quel dato lo trasformano, lo consumano quindi arricchimento appunto dei glossari di business, con tutta una serie di elementi di contesto.
2:25: L’altro modulo che vedremo oggi vediamolo come un’estensione della componente di Data Literacy è il marketplace, riprendendo la curva su in alto, abbiamo letto shop.
2:38: Lo shop va inteso come la possibilità per i diversi utenti aziendali di poter ricercare l’informazione in una modalità, passatemi il termine self-service, cioè l’utente deve poter accedere in un unico punto che sa essere esaustivo, che sa essere completo, che sa essere facilmente accessibile. È comprensibile poter fare la propria ricerca e trovare il dato che è in grado di restituirgli valore, quindi quel grado che è stato sottoposto a analisi, a conferme a coring. Se vedete i concetti chiave di questa parte sono proprio lo shopping share, quindi possibilità di cercare l’informazione, find and compare la trovo e la confronto, quindi trovo esattamente ciò di cui ho bisogno einfine lo Score che poi vedremo, è un meccanismo automatico all’interno della piattaforma che, tenendo conto di alcuni parametri alcuni automatici, altri demandati all’utenza, è in grado di darci subito un’indicazione forte di quello che è il valore che quell’informazione ha.
3:46: Faremo anche una panoramica sulla componente di data quality. Sappiate che la piattaforma ha al suo interno un modulo dedicato alla data quality che è l’unico modulo che non guarda i soli metadati ma scende a livello di dato e quindi sarà in grado di fare analisi sui nostri record. Rilevare pattern, rilevare scostamenti da delle regole che noi andremo a configurare.
4:26: Partiamo dalla Data literacy, componente per il business.
4:31: La parola chiave è poter ricercare le informazioni e poterle ricercare da diversi punti di vista. Avete visto già prima, con la presentazione fatta da Stefania, il modulo del Discovery asset; quindi, un punto di entrata iniziale nella piattaforma al quale accedono tutti i tipi di utenti, business e tecnici che ci offre subito la possibilità di cercare in una maniera semplice e naturale l’informazione, un po’ come facciamo quando entriamo su Google per fare una nostra ricerca.
5:04: Ci interessa l’esempio che abbiamo visto prima. Digitiamo Customer, quindi, cliente fattura, fornitore, quello che stiamo andando a ricercare. Utilizzando il Discovery asset cerchiamo sull’intera piattaforma componenti business, quindi business term, data asset, data product policy, regole, processi. Ma cerchiamo anche sui metadata, metadati tecnici e poi possiamo rifinire la nostra ricerca e quando lo andiamo a rifinire tiriamo in ballo altri elementi tecnici o di business. Dal punto di vista di business io potrei essere interessato a vedere tutto ciò che è in carico a un owner o tutto ciò che è in carico a uno steward. Avendo a portata tutte queste informazioni all’interno della piattaforma con la funzionalità del Discovery asset posso crearmi la mia query in maniera molto semplice, molto naturale, poi lo vedremo sulla sulla demo e trovare esattamente l’informazione di cui ho bisogno.
6:02: Estendendo questo concetto a un qualcosa di ancora più alto del business term, cioè il concetto di: dato come prodotto, di data product, passiamo a vedere quello che è il marketplace, ovvero un punto di accesso alto di ricerca per le informazioni vedendo il dato come prodotto, che quindi a sua volta avrà tutto il suo patrimonio informativo, fatto sia di metadati tecnici ma anche e soprattutto di informazioni di business.
6:35: Le mindmap rappresentano invece proprio lo strumento più potente della componente di data literacy, perché è un modo visuale che ha l’utente di vedere in un unico colpo d’occhio tutto il contesto del dato. Se lì al centro c’è il nostro data product, che è il consumatore, o i dati del cliente o i dati della fattura in un unico colpo d’occhio possiamo vedere due facce della stessa medaglia. Tutto quello che c’è dal punto di vista business sulla destra, tutto quello che c’è dal punto di vista tecnico sulla sinistra, non solo lo potrei vedere puntualmente mi apro una scheda, vedo i business term collegati, vedo le policy, vedo le rule, vedo i processi e poi lo faccio la stessa cosa per le tabelle o i campi. Averlo tutto insieme su una mappa navigabile e interattiva consente all’utente non tecnico di andare anche ad applicare quei filtri che abbiamo visto prima, quindi prima l’abbiamo visti su una schermata tipo Google, cerco, filtro, trovo il risultato.
7:44: Ma lo posso fare anche sulla mindmap accendo o spengo indicatori, quindi fammi vedere se qualcosa all’interno di quella mappa è stata taggata come dato sensibile, quindi miro la mia ricerca su quel punto, piuttosto che fammi vedere sempre su quella mappa i risultati dell’altro modulo della piattaforma che è quello del data quality. Quindi abbiamo un unico punto di accesso dove non vedo soltanto il contesto del dato, ma vedo anche le informazioni che vengono dalla data quality. I risultati quindi, i piccoli indicatori colorati che vedete lì su poi sulla demo li vediamo meglio che mi dicono qual è il data quality Score applicato a quella specifica tabella a quello specifico campo e di conseguenza con un sistema di aggregazione, vedere la stessa informazione a livello di business sul concetto di data product.
8:33: Quelle mappe escono perchè qualcuno si crea un legame tra il metadato tecnico e il metadato di business. C’è un’attività fatta dall’analista dal data steward che conosce la materia, conosce l’ambito e crea appunto queste relazioni. La piattaforma vi consente di farlo in modo da manuale, entriamo, apriamo la scheda, creiamo il link, il link lo creiamo perché prima abbiamo fatto harvesting.
9:02: Ingestion e abbiamo popolato il data catalog.
9:05: Stessa cosa per la data literacy abbiamo popolato i nostri termini di business, o manualmente o perché li abbiamo importati. Qualcuno deve creare questo legame per questo, all’interno della piattaforma è stato creato un meccanismo di supporto a questo, un meccanismo che si chiama IA match un suggeritore. Vengono analizzati i glossari di business con le varie definizioni e commenti quindi, non soltanto i nomi. Stessa cosa per quanto riguarda i metadati tecnici.
9:37: Vengono analizzate le tabelle con tutti i commenti, con tutte le definizioni e ci vengono proposti dei suggerimenti di possibili match che vengono valutati e poi lo steward dovrà andarli a confermare. Possiamo ulteriormente automatizzare perché ci sono delle percentuali che possiamo impostare in base alle quali questo match avviene in automatico; quindi, non c’è bisogno neanche della conferma da parte dell’analista e del data steward. Questo meccanismo quindi è di supporto alla creazione delle mindmap, questo legame tra mondo business e mondo tecnico, ma ha anche un’altra funzionalità che è quella di poter propagare la classificazione dei dati sensibili.
10:24: Se noi abbiamo classificato il nostro business term come un dato sensibile e poi gli abbiamo attaccato tutte le componenti tecniche, quindi tutti i metadati tecnici, le tabelle, i campi, possiamo utilizzare questa funzione anche per propagare questo tag di dato sensibile. Di conseguenza avremo con un automatismo riportato questa informazione dal mondo business al mondo tecnico. Potremmo farlo anche al viceversa. Un’informazione taggata come dato sensibile, l’aggancio a un business term e di conseguenza, quel business term verrà attaccato come un dato sensibile.
11:02: Fino adesso abbiamo parlato molto dei termini di business e dei glossari.
11:06: La data literacy è nata per gestire proprio questo, quindi glossari di business organizzati su più livelli, creo delle vere e proprie tassonomie posso creare dei legami tra termini di business che appartengono allo stesso catalogo o a cataloghi diversi.
11:30: Ma la data literacy non è soltanto business term e glossari di business e di più la piattaforma, quando diciamo la installiamo così out of the box ci dà già dei cataloghi. Il catalogo dei termini di business, il catalogo delle Business policy, il catalogo delle business rule e possiamo cominciare a infasare questi tre cataloghi, ma la componente di data literacy ha un repository totalmente estensibile, customizzabile.
11:57: Non tecnicamente chiamo il tecnico viene e mi scrive il nuovo pezzetto di banca dati, ma lo fa con tutte procedure wizard. Quindi se io ho necessità di crearmi un nuovo catalogo per censire l’esempio che abbiamo fatto prima, i processi aziendali, perché poi li voglio mappare sui termini di business per sapere quale processo usa quel dato, quale lo consuma, quale lo trasforma, lo possiamo fare con la piattaforma e quindi mi vado a definire un nuovo catalogo.
12:27: E lo posso definire con tutte le caratteristiche che voglio.
12:29: Stessa cosa posso creargli tutto il suo sistema di relazioni, facciamo l’esempio dei processi, ma potrei portarmi a bordo della piattaforma anche il catalogo delle compliance normative, stessa cosa creo tutto il suo sistema di definizione, cioè la sua scheda anagrafica. Sistema di relazioni, lo collego ai business term piuttosto che alle business policy, quindi un repository completamente estensibile all’interno della piattaforma per quello che è appunto la componente Data literacy.
12:58: Abbiamo poi ad accompagnare il tutto, funzionalità, social e collaboration. Queste ormai tutte le piattaforme ce l’hanno. Quando parliamo di strumenti social e collaboration, parliamo ovviamente della possibilità di fare rating sulle varie pagine, ma parliamo soprattutto della possibilità di far passare le richieste intorno ai dati attraverso la piattaforma stessa, con il meccanismo dei task, quindi, si possono creare dei task che sono semplicemente delle to do list dei task, che sono delle segnalazioni di issue, malfunzionamenti dei task che sono delle richieste di accesso al dato.
13:37: Una volta che io ho individuato il dato di cui ho necessità, poi mi servirà l’accesso a quell’informazione. Posso farlo aprendo un task direttamente con la piattaforma. E in cosa mi supporta la piattaforma? Mi supporta perché io ho mappato le ownership, ho mappato le Stewardship all’interno della piattaforma, quindi quando io faccio la mia richiesta quella richiesta arriva già alla persona che è owner di quell’informazione e che quindi potrà soddisfare la mia richiesta.
14:04: Seconda cosa che vedremo il data marketplace.
14:09: Nella scala che abbiamo visto inizialmente dei 7 step siamo proprio in cima. Sono gli ultimi due step, lo Score e lo shop.
14:21: Il data marketplace parte dal concetto, abbiamo detto di dato come prodotto, data product, data asset, ognuno gli dà un nome leggermente diverso, ma il concetto è quello, cioè insieme di informazioni in grado di restituire un valore a chi sta cercando che deve essere un insieme consistente di informazioni.
14:42: Come quando abbiamo iniziato a vedere la componente di data literacy, abbiamo visto il business termo al centro della nostra analisi, qui siamo ancora un gradino più alto.
14:52: La piattaforma, nell’ultima versione nella versione 13, ha creato proprio un accesso dedicato al data marketplace, proprio per rispondere a quelle esigenze di ricerca per utenti business, quindi non tecnici ma non soltanto ricerca. Per accedere alla scheda puntuale, vedere il dettaglio, vedere la mindmap vedere il data linea. Insomma. Poi il dettaglio tecnico si raggiunge sempre no, da qualsiasi punto è tutto collegato, ma per avere la possibilità anche di poter fare un’analisi comparativa delle informazioni.
15:27: Quindi questa parte della piattaforma vi consente di selezionare più data product o data asset e visivamente metterli a confronto uno accanto all’altro. Io prendo il customer, prendo l’altro che è stato definito in un altro catalogo che è il cliente, un altro ancora e li metto affiancati e leggo tutta la scheda in maniera visuale. Questo poterli affiancare non è soltanto un qualcosa di visivo ma è anche la possibilità di evidenziare subito le informazioni di cui ho bisogno.
16:02: Vedo come sono stati taggati i diversi data product, vedo le definizioni, vedo se quel data product è istanziato tecnicamente su quella tabella di quel sistema, ma soprattutto; vedo un indicatore di sommario, diciamo così, di tutto quello che ci gira intorno che è questo data value Score. Questo scudetto che vedete qui su in alto all’interno della piattaforma lo trovate soltanto per il concetto di data product o data asset.
16:32: È un indicatore sommarizzato di una serie di altri indicatori che vengono sempre calcolati all’interno della piattaforma.
16:41: Rientrano in questo indicatore i risultati dell’analisi di data quality.
16:48: Quindi, dopo che abbiamo infasato il sistema di data quality per analizzare e riconoscere pattern, analizzare e riconoscere le nostre regole, arriviamo a calcolare un data quality Score e un impact Score. Questi due indicatori vengono riportati al livello più alto, quindi dal tecnico, dalla tabella dal campo vengono aggregati di volta in volta fino ad arrivare al data product che sarà una somma ponderata di tutto quello che viene dietro di tecnico.
17:18: Gli altri due parametri che entrano a far parte di questo indicatore sono uno dato proprio dal rating, cioè dalla sensibilità degli utenti, degli stakeholder e dell’organizzazione nella valutazione di quel data product, quel sistema di stelline che abbiamo visto prima. L’ultimo parametro è quello della completezza, quindi quanto la scheda che definisce quel data product e tutti gli oggetti associati.
17:52: È completa dal punto di vista dell’anagrafica che lo descrive.
17:55: Questi tre parametri vengono sommarizzati e vanno a calcolare quello che è il data value Score, cioè quello scudetto a tre livelli, bronzo, argento, oro. Perché è importante? Perché quando accediamo al data marketplace e facciamo ricerca.
18:11: La prima cosa che ci viene posta su in alto è proprio lo scudetto, se io vedo che ci sono due data product simili nella definizione simili nelle informazioni che si portano dietro, ma uno ha un rating oro e l’altro ha il rating bronzo, io individuo facilmente, qual è quello a più alto valore, quello di cui ho bisogno e al quale magari vado a richiedere l’accesso.
18:54: Infine, come ultima parte vediamo come con le ultime versioni, quindi non solo con l’ultima o la 13, ma già dalla 12, è stata portata a bordo della piattaforma la funzionalità di data quality che si basa su tecnologia di qlab, quindi è stato acquisito un modulo esterno, ma è stato integrato a tutti gli effetti nella piattaforma airwin. Di fatto i risultati della data quality li vediamo dentro al data catalog, l’avete visto sul grafico di lineage che vi ha mostrato Stefania.
19:39: Qual è l’approccio? È un approccio ciclico alla data quality. Si parte sicuramente dal primo step, che è quello della data integration, cioè dobbiamo accedere alle informazioni. Come il data catalog della DI documenta i metadati, questo primo step, la data integration della data quality guarda i dati, entra sui record. Qui è possibile fare delle scansioni totali dei nostri record oppure andare a campione, un campione percentuale, un campione basato su una query che andiamo a scrivere noi e andiamo a popolare quindi i data asset.
20:15: A questo punto dobbiamo iniziare a fare analisi di quello che abbiamo discoverato.
20:20: Il primo livello di analisi si basa sull’applicazione di regole standard, cioè sul riconoscimento di pattern, sul riconoscimento della semantica, del significato dell’informazione e questo perché all’interno della piattaforma di data quality si parte già con un set di regole predefinite che possiamo andare ad applicare, ma possiamo anche estenderle con le nostre regole che si scrivono sempre in modalità wizard, cioè dello pseudo code che possiamo andare a inserire per definire le nostre regole oppure scrivere delle vere e proprie query se abbiamo bisogno di confrontare il dato di una tabella con l’esistenza rispetto a un altro dato. Quindi regole Standard, regole Custom vengono eseguite e arriviamo alla parte di data quality, cioè elaborazione del data quality Score, un indicatore che ci fa una aggregazione dei risultati, rilevati puntualmente sui singoli campi, sui singoli report. Siamo arrivati quindi su in alto della ruota.
21:26: Data quality Score riportato nella piattaforma DI. La componente data quality consente di fare anche di più perché consente di rilevare quelli che sono i drift e le anomalie dei dati. Quindi fa un’analisi più spinta proprio sui contenuti, quindi una è vero, ha applicato la regola, ho avuto l’indicatore di data quality, ma quello che è uscito fuori dalla regola perché è uscito perché non ha rispettato una lunghezza predefinita perché non ha rispettato un pattern perché presentava dei nal quando non ce li doveva avere o dei valori duplicati. Ecco questo ci consente di arrivare al passo successivo, cioè, fare data remediation sempre all’interno della piattaforma, quindi posso scrivermi quelle regole di remediation ed applicarle per la pulizia del dato, per l’aggregazione e arrivare quindi a fare remediation su quello che è uscito fuori dallo standard.
22:19: Infine, c’è in tutte le piattaforme dashboarding, monitoraggio. Ci sono delle viste dedicate all’analisi degli scostamenti delle viste dedicate all’analisi temporale dell’elaborazioni della data quality.
22:37: Tutto questo vedetelo in un’ottica ciclica, quindi io ripeto, le mie analisi nel tempo le ripeto sullo stesso campione, potrei scegliere un campione diverso e mi porto sempre a bordo della componente di data intelligence il risultato finale della data quality. Chi ha necessità del dettaglio entra invece nella piattaforma di data quality.
23:11: Come vengono elaborati gli indicatori elaborati dalla data quality e riportati nel data catalog? Tecnicamente c’è tutto un sistema di regole che possiamo andare a eseguire. Come vi dicevo ce n’è un set predefinito, ci aggiungiamo tutte quelle che vogliamo, le accendiamo, le spegniamo, facciamo delle simulazioni per vedere quelle che si applicano, quelle che non si applicano. Si ha la possibilità di vedere quindi andamento puntuale e andamento nel tempo delle nostre analisi.