La qualità dei dati e le regole complesse

27-07-2014

La qualità dei dati descrive qual è il livello delle informazioni che vengono valutate e immagazzinate. Se si aggiungono regole complesse alla qualità dei dati, il sistema stesso diventa più vario nella produzione o conservazione dei dati. Una sola regola può cambiare l’intero risultato dei dati. Per questo è importante che la qualità dei dati e le regole complesse corrispondano quando vengono utilizzate in un software.

Le regole complesse aiutano i titolari d’azienda a ridurre il tempo impiegato dal personale per inserire manualmente i dati. L’immissione di poche regole complesse può contribuire a far funzionare agevolmente un sistema di dati. Questo consente anche di identificare eventuali problemi nel sistema, qualora le regole trovino delle anomalie. Le regole dovrebbero essere il minor numero possibile, perché questo consente di immagazzinare i dati in modo chiaro e pulito. Se scoprite che c’è qualcosa che non va con delle regole complesse, dovete correggerle prima che rovinino l’output dei dati. Modificatele solo se siete del tutto sicuri che vadano corrette, e ricordate che per farlo dovete comprenderne i fondamenti e le dinamiche.

È fondamentale avere conoscenze informatiche, perché le regole complesse hanno spesso dei codici in grado di influenzare l’output dei risultati che forniscono. Trascurare un solo elemento di un codice o di una regola potrebbe alterare l’output dell’intero sistema. Serve un complesso gioco di aggiustamenti e rifiniture prima di riuscire a scrivere regole adatte. Non abbiate paura di sperimentare idee e teorie. Ogni regola complessa dovrebbe essere unica e pertinente. Inoltre, regole coerenti tra loro aiutano ad agire sui dati e immagazzinarli in base alle necessità. Le regole devono poter funzionare da sole, o essere dipendenti, o cambiare come risultato di un’altra regola. Alla fine, la qualità dei dati migliorerà grazie a regole complesse cucite su misura per il sistema.

Mario Altimari

Continua...

Lo strumento per la gestione della qualità dei dati open source

20-11-2012

I dati vengono considerati adatti e appropriati se possono essere utilizzati per le operazioni, le decisioni e le pianificazioni aziendali. Sono considerate di alta qualità anche quelle particolari fonti di dati in grado di descrivere una specifica situazione reale. Un altro fattore da considerare è che con l’aumentare della quantità dei dati, la loro coerenza interna acquista grande importanza. Ad esempio, in parti diverse del database potrebbero esserci discrepanze tra la data di nascita di una persona e la sua età. Le difformità possono sussistere anche quando lo stesso tipo di dati viene utilizzato per uno scopo comune. In questo articolo si intende discutere l’importanza di uno strumento per la qualità dei dati nelle aziende che hanno a che fare con l’elaborazione dei dati. Uno strumento per la qualità dei dati serve a valutare l’adeguatezza dei dati e la loro utilità in un determinato contesto. I dati sono considerati di alta qualità se sono completi, aggiornati, pertinenti al contesto in cui devono essere usati, coerenti, affidabili e adeguatamente rappresentativi. In qualsiasi azienda è importante che i dati siano utilizzabili per le operazioni e le transazioni, e che siano affidabili per la business intelligence. Il modo in cui i dati vengono inseriti in un database, archiviati e gestiti influisce sulla qualità, ed è quindi molto importante concentrarsi su questi aspetti. La metodologia impiegata per verificare i dati prende il nome di Data quality tool assurance. È importante aggiornare i dati, e rimuovere quelli obsoleti, per far sì che la loro qualità sia elevata. Si tratta di un servizio che può essere subappaltato ad aziende in grado di fornire un risultato professionale. Le aziende impiegano anche degli open data manager per eliminare le incongruenze, ad esempio dati doppi, inesatti o non pertinenti. Oltre a essere utilizzati per rendere i dati precisi e corretti, questi strumenti vengono impiegati anche nel data warehousing e nel data mining. Di solito, gli open data manager sono usati dalle aziende per aggiornare i dati relativi al marketing e ai sondaggi presso la clientela. Esistono molte cornici teoriche per la valutazione della Qualità dei dati open source. L’approccio più significativo, quello che fa riferimento al pragmatismo americano, dà una definizione della qualità delle informazioni che comprende l’importanza, la correttezza e la precisione dei dati (Ivanov, 1972). Un’altra teoria include anche la conferma delle specifiche dei prodotti e la capacità di soddisfare le richieste dei clienti quando si tratta di servizi (Kahn et al., 2002). Un altro approccio prevede la verifica dello Strumento per la qualità dei dati, nonché del significato e dell’utilizzo dei dati (Price, Shanks, 2004). Gran parte della ricerca nel campo dell’eccellenza dei dati si occupa di esplorare e mettere in relazione vari gruppi di caratteristiche (o dimensioni) obbligatorie dei dati. I dati vengono valutati in base a correttezza, esattezza, scambio, completezza e importanza. Sono state individuate circa 200 caratteristiche di questo tipo, e c’è un sostanziale accordo sul loro significato e sul loro funzionamento (Wang et al., 1993). Gli ingegneri del software riconosceranno delle analogie con i requisiti non funzionali.

Mario Altimari

Continua...

La qualità dei dati statici e in streaming

16-11-2012

I dati vengono definiti di alta qualità se sono adatti all’utilizzo che se ne vuole fare per prendere decisioni e a livello di pianificazione e gestione. Inoltre, si ritiene che i dati debbano essere di alta qualità per rispecchiare correttamente i costrutti del mondo reale a cui si riferiscono. Se gli insiemi di dati sono piccoli è più facile monitorarli e mantenere un livello qualitativo alto. I problemi nascono con grandi quantità di dati.

Il controllo dell’integrità dei dati è un procedimento essenziale in grado di assicurare che i dati dei vostri sitemi informativi siano coerenti. I dati delle applicazioni spesso non sono validi a causa dei molti vincoli e regole  dichiarative imposti dai vari sistemi informativi. Ad esempio, è piuttosto comune trovare degli ordini senza i clienti che li hanno effettuati, righe d’ordine senza i prodotti corrispondenti e discrepanze del genere.

Esistono principalmente due tipi di controllo: il controllo dei dati statici e il controllo di flusso.

Il controllo statico si occupa delle varie regole utilizzate normalmente per esaminare e verificare l’integrità dei vostri dati. Queste regole vengono anche chiamate vincoli. Alcune possono essere già presenti nei vostri server di dati che impiegano vincoli referenziali, chiavi primarie e così via. Un buon integratore di dati consente di aumentare la qualità complessiva di qeusti ultimi, solitamente definendo e verificando i vincoli aggiuntivi senza dichiararli direttamente nei vostri server.

I sistemi informativi, che in generale sono il bersaglio del processo di trasformazione e integrazione, di solito contengono le proprie regole. La procedura di controllo del flusso consiste in questo: viene implementata per verificare i dati in ingresso mettendoli a confronto con i vincoli.

 I benefici dei controlli per l’integrità dei dati

Si può ottenere un incremento della produttività utilizzando uno stesso database d’arrivo per tutto il ciclo.

È importante la validazione del modello del database. La violazione delle regole non sempre significa che la vostra fonte di dati non è sufficientemente integra. Può invece dipendere dall’incompletezza della modalità d’arrivo.

Mario Altimari

Continua...

L’ integrazione qualitativa dei dati

13-11-2012

Integrazione dei dati

L’ integrazione dei dati può essere definita come il tentativo di combinare dati ottenuti da fonti diverse, offrendone una visione completa e unificata agli utenti. L’ integrazione qualitativa dei dati è un procedimento di validazione attraverso il quale questi vengono sottoposti a profiling, pulizia e poi verificati per accertarsi che siano sani. L’ integrazione dei dati è un procedimento utile che ha molte applicazioni commerciali, ad esempio quando si devono unire i database di due compagnie in seguito alla loro fusione. Viene anche utilizzata nel campo della bioinformatica, quando dati provenienti da sistemi di archiviazione diversi devono essere combinati in un’unica fonte. L’ integrazione qualitativa dei dati è un procedimento che  richiede quattro fasi fondamentali: data profiling, stesura di schede di valutazione qualitativa, analisi dei dati e rimozione di quelli doppi, verifica finale.

Data profiling

Il data profiling si occupa di analizzare i punti critici e valutare i dati per verificare se sono adatti agli scopi prefissati. Inoltre, in questa fase vengono raccolte statistiche e informazioni sui dati.

Stesura di schede di valutazione

I risultati ottenuti con il data profiling vengono riassunti attraverso la stesura di una scheda di valutazione, che mostra come vengono misurate le diverse regole. Queste schede sono in grado di fornire un riepilogo dei problemi aziendali relativi alla qualità dei dati.

Analisi dei dati e rimozione di quelli doppi

L’analisi dei dati si riferisce al procedimento con cui i dati composti vengono scomposti (disgregati). Comporta la ricerca di corrispondenze, la rimozione di duplicati e il miglioramento dei dati. I dati scomposti in componenti e modelli base possono essere impiegati come fondamento per la ricerca di corrispondenze complesse. L’analisi è strettamente legata al contesto aziendale di riferimento.

Verifica dei dati

Una volta terminate le fasi precedenti, i dati vengono sottoposti a verifica per accertarsi che siano precisi e validi al 100%.

Mario Altimari

Continua...

La qualità dei dati e l’elaborazione del flusso degli eventi

08-11-2012

L’elaborazione del flusso degli eventi (o ESP, Event Stream Processing) è un quadro di soluzioni che consente alle aziende di migliorare le capacità di adattamento e di risposta in tempo reale quando hanno a che fare con l’analisi e con l’accrescimento nella varietà dei flussi in ingresso. Sono le esigenze dell’odierno mercato globale a richiedere una simile prontezza. Le aziende devono necessariamente prendere decisioni basate sugli eventi, ma se non riescono a identificare le mutevoli condizioni del mercato, e a reagire di conseguenza, finiranno per perdere numerose opportunità.

Le soluzioni per l’elaborazione del flusso degli eventi sono studiate per acquisire dati in tempo reale che siano precisi e rilevanti, così da consentire alle aziende di prendere decisioni con cognizione di causa. I dati trattenuti all’interno del flusso sono i risultati finali su cui si baseranno le aziende per prendere le loro decisioni. Se i risultati raccolti hanno un elevato periodo di latenza, l’azienda non sarà in grado di prendere decisioni in tempo reale efficaci e attinenti agli schemi di cambiamento che si presentano all’interno delle sue attività.

L’ESP, conosciuto anche con il nome di elaborazione degli eventi complessi (CEP, Complex Event Processing), è un meccanismo studiato per attuare procedure come l’integrazione delle valutazioni e di giganteschi flussi in ingresso e uscita, insieme alle regole applicabili ai singoli nodi all’interno della rete. I dati in ingresso vengono verificati in base alle regole e configurati per appurare che siano a queste conformi prima di entrare nel flusso. Le condizioni soddisfatte possono essere evidenziate con un segno di spunta.

Le aziende che funzionano meglio sono quelle che riempiono i propri database di dati precisi e validi. Ampliando le loro applicazioni per includervi gli eventi lavorativi, queste aziende puntano ad acquisire analisi e capacità di risposta in tempo reale. Gli strumenti privilegiati sono soluzioni che si basano su architetture orientate agli eventi (EDA, Event-driven Architecture), equipaggiate con infrastrutture in grado di gestire semplici interazioni basate sugli eventi e analisi degli eventi più complesse. I risultati ottenuti vengono impiegati per ottenere il pattern matching in tempo reale.

Mario Altimari

Continua...
1 / 512345