Forstår du dine data?

«Vi drukner i data, men tørster etter informasjon». Dette er et utsagn jeg har brukt i mange år, men har det noen gang vært mer relevant enn nå? Og tror vi at det kommer til å bli enda mer relevant med den eksplosive veksten av data vi ser? Da MÅ vi ta grep, og de grepene vil jeg svært gjerne fortelle deg om!

-Lars-Roar Masdal, Partner

Det er svært viktig å forstå relevansen og kvaliteten på de dataene som skal benyttes til å skape bedre innsikt. Da er det ofte ikke dataene i seg selv som er interessante, men metainformasjonen om dataene. Med dette mener jeg f.eks. hvor de kommer fra (direkte fra kilde eller om de er omarbeidet en eller flere ganger), hvilken type data det er (strukturerte eller ustrukturerte), antall forekomster, etc.

I tillegg til alle disse tradisjonelle opplysningene om dataene, tilkommer nå ny og viktig informasjon. Ligger de lokalt eller hos en eller flere skyleverandører? Dette vil være svært nyttig å vite. Om du skal hente og analysere store mengder data, vil alltid ytelse være en flaskehals. Da må metainformasjonen om dataene også inneholde kunnskap om f.eks. volumer, nettverkskost og båndbredde. Denne informasjonen kan da brukes til å ta de optimale valgene rundt spørsmål som:
a) skal dataene lastes til meg for prosessering, eller b) skal det prosesseres hvor dataene er (skyen) og bare sluttresultatet sendes til meg.

Men dette er ikke noe vi som brukere ønsker å forholde oss til. Vi vil bare ha god ytelse på våre analyser og prøve å forstå svarene på de utfordringene vi ønsker å løse.

Det er derfor det nå har kommet en ny type avanserte verktøy som hjelper oss med å optimalisere disse problemstillingene. Vi liker å dele dette i to kategorier a) Informasjonsforvaltning og b) Dataforvaltning. På engelsk er begrepene ofte Data Governance med tilhørende Data Catalog og Master Data Management.

For å sikre at du kommer trygt ut fra hoppkanten har jeg tatt med fem enkle punkter du bør tenke over. Dette er hentet fra en artikkel til vår samarbeidspartner Informatica[1]

  1. Broad and deep metadata connectivity – Successful data governance depends upon the ability to discover data by scanning and cataloging data assets across the enterprise. The ability to work seamlessly with data from a broad range of sources – traditional on-premises data, cloud data, big data, business intelligence tools and other apps, structured and unstructured data – is essential. It’s not just the breadth of connectivity. It’s also the ability to extract different types of metadata that can be leveraged for a deeper understanding of the data and to automate downstream processes.
  2. Lineage and impact analysis – To govern data effectively, you need to understand where data is located, who owns it, where it’s coming from, and how it’s being used. An effective data catalog will be able to provide a business-friendly view of the end-to-end lineage, so business users can understand the provenance of critical data. And by tying certain data (such as, for example, sensitive credit card numbers) to business terms and policies, it provides guidance for conducting impact analysis related to internal rules and external regulations.
  3. Data quality monitoring – At the end of the day, your data needs to be consistently trustworthy. Having visibility into the quality of your data is a must for any successful enterprise data governance program. Your data catalog solution should provide visibility into data profiling statistics (such as value distributions and other patterns) and technical metadata that facilitate a deeper understanding of the data quality. By guiding you to higher quality data, the end results will be better suited for compliance reporting and advanced analytics, as well as for providing meaningful insights to end users across the organization, right up to the CIO and CEO level.
  4. AI-powered scalability Achieving enterprise scale is impractical without an AI-driven platform that can streamline processes, such as automated curation, tagging and classification, automatic detection of similar data, and automatic association of business terms to technical data assets. With thousands of datasets each containing hundreds of columns and thousands of business terms, manual identification and tagging would be an impractical alternative. If it takes weeks or months to complete a data discovery process or to generate a report, the results may have little or no value. To streamline the otherwise tedious process of associating technical metadata with business terms and policies, an AI-powered data catalog solution can automatically associate specific business terms and policies with the relevant datasets, a necessity for achieving and maintaining enterprise scale. Data stewards can focus on higher-value analyses of AI-curated datasets to deliver far more value.
  5. Collaboration – In addition to harnessing the power of AI for scalability, a data catalog should harness the collective knowledge and subject matter expertise of all stakeholders in contact with the data. This includes IT architects, data owners, data stewards, and data consumers. Collaboration across all of these stakeholders is critical to a successful data governance program. By providing a holistic view of your data, along with rich business context, the data catalog should enable IT to better support business requests and requirements. Business users should be able to tag, comment, rate, approve workflows, and so on. With tight integration between policies and the data under governance controls, an intelligent data catalog enables both business and IT stakeholders to use data effectively and responsibly.

Vi i RAV har ekspertisen og erfaringene som gjør at vi står klare til å hjelpe deg og våre kunder med alle de aspekter som er knyttet til disse problemstillingene. Sammen med kunden setter vi retningen inn mot fremtiden.


[1] Data Cataloging for Data Governance: 5 Essential Capabilities


Om forfatteren

Lars-Roar Masdal

Lyst å lære mer om dette?

Del denne artikkelen