Without big data, you are blind and deaf and in the middle of a freeway.
Dette sitatet av Geoffrey Moore illustrerer situasjonen som mange bedrifter finner seg i. Hvis de ikke får kontroll over sin data er man i stor risiko for å mislykkes. Men hva skal til for å håndtere data i stor skala?
Hvorfor bedrifter trenger en dataplattform
Data er av stor verdi for bedrifter og organisasjoner.
Uten gode data og god informasjon er det vanskelig for bedrifter å utvikle og forbedre virksomheten. Det blir også vanskelig å vite om man er på vei til å nå målene sine. Og for at kunstig intelligens og agenter skal kunne operere autonomt eller semi-autonomt, trengs det et solid grunnlag av data å trenes på og jobbe ut fra.
Bedrifter må kunne håndtere data med stor variasjon og høyt volum.
Bedrifter samler i dag inn mer data enn tidligere, både antall ulike datasett, men også størrelsen på datasettene. [https://edgedelta.com/company/blog/data-market-size-and-forecast].
Tradisjonelt har databasene i bedrifter forholdt seg til strukturerte, tabulære data (rader og kolonner), men vi ser nå at bedrifter ønsker å hente ut verdi fra all data de har tilgjengelig. En stor del av data som er tilgjengelig for bedrifter er ustrukturert data, som betyr at det består av bilder, epost-tråder, PDF-er, word-filer og lydopptak. Kunstig intelligens kan konsumere og trekke verdi ut av ustrukturerte data. Det gjør at denne typen data har blitt mer anvendelig og derfor mer verdifull enn før.
Mange bedrifter som håndterer data i stor skala opplever at den tradisjonelle databasen, og datavarehuset ikke håndterer denne størrelsen og variasjonen av data på en effektiv måte, og de etterspør derfor dataarkitektur som kan levere på kravene.
Bedrifter må kunne håndtere et stort antall mennesker som skal samhandle rundt dataen
For bedrifter som ønsker å bli datadrevet, så blir data en sentral ressurs og verktøy for beslutningsstøtte. Derfor blir det et økende antall mennesker som skal samhandle rundt data, enten ved å jobbe og analysere data direkte, eller ved å konsumere rapporter eller maskinlæringsmodeller som er trent på bedriftens data.
Samhandling rundt data fordrer at det finnes systemer for enkel og sikker tilgangsstyring, segregering av arbeidsflater, slik at det blir oversiktlig og enkelt å samhandle i stor skala og publisering og oppdatering av rapporter, datasett, resultater og opptrente KI-modeller, slik at verdien når frem til sluttbrukeren.
Hvordan en dataplattform løser dette
En god dataplattform er laget for å løse de utfordringene som bedrifter møter når de skalerer opp mengden data og antall brukere som jobber med data.
1. Skalerbar datakraft for store datamengder.
En dataplattform gjør det mulig å skalere datakraften automatisk eller semi-automatisk etter behov, slik at den tilpasses mengden data som skal behandles. I tillegg finnes det verktøy som Spark, som er spesielt laget for å prosessere store datamengder, og som gjør det enkelt å skalere opp til å prosessere svært store datasett.
2. Støtte for variert- og ustrukturert data
En god dataplattform er bygget for å lagre, håndtere og analysere data i mange ulike formater på samme sted. Dette utføres ved hjelp av data lakehouse-arkitektur, som gir en kombinasjon av fleksibilitet og struktur. I tillegg kan dataplattformer ha tilkoblinger til andre datakilder, som gjør det enkelt å samle inn og bruke data fra flere steder.
3. Støtte for storskala samhandling, granulær tilgangsstyring og støttefunksjoner
En dataplattform kan løse problemer med mange mennesker som skal jobbe med data samtidig, ved å tilby separerte arbeidsflater (workspaces) der ulike team kan jobbe i isolasjon. Likevel vil en dataplattform sørge for at det er lett å dele data på tvers av team, slik at man unngår datasiloer. I tillegg vil en dataplattform kunne tilby logging, sporing av data og flere andre støttefunksjoner.
Hvordan en dataplattform ser ut
Forestill deg en norsk kommune som har som mål å redusere kø i trafikken og gjøre det tryggere å sykle og gå. De har mye data tilgjengelig - fra trafikkmålere, innbyggerundersøkelser, støydata, luftkvalitet og GPS-spor fra kollektivtransport - men dataene er spredt og lite tilgjengelige for analyse.
Med en dataplattform:
- Trafikkdata, støy og luftkvalitet kan kobles sammen, og presenteres i et interaktivt dashboard.
- Planleggere kan analysere effekten av nye sykkelveier og trafikktiltak, og justere underveis.
- Innbyggerklager blir koblet med sanntidsdata, noe som gir bedre grunnlag for å prioritere tiltak der folk faktisk opplevde problemer.
- Miljørapportering til staten blir automatisert, og kommunen får bedre oversikt.
- Kunstig Intelligens kan mates med de tilgjengelige dataene, og brukes som et verktøy for å effektivisere prosesser, og hjelp til å ta bedre beslutninger.
Resultatet blir mer målrettede tiltak, mer fornøyde innbyggere og beslutninger basert på data – i stedet for løsninger basert på fragmentert informasjon og magefølelse.
Arkitekturen til en dataplattform
Moderne dataplattformer bygger ofte på SaaS-løsninger som Snowflake, Databricks eller Microsoft Fabric. Disse gir høy grad av skalerbarhet og kortere vei til mål, men gir samtidig mindre kontroll over infrastrukturen.
Dersom man ønsker større kontroll og fleksibilitet, kan man i stedet bygge en plattform basert på open source-verktøy som Kubernetes, Apache Airflow, Dagster, Apache Flink, PostgreSQL og Apache Spark.
En komplett dataplattform inneholder også verktøy for visualisering og rapportering, som typisk utføres med Power BI, Tableau eller Databricks Dashboards.
I tillegg inngår komponenter for datahenting og overføring, som for eksempel Azure Data Factory og Kafka. En robust plattform vil også inkludere støttesystemer for sikkerhet og styring, som secret management, governance-løsninger og en datakatalog, slik at data kan håndteres sikkert og brukere enkelt finner frem i informasjonen.
Arkitekturen til en dataplattform kan forklares på en enkel måte ved å dele den inn i seks hovedsteg. Disse stegene beskriver hvordan data beveger seg gjennom plattformen.
- Datakilder – som dokumenter, API-er, databaser og sensorer.
- Innhenting – hvordan data samles inn i plattformen.
- Lagring – data lagres som rådata i en form som muliggjør videre bearbeiding, og som backup.
- Transformering – data struktureres, renses og klargjøres til analyse og konsum.
- Levering – bearbeidet data gjøres tilgjengelig via dashboards, applikasjoner eller modeller.
- Konsum – data brukes av mennesker (analytikere) eller systemer (KI, rapporter, tjenester).
I tillegg må det finnes en rekke støttefunksjoner som danner grunnmuren i plattformen. Dette omfatter tilgangsstyring, sikkerhet, datakatalog og automatisering. Disse er nødvendig for at plattformen blir trygg, effektiv og enkel å bruke.
Hvordan komme i gang med dataplattform
Å bygge en dataplattform handler om å skape verdi. Derfor anbefaler vi å begynne med en minimal dataplattform, for så utvide den til å løse ett og ett problem av gangen. Slik sikrer vi at løsningen leverer verdi helt fra starten. Etter hvert må dataplattformen skaleres opp. Da vil en bygge på den infrastrukturen som kreves.
Det kreves god kompetanse å sette opp dataplattform, så for å lykkes med dette er det viktig å ha med dyktige data engineers og data platform engineers, som kan sørge for at plattformen bygges på en robust, sikker og skalerbar måte.
.png)

