Datadrevet innovasjon - Data-raffineriet
I think the CDOs most important role is to break down all silos.

Isabel Barroso-Gomez

04

Data-raffineriet

Data-raffineriet

Skal man lykkes med datadrevet innovasjon, må man ha på plass nødvendig infrastruktur for å kunne dra nytte av de dataene man har eller kan få tilgang på.

Bilde av Kristin Wulff

Kristin Wulff

Nærings-PhD og rådgiver

Bilde av Ingunn Moen

Ingunn Moen

IT-strategisk rådgiver

Hva er data? Data er "alt" du vet om for eksempel kunden eller det som skjer i prosessen. Data er i utgangspunktet rådata, ustrukturert og uten meningsbærende innhold.
Noen har hevdet at data er den nye oljen. Hvis meningen med utsagnet er å peke på hva vi skal leve av etter oljen, så er det [flere grunner til å stille spørsmål ved det.](https://www.abelia.no/bransjer/teknologi-og-digitalisering/Nyheter/--data-er-ikke-den-nye-oljen/) Men det kan likevel være en interessant analogi. På samme måte som at oljen vi pumper opp av havet er en råvare som må foredles for å ha nytteverdi, så kan vi se på data som en råvare som må raffineres gjennom ulike prosesser for å komme til nytte.
Data-raffineriet
Data-raffineriet
Å eie data og vite hva de kan brukes til
For å være datadrevet, må du ha data, nok data. Det å ha eierskap til data er og fortsetter å være en konkurransefordel.
dag-dnb-data.mdx
Forsikring nevnes som mor til all datadrevet virksomhet - de har samlet data og tatt beslutninger basert på dem i 300 år. Andre virksomheter er ikke så heldige, de har kanskje samlet data i en perm eller et excel-ark, og har en lengre jobb å gjøre for å kunne oppbevare data på en slik måte at de er mulig å få tak i for dem som skal bruke dataene.
Det er ikke nok å ha mye data, det må være relevante data, kvaliteten må være god, og dataene må være tilgjengelige for de som skal bruke dem. Verdien ligger ofte i å kunne sammenstille data fra ulike kilder, men mange virksomheter har data samlet i mange ulike fagsystemer. Det å håndtere data på en god måte er essensielt.
astrid-smn-data.mdx
For å kunne lagre nok data må det være en enighet i organisasjonen om hvilke data som er viktige å ta vare på.
ragnhild-nte_data.mdx
At dataene er på riktig abstraksjonsnivå for oppgaven de skal løse, og at man har nok historikk er viktig.
astrid-smn-data-2.mdx
Og man må også være klar over at hvis man har identifisert et forretningsproblem som man ønsker å løse kommer man ingen vei hvis man ikke har data tilgjengelig.
christer-sb1k-data.mdx
Troen på data kan også bli for stor.
øyvind-fremtind-data.mdx
Jobben med å få tilgjengeliggjort data kan være lang og hard fordi man ikke helt vet verdien i egne data.
simon-nets-data.mdx
Men også fordi det lages mye data som ikke er strukturerte nok og nøyaktige nok.
lars-svv-data.mdx
Et eksempel på krav til nøyaktighet i data fikk vi fra Statens vegvesen.
lars-svv-data-2.mdx
For å kunne bruke data må du ha fanget dem, lagret dem og gjort dem tilgjengelig på en sånn måte at de som trenger data får tak i dem og kan jobbe med dem
Datafangst og lagring
Gjennomført, automatisk datafangst har både høyere kvalitet og skalerer vesentlig bedre enn manuelle prosedyrer. Derfor har de modneste aktørene sterkt fokus på automatikk i datafangsten. Videre understreker de at det er bedre å forbedre selve datafangsten, tidlig i verdikjeden, enn å forsøke å "reparere" i etterkant. Så fort mennesker rører data, blir de skitne. Da kan du ikke stole på dataene lenger, som Chief Data Officer Isabel Barroso-Gomez sier.
Vellykket datafangst og datalagring handler om bevisstgjøring og eierskap hos alle som er involvert i en verdikjede:
dag-dnb-data-2.mdx
Det varierer veldig hvor langt organisasjonene har kommet i arbeidet med å ta vare på dataene på en god måte.
ragnhild-nte_data-2.mdx
Ser vi det opp mot påpekningen av at data blir skitne hvis mennesker tar i dem skjønner vi at her må man få opp sensorer eller annen automatikk som kan registrere data direkte. Og hvis du har sensorer som du kan stole på, så kan du også redusere mengden etterarbeid. For eksempel kan Fiskeridirektoratet få direkte oversikt over at alle fisker kun lovlig kvote. Noen ganger handler det også om å automatisere datafangsten. SR-bank eksperimenterer for eksempel med om de kan automatisere enda mer innkommende papir, og lese automatisk fra innskanning av dokumenter. De har brukt tradisjonell OCR, men har også brukt AI-modeller for å få til såkalt *straight-through-processing*.
Innenfor sikkerhetsområdet er det ekstreme mengder data som skal behandles, og mye som skal sjekkes opp mot hverandre.
tone-statkraft-data.mdx
Etter selve datafangsten, er lagringen av data kritisk. Når data ligger i en fysisk perm, eller i en digital ekvivalent til en bortstuet perm, er mye vanskeligere for en data scientist å hente verdi ut av disse. En data scientist er som en kokk – jobben handler om å foredle, kombinere og utnytte råvarer, men får man ikke tilgang på råvarer, eller opplever at råvarene har elendig kvalitet, står man over en tilnærmet umulig oppgave.
Datatilgang
Skal en virksomhet kunne nyttiggjøre dataene man har fanget inn og lagret, må de tilgjengeliggjøres. Noen ganger er formålet eksperimenterende, eksempelvis å forske på nye produkter gjennom å gjøre eksplorative analyser på dataene. Andre ganger ønsker man å lage en ny produksjonspipeline for eksempel for å lage et dashboard med viktige KPI'er som oppdateres i sanntid, eller for integrere en trent maskinlæringsmodell inn i et nytt eller eksisterende produkt eller tjeneste.
### Å dele lagrede data
Vi har lært at det finnes (minst) to måter å tenke på når det gjelder datatilgang: sentralisering og lokal tilgang. Lokal tilgang kan handle om at man deler data der de er. De som er for sentralisering snakker om hvordan det er vanskelig å få tak i data hvis de ikke er lagret i et felles datavarehus eller datainnsjø eller tilsvarende. Noen organisasjoner hadde allerede kommet ganske langt i en slik sentralisering, og har god nytte av sitt datavarehus enten direkte eller som en byggestein for å lage en dataplattform.
Som når Geir-Olav, CTO i SR-bank forteller om deres reise:
geir-olav-srbank-data.mdx
I en sentralisert modell har man en delt infrastruktur der folk kan finne de dataene de trenger på ett sted. Men et problem med denne løsningen kan være at man standardiserer data. Standardiseringen av data som man typisk gjør i et datavarehus trenger ikke å være nyttig alltid, fordi man vet ikke hvordan data kommer til å bli brukt i framtiden.
øyvind-fremtind-data-2.mdx
Dette er det mange som tar opp: at når man skal sette opp en maskinlæringsmodell så vil man antagelig bruke data på en måte man ikke har forutsett på forhånd. Det betyr at data vil brukes på en annen måte enn det du tenkte når du definerte hvordan data skulle lagres og tilgjengeliggjøres i datavarehuset.
En annen måte å se det på er at man skal gjøre data tilgjengelig der de er:
isabel-gomez-data.mdx
Erfaringen til Isabel er at Data scientists vil hente data inn i sine verktøy og jobbe med dem der. Som Edvard skriver i kapittel 1.2, så kan det være ganske slitsomt å være Data scientist hvis du må lete rundt etter data. Så det er uansett viktig å gjøre dataene lett tilgjengelige.
isabel-gomez-data-3.mdx
Da starter du med å sette dataene du har fri, sørger for å lære opp de som skal hente ut data i GDPR og evt. andre begrensninger, og begynner læringsreisen inn i hva dere kan få til med datadrevne råd og beslutninger. Da vil dere oppdage hva dere faktisk kan lære av de data dere har, og hva slags data dere bør samle inn i tillegg.
tomas-svv-data.mdx
Dette som Tomas tar opp kan være en grunn til å heller sentralisere data fordi det kan være farer forbundet med å bruke data som er lagret i et fagsystem uten å vite godt hva man gjør.
Det er heller ikke alltid så enkelt å få gode data ut av et fagsystem. "fortsatt et helvete å få ut data fra fagsystemer", som Tomas i Statens vegvesen sier. Det å bruke data fra fagsystem kan også være risikofylt mhp GDPR. Igjen kan man velge å sentralisere ved å lagre godkjente data i et datavarehus/en dataplattform, eller man kan sørge for at alle har god nok forståelse for hva som er riktig å gjøre.
isabel-gomez-data-2.mdx
Andre har utfordringer med at data ikke kan deles på grunn av sikkerhet, personvern eller at man ikke ønsker å dele forretningskritiske data eller data som kan gi en fordel (for eksempel kredittkortsselskap som ikke kan sammenligne data fra flere banker, eller kraftselskap som ikke kan dele sikkerhetsklarerte data med andre deler av organisasjonen). Da er utfordringen å få til anonymisering av data på en sånn måte at det fortsatt kan brukes til noe nyttig.
tomas-svv-data-3.mdx
Hvilken strategi din organisasjon skal velge for uthenting av data blir dermed forskjellige avhengig av om man allerede har en sentralisert eller en lokal løsning. Hvis din organisasjonen ikke allerede har et velfungerende datavarehus eller dataplattform er vårt inntrykk at det er bedre å hente data der de er, og så heller se få data inn i sentralisert løsning når man har bestemt seg for hvilke data man trenger. Det er forsåvidt også et godt råd for de som har en sentralisert løsning - at man venter med å bestille data inn i den sentrale løsningen til man har funnet ut hvilke man trenger gjennom eksperimenter.
lars-svv-data-3.mdx
Hos de som starter veien med tilrettelegge data virker sentralisering interessant, men samtidig så ser Ragnhild at det ikke trenger å være lurt.
ragnhild-nte_data-3.mdx
Hvis det er slik at de som skal bruke data til analyser og maskinlæring (data scientist) uansett vil trenge rådata, skulle man tro det er bedre å legge til rette for at de kan hente data der de skapes. Så her ser det ut til at hver organisasjon må lære hva som er riktig for dem. Og kanskje blir det en blanding?
ragnhild-nte_data-4.mdx
Kravene til datakvalitet øker også:
arne-aditro-data.mdx
### Å søke i delte data
Både sentralisering og lokal lagring kan altså brukes for å hente ut data, og det fører til at man må ta forskjellige valg i hvordan man gjør det tilgjengelig. Selv om data er lagret i et format der man kan få tak i dem er ikke veien enkel.
tomas-svv-data-2.mdx
Det virker som en god regel å si at hvis data ikke er eksponert så finnes de ikke. Ved lokal lagring kan man legge vekt på å lage gode APIer for å hente ut data både internt og eksternt. Med gode API'er legges det også til rette for samarbeid:
kristian-vipps-data.mdx
Det er mange måter å tilgjengeliggjøre data på.
øyvind-fremtind-data-3.mdx
For at det skal være lettere for folk å ta data i bruk kan du gi oversikt over datakildene.
tomas-svv-data-4.mdx
### Å kombinere data
I boka "Creating a data-driven organisation" av Carl Anderson understreker han at i tillegg til at data må være delbare (shareable) og mulig å søke i (queryable), så må de også være kombinerbare (joinable). Da kan det være lurt å tenke som DNB har gjort på at det skal være lett å sammenstille data fra flere kilder.
dag-dnb-data-3.mdx

Hvor modne er dere?

Vi har laget en spørreundersøkelse som kan måle modenheten i deres organisasjon. Du kan gjennomføre det anonymt og se sammenslåingen av resultatene til alle som har besvart.

05. Å bli datadrevet

Det er mange ting som må til for at en organisasjon skal bli datadrevet, og mye handler nettopp om utvikling av organisasjonen.