Uttrekk, transformasjon og lasting

Skisse av en ETL-jobb

Uttrekk, transformasjon og lasting (engelsk: extract, transform, load, ETL)[1] er betegnelsen for en type IT-verktøy som henter store datamengder fra eksterne kilder, bearbeider dem og laster dem inn i et eller flere lokale målsystemer.

Begrepet og verktøyet oppsto som et behov i forbindelse med implementasjon og vedlikehold av datavarehusløsninger. I slike løsninger laster man normalt på daglig, ukentlig eller månedlig basis, store datamengder fra operasjonelle systemer til et systemer for virksomhetsetterretning. Kompleksiteten i disse systemene pleier å være relativt stor og behovet for en type system som forvalter lastejobber på en oversiktlig måte vokste frem.

De fleste leverandører av ETL-verktøy tilbyr et grensesnitt med grafisk visualisering av stegene i prosessen. Forskjellige typer operasjoner eller kilder/mål representeres med symboler som viser hva det er. For eksempel en databasetabell. Mellom operasjoner og kilde/målobjekter går det piler som illustrerer dataflyten.

Denne måten å representere dataflyt og datamanipulasjon på er effektiv for å kunne spore data tilbake til kilden med full behandlingshistorikk. I tillegg eksponeres forretningslogikken som brukes mye mer effektivt enn for eksempel med SQL kode.

Hovedprinsippet er at man gjør uttrekk (ekstraherer) data fra kilder, deretter transformerer disse dataene slik at de passer til målet, og til slutt laster de transformerte dataene inn i en måltabell eller fil.

De enkelte transformeringene, som gjøres i transform delen, faller som regel inn under noen relativt få standardoperasjoner. Disse styrer dataflyt og datamanipulasjon:

ETL kontra ELT

En variant som også leveres er uttrekk, lasting og transformasjon (ELT), hvor rekkefølgen av de to siste operasjonene er byttet om. I praksis er dette en løsning hvor filosofien er å bruke måldatabasens funksjonalitet for å gjøre operasjonene.

Andre utviklinger

Etterhvert som disse verktøyene har utviklet seg og fått utbredelse, også utover datavarehus området,har leverandørene av disse verktøyene begynt å endre betegnelse på dem. Det er nå vanlig å bruke andre betegnelser som bedre reflekterer det mer omfattende anvendelsesområdet. Det vil si innen dataintegrasjon generelt, grunndataforvaltning, kunderelasjonshåndtering og dataforvaltning -oppgaver. Informatica har omdøpt sin suite fra Powermart til PowerCenter, mens IBM har omdøpt sitt verktøy fra DataStage til Information Server.

Mens førstegenerasjons-ETL var mer eller mindre ensidig opptatt av det grafiske brukergrensesnittet, har andregenerasjonsproduktene løst problemer med datakvalitet, metadatahåndtering, skalerbarhet (i forhold til datavolum), dataprofilering og så videre.

En viktig ny tenking i forhold til ETL er at man mer og mer åpner for sanntidsoppdateringer, via tjenesteorientert arkitektur (SOA), av mindre datamengder. Dette i motsetning til den tradisjonelle satsvis (batch-) orienterte lasten som kjennetegnet førstegenerasjons ETL.

Se også

Referanser

  1. ^ Lygre, Erlend Tangeraas (10. mai 2016). «Løsningen hans fjerner «en av de kjedeligste jobbene» en utvikler kan gjøre». Digi.no (på norsk). Besøkt 22. september 2021. 
Autoritetsdata