Webanalyse brukes om måling, samling, analyse og rapportering av internettdata med den hensikt å forstå og optimalisere bruken av nettet.
Det finnes to typer webanalyse; off-site (eng.) og on-site (eng.) webanalyse.
Off-site webanalyse refererer til måling og analyse som gjøres uavhengig av om man eier eller drifter et nettsted. Den inkluderer målinger av et nettsteds potensielle målgruppe eller besøkende (mulighetsbildet), dets betydning i markedet (synlighet) og den oppmerksomhet det får på internett totalt sett, blant annet gjennom kommentarer.
On-site webanalayse måler en besøkendes reise idet han kommer til et nettsted. Dette inkluderer nettstedets drivere og konverteringer. For eksempel: hvilke landingssider får folk til å gjennomføre et kjøp? On-site webanalyse måler den kommersielle ytelsen til et nettsted. Disse dataene blir typisk målt opp mot nøkkelindikatorer (eng. key performance indicators) for ytelse, og brukes til generell forbedring av et nettsted eller forbedring av en målgruppes respons på en markedskampanje.
Historisk sett har man referert til webanalyse som on-site målinger av besøkende. I de siste årene har denne definisjonen gradvis blitt visket ut, hovedsakelig fordi programvareleverandørene nå lager verktøy som dekker begge kategoriene (off-site, on-site).
Den øvrige delen av denne artikkelen tar for seg on-site webanalyse.
Teknologier for on-site webanalyse
Det finnes mange leverandører av programvare og tjenester for on-site webanalyse. Man har to teknologiske tilnærminger til hvordan man samler data. Den første metoden, analyse av loggfiler, leser loggfilene hvor webserveren lagrer alle transaksjonene. Den andre metoden er sidemerking, hvor man bruker JavaScript på hver side som varsler en tredjeparts server når en side lastes i en nettleser. Begge metodene samler data som kan brukes til å lage rapporter på nettrafikk.
I tillegg kan andre kilder kobles til for å øke datamengden. For eksempel; antall mottatte e-post, data fra kampanjer med direkte reklame (eng. direct mail), tips- og salgsinformasjon, informasjon om hvilke områder brukerne klikker mest på (eng. click heat mapping), eller andre spesialtilpassede målinger.
Analyse av loggfiler fra webserver
Webservere lagrer transaksjoner eller kall mot serveren i en loggfil. Det ble raskt oppdaget at disse loggfilene kunne leses av et program som kunne levere data på nettstedets popularitet. Slik oppsto det programvare for analyse av weblogger (ikke til å forveksles med weblog eller blog).
Tidlig på 1990-tallet besto nettsted-statistikk primært av antall forespørsler eller treff gjort mot en webserver. Til å begynne med var dette en fornuftig metode, ettersom hver webportal ofte besto av kun en enkelt html-fil. Etter hvert som bilder ble introdusert i html, og nettstedene begynte å strekke seg over flere html-filer, ble denne målingen mindre brukbar. Den første kommersielle logganalyseapplikasjonen ble utgitt i 1994 av IPRO.
I midten av 1990-årene ble det introdusert to nye dimensjoner for å få mer presise målinger på menneskers bevegelser på en webserver: sidevisninger og besøk (eller sesjoner). En sidevisning ble definert som en forespørsel sendt til server for å vise en side, mens et besøk ble definert som en serie av forespørsler gjort av en unik klient (unik inntil klienten nådde en viss periode med inaktivitet, typisk 30 minutter). Sidevisninger og besøk blir fortsatt målt, men er nå regnet som heller usofistikerte målinger.
Etter hvert som søkeroboter oppsto sent på 1990-tallet, samtidig som webproxier og dynamiske IP-adresser for store selskaper og internettleverandører (eng. ISP), ble det vanskeligere å identifisere unike brukere av et nettsted. Logganalytikerne svarte med å spore besøkene ved hjelp av cookies, og ved å ignorere forespørsler fra kjente søkeroboter.
Den utbredte bruken av webcacher introduserte nok et problem for loggfilanalyser. Hvis en person kommer tilbake til en side, vil den andre forespørslen ofte bli hentet fra nettleserens cache. Dette fører til at webserveren ikke logger noen forespørsel, og personens vei gjennom nettstedet blir tapt. Caching kan omgås ved å konfigurere webserveren, men dette igjen kan medføre nedsatt ytelse for den besøkende.
Merking av websider
Bekymringer over cachingens påvirkning av loggfilanalysens nøyaktighet, og et ønske om å kunne outsource webanalysetjenestene, ledet frem til den andre metoden for innsamlig av data: merking av websider, eller såkalte Web bugs.
På midten av 1990-tallet kunne man ofte se tellere på websider – et synlig bilde som viste hvor mange ganger en side hadde blitt kalt opp/forespurt/lastet, noe som er et estimat på hvor mange besøk den siden har hatt. Mot slutten av 1990-tallet ble dette videreutviklet til å bli et usynlig bilde, som, ved hjelp av JavaScript, blir brukt til å sende informasjon om siden og den besøkende sammen med bildeforespørslen. Denne informasjonen kan deretter bli prosessert av et byrå for webanalyse, og omfattende statistikk kan genereres.
Webanalyse-tjenesten styrer også prosessen med å tilordne en cookie til brukeren. En slik cookie kan identifisere den brukeren gjennom besøket, samt når brukeren vender tilbake. Cookies må imidlertid aksepteres av brukeren/klienten, og akseptanseraten for cookies varierer veldig mellom ulike nettsteder, og dette kan påvirke kvaliteten på de innsamlede data og rapportene.
Innsamling av data fra et nettsted ved bruk av tredjeparts datainnsamlingsservere (eller til og med ved bruk av såkalte in-house servere) krever et ekstra DNS-oppslag fra brukerens datamaskin for å bestemme IP-adressen til innsamlingsserveren. Tilfeller med forsinkelser eller feil i disse DNS-oppslagene, kan føre til at data ikke blir samlet inn.
Etter hvert som Ajax-baserte løsninger har økt i popularitet, er en alternativ løsning til usynlige bilder å implementere et kall tilbake til serveren fra den lastede siden. Når siden lastes i nettleseren, kjøres en Ajax-kode som sender et kall tilbake til serveren, samtidig som den sender informasjon om klienten som kan aggregeres opp av et webanalysebyrå. Denne metoden blir imidlertid ofte begrenset av nettleserrestriksjoner på serverne.
Loggfilanalyse versus merking av websider
Både loggfilanalyse-programmer og løsninger for merking av websider er lett tilgjengelig for selskaper som ønsker å utføre webanalyser. I noen tilfeller vil webanalysebyrået tilby begge disse metodene. Da dukker spørsmålet om hvilken metode man bør bruke, og hver metode har sine fordeler og ulemper.
Fordeler med loggfilanalyse
Hovedfordelene med loggfilanalyse over merking av websider er som følger:
- Webserveren produserer allerede loggfiler, så rådata er umiddelbart tilgjengelig. Innsamling av data via merking av sider, krever endringer på nettstedet.
- Dataene er på selskapets egne servere og er i standard format, heller enn proprietært format. Dette gjør det enklere å skifte analyseprogram senere, bruke flere ulike programmer og å analysere historiske data med et nytt program. Løsninger for merking av sider medfører at man låser seg til en leverandør (eng. vendor lock-in).
- Loggfiler inneholder informasjon om besøk av søkeroboter. Selv om disse besøkene ikke bør rapporteres som en del av menneskelig aktivitet, gir de nyttig informasjon til bruk i søkemotoroptimalisering (eng. search engine optimization).
- Loggfiler krever ingen ekstra DNS-oppslag, og krever dermed ikke noen ekstra kall mot server som kan resultere i forsinkelser eller sidevisninger som ikke blir talt.
- En webserver lagrer alle dens transaksjoner/kall på en pålitelig måte. Merking av websider klarer ikke alltid å registrere alle transaksjoner, og årsakene er flere:
- Sidemerking avhenger av at den besøkendes nettleser samarbeider, noe en del nettlesere ikke gjør (blant annet fordi JavaScript ikke er skrudd på, eller at host-filen ikke tillater forespørsler mot enkelte servere).
- Noen sider blir ikke merket, enten ved en forglemmelse, eller at det blir oversett blant alle andre merkinger på samme side
- Noen sider lar seg rett og slett ikke merke. Eksempler på dette kan være statiske PDF-dokumenter eller sider som er generert av en applikasjon hvor merking ikke kan inkluderes i den genererte siden.
Fordeler med merking av websider
Hovedfordelene ved å bruke merking av sider fremfor loggfilanalyse, er som følger:
- JavaScriptet kjører hver gang siden lastes, og dermed unngås en del bekymringer knyttet til caching.
- Det er enklere å legge tilleggsinformasjon i JavaScriptet, som igjen kan samles inn av en ekstern server. Eksempler på slik informasjon kan være den besøkendes skjermoppløsning, eller prisen på varen de akkurat kjøpte. Med loggfilanalyse er man nødt til å endre URL for å samle og lagre data som vanligvis ikke blir lagret.
- Sidemerking kan rapportere hendelser som ikke involverer en serverforespørsel. Eksempler på slike hendelser kan være interaksjoner i en Flash-film, skjemaer som blir delvis utfylt, data om musbevegelser slik som onClick, onMouseover, onFocus, onBlur etc.
- Sidemerkingstjenesten styrer prosessen med å tilegne den besøkende cookies. Med loggfilanalyse på serveren konfigureres for å håndtere dette
- Sidemerking kan brukes av selskaper som ikke har tilgang til egne webservere.
Økonomiske faktorer
Loggfilanalayse blir nesten alltid utført av selskapet selv (in-house). Sidemerking kan utføres in-house, men er oftest levert som en tredjeparts-tjeneste. De økonomiske forskjellene mellom disse to modellene kan være noe som må tas i betrakning av et selskap som vurderer hvilken løsning de skal velge.
- Loggfilanalyse involverer oftest et engangsinnkjøp av programvare. Det er imidlertid noen leverandører som har introdusert et maksimumsnivå for sidevisninger per år, og som tar ektra betalt for at man skal kunne prosessere informasjon ut over dette. I tillegg til de kommersielle tilbudene, finnes det også flere open-source-programmer for loggfilanalyse, og disse er gratis.
- For å drive loggfilanalyse må du lagre og arkivere dine egne data, hvis mengde ofte vokser seg stor veldig raskt. Selv om hardware-kostnadene er minimale, kan overhead-kostnadene for en IT-avdeling være betydelige. Hvis man for eksempel går tom for diskplass, kan databasen begynne å skrive over gamle posteringer, som ofte ikke lar seg reparere.
- Loggfilanalyse krever at du vedlikeholder programvaren, inkludert oppdateringer og sikkerhets-patcher.
- Leverandører av kompleks sidemerking krever en månedlig avgift basert på volum, det vil si antall sidevisninger som er samlet inn hver måned.
Hvilken løsning som blir den billigste avhenger av graden av teknisk kompentanse i selskapet, hvilken leverandør man velger, aktivitetsnivået på nettstedet, dybden og typen informasjon som søkes og antallet spesifikke webservere som trenger statistikk.
Uavhengig av hvilken leverandørløsning eller datainnsamlingsmetode man velger, må kostnadene til analyse og tolkning av web-besøkende tas med i vurderingen. Med andre ord, kostnaden med å omsette rådata til informasjon som kan brukes til beslutninger. En slik foredling av rådata kan kjøpes fra tredjeparts konsulenter, man kan ansette en erfaren webanalytiker eller man kan lære opp en egnet medarbeider. På bakgrunn av dette kan man gjennomføre kost-nytte-vurderinger; hvilke økte inntekter eller reduserte kostnader kan vi oppnå ved å analysere data fra besøkende på våre websider?