mandag den 28. september 2015

Internetlogning, lokationer og dig

Efter 849 dage dukkede der en USB-stick op i min postkasse. Det har været et meget langstrakt forløb, og jeg har nu foreløbigt fået udleveret sessionslogningsdata fra min daværende teleudbyder, ca. dækkende året 2013. Sessionslogningen er i mellemtiden blevet afskaffet, og data skal nu ses som et unikt indblik i, hvad man kan udlede om mig baseret på den form for logning. Data er særligt anvendelige, da det lader til at være en komplet logning af alle IP-forbindelser, da min forbindelse har været gemt bag ved CG-NAT og logningen har været baseret på NAT-sessioner. Analysen heraf pågår på et senere tidspunkt, da jeg i første omgang ønsker at afklare en spørgsmål omkring lokationslogning for internet-aktiviteter.

Ifølge den daværende logningsbekendtgørelse var udbyderne forpligtet til at logge følgende:

For telefoni, SMS og MMS (telelogning, § 4 stk. 1):

  • Tidspunkt og varighed for kommunikationen
  • Involverede telefonnumre
  • Udstyrsidentifikation i form af IMSI og IMEI
  • Første og sidste mast for mobiltelefoner

For internetadgang (internetlogning, § 5 stk. 2):

  • Den tildelte IP-adresse og evt. telefonummer
  • Tidspunkt og varighed for kommunikationen

For internetaktivitet (sessionslogning, § 5 stk. 1):

  • Tidspukt og varighed af kommunktationen
  • Involverede IP-adresser og portnumre, samt transportprotokol

Sessionslogningen blev ophævet i 2014, men et interessant spørgsmål omkring internetlogning og lokation eksisterer stadig. Både for internetlogning og sessionslogningen er der ikke noget krav om logning af hvilke master evt. mobile enheder har været i kontakt med. Dette bekræftes i et svar til Folketinget og uddybes i et svar til Erhvervsstyrelsen, som jeg har fået aktindsigt i (side 12 frem). Samme problemstilling blev beskrevet i en artikelserie i Information tidligere på måneden.

"Datastreng"

Derfor var det med en vis undring, at man kunne læse i Rigspolitiets redegørelse om logningsreglerne fra december 2012:

Sessionsdata indeholder i medfør aflogningsbekendtgørelsen geografisk information, og gerningsmandens færden kan dermed kortlægges i videre omfang, end det ville have været muligt ved hjælp af historiske teleoplysninger, da telemasterne kun registrerer trafik, der genereres ved aktiv anvendelse af telefonen.

Dette affødte et spørgsmål fra Folketinget, hvor Rigspolitiet svarer at der var tale om en misforståelse, men at det var internetlogningen, som krævede at de registerede lokationer i forbindelse med internetforbindelser.

Som nævnt i redegørelsens pkt. 5.5.1.2 har TDC implementeretet nyt og forbedret system til logning af oplysninger. Dette system samler data indhentet i medfør af logningsbekendtgørelsens § 4 (oplysninger om fastnet- og mobiltelefonikommunikation) og logningsbekendtgørelsens § 5 (internetsessionsdata) tilén samlet såkaldt ”datastreng”. ”Datastrengen” indeholder således både data fra internetsessionen og information om, hvilken mast mobiltelefonen betjente sig af på tidspunktet for kommunikationen.

I de sessionslogningsdata jeg har fået udleveret, er denne "datastreng" tydelig at se, da der er tale om .csv-filer hvor ovenstående beskrivelse passer på. Sessionslogningen af IP-forbindelser foregår tilsyneladene i NAT-gatewayen. Disse data "parres" så med data fra internetlogningen (hvem er tildelt en given RFC1918-IP-lease). Og i internetlogningen er lokationer tilsyneladende registeret, til trods for dette ikke er nødvendigt.

For at beskrive det med SQL:

SELECT * 
   FROM sessionslog 
   LEFT JOIN internetlog 
      ON sessionslog.sourceaddress = internetlog.ip 
         AND sessionslog.starttime > internetlog.leasestarttime 
         AND sessionslog.endtime < internetlog.leaseendtime

Således ser det ud til at følgende data kommer fra internetlogningen:

  • leasestarttime
  • leaseendtime
  • start_cell_id
  • start_cell_id_text (adresse på mast, vinkel fra mast og UTM32N koordinater)
  • end_cell_id
  • end_cell_id_text
  • ip (altid en rfc1918 IP)
  • imsi

Og følgende data bliver registeret, som følge af sessionslogningen:

  • starttime
  • endtime
  • sourceaddress (samme rfc1918 IP)
  • destinationaddress
  • destinationport
  • natsourceaddress
  • natsourceport
  • protocol
  • elapsedtime

Alt dette ændrer naturligvis ikke på, at lokationer naturligvis ikke skal logges som en del af internetadgang på mobiler. Omvendt må teleselskaberne slet ikke registrere denne slags oplysninger, hvis der ingen årsag er til dette. Det følger af Udbudsbekendgørelsens § 23, stk. 1 og § 24, stk. 1. Jeg håber Erhvervsstyrelsen får afklaret dette over for teleudbyderene.

Hvor ofte udløses denne logning

Da sessionslogningen kommer i form af .csv-filer (106 MB!), er det nemt at lave datamining herpå. Et naturligt opfølgende spørgsmål er derfor: Hvor ofte registreres vores lokation på baggrund af internetlogning.

Efter at have kigget på mine egne data, kan jeg udlede, at min lokation registreres op til 25-30 gange om dagen, som følge af internetlogningen alene, men variabiliten er enorm. Hvis man kigger på hvornår registreringerne finder sted på dagen og hvor lang tid der går til næste lokation registreres, så er det tydeligt at det primært er i de vågne timer, at disse registreringer finder sted.

Lease length

Min formodning er, at når man bevæger sig rundt, mistes forbindelsen til internettet kortvarigt (fx. skift fra 4G til EDGE), hvorved man bliver tildelt en ny IP-adresse. I mine data kan jeg se en forøget logningsfrekvens, når jeg pendler frem og tilbage fra arbejde, samt når jeg er på arbejde (dårlig dækning i bygning). Der er ligeledes en reduceret frekvens i weekenderne. Med andre ord, øges lokationssamplingshastigheden automatisk med at man bevæger sig rundt. Sikkert utilsigtet, men ganske smart hvis man vil holde øje med befolkningen.