Ruters Core Mobility Platform leverer tjenester til mange kunder, blant annet leverandører av IoT-integrasjon for busser, selvstendige team som utvikler nye funksjoner på Kubernetes for kollektivtrafikkbransjen, og medarbeidere som administrerer Ruters daglige drift. Kunden valgte en tilnærming til løsningsarkitektur basert på åpne systemer. De valgte å bygge tjenestene med utgangspunkt i komponenter med åpen kildekode i stedet for å satse på en tett integrasjon med AWS-spesifikke administrerte tjenester. Hensikten er å skape fleksibilitet, slik at Ruter enkelt kan ta over driften av tjenestene i fremtiden hvis de skulle ønske det. Siden så mange mennesker er avhengige av kollektivtrafikk, må man sikre at plattformen alltid er tilgjengelig, derfor er effektiv overvåking avgjørende.
Det finnes flere komplekse krav til overvåking av Core Mobility Platform, siden mange ulike brukere trenger innsyn i komponentene de er ansvarlige for. Ruter og Orange Business valgte Datadog som sitt primære overvåkingsverktøy på grunn av det store utvalget plugin-moduler og muligheten til å korrelere logger og Application Performance Management-data i ett og samme verktøy.
Datadogs plugin-tilnærming gjør det mulig for Ruter og Orange Business å legge til ulike moduler ved behov. I denne casestudien fokuserer vi på de delene av plattformen som Orange Business har overvåkingsansvar for. Dette omfatter den underliggende AWS-infrastrukturen, EC2 Compute, lagring og nettverk. Alle infrastruktur- og overvåkingskomponenter defineres som IaC ved hjelp av HashiCorp Terraform. Dette gjør det enkelt for Ruter og Orange Business å administrere og overvåke ulike miljøer. Ressurser merkes med hvilke clustere og grupper de tilhører. Dette gjør at overvåkingshendelser og -logger automatisk kan knyttes til riktige tjenester etter hvert som skaleringshendelser utløses og nye ressurser startes.
Alle tjenestene som Orange Business administrerer for Ruter, er distribuerte komponenter. Hver av dem har krav knyttet til varierende etterspørsel og fleksibel kapasitet, og forespørsler til tjenesten kan komme fra en rekke ulike brukere. Orange Business overvåker Apache Cassandra-clusterne ved hjelp av algoritmer for statistisk analyse. Disse brukes til å identifisere ekstreme verdier og avvik i matriser for å gi bedre innsikt i hvordan tjenesten brukes, og hvordan tjenestens ytelse er. Orange Business har konfigurert en overvåkingsfunksjon som identifiserer ekstreme verdier ved høy belastning på noder. Dette gjør at Orange Business kan spore bruksmønstre og optimalisere clusteret for å øke ytelsen.
Grafen nedenfor viser et eksempel der ytelsen til en enkeltnode i clusteret avviker fra ytelsen til de andre medlemsnodene. Dette kan tyde på at det er et problem med den aktuelle noden, eller med måten dataene er partisjonert i clusteret på.
Datadog innhenter en rekke matriser fra heterogene kilder. Verktøyet bruker prediktive algoritmer til å forutsi hvordan bestemte matriser vil fortsette å stige eller synke, basert på identifiserte trender.
Orange Business har ansvaret for å administrere de ulike Cassandra-clusterne for Ruter. Ved å forutsi vekst i beregning eller lagring av clusteret kan Orange Business planlegge skalerings- og vedlikeholdsaktivitet før ytelsen begynner å svekkes, uten å basere seg på for store mengder tilgjengelige clusterressurser.
Orange Business bruker Amazon Web Services‘ (AWS) tjeneste for trusselidentifisering, GuardDuty, til kontinuerlig overvåking av Ruters produksjonskontoer for å oppdage eventuell skadelig og uautorisert atferd. GuardDuty bruker maskinlæring basert på et sett med AWS-loggkilder. Når det identifiseres et avvik, vises problemet i AWS Security Hub, noe som gir kunden fullstendig innsyn. Orange Business har integrert AWS Security Hub-varsler med vårt system for tjenesteadministrasjon, og eventuelle varsler vil bli håndtert av Orange Business døgnåpne driftssenter.
Det er mange som forbruker overvåkingsdata innenfor Ruters plattform, men Datadog har gjort det mulig for Orange Business og Ruter å tilby en felles overvåkingsplattform som alle teamene kan bruke. Implementeringen gjør Orange Business i stand til å levere neste generasjons overvåking med avansert statistisk analyse som identifiserer avvik og ekstreme verdier, kommer med prognoser for fremtidig vekst og kan identifisere potensielle kostnadsbesparelser.
Siden dagens produkter hovedsakelig består av distribuerte komponenter, gir disse verktøyene bedre oversikt over løsningens status og generelle tilstand. Det forenkler prosessen med å identifisere den underliggende årsaken til problemer i forbindelse med hendelseshåndtering.