Resilient Networks for Critical Services
Doctoral thesis
Published version
Permanent lenke
https://hdl.handle.net/11250/3151323Utgivelsesdato
2023Metadata
Vis full innførselSamlinger
Sammendrag
Network services play a pivotal role in today’s society, serving the needs of businesses, governments and for individuals in their daily life. While we often take the seamless functionality of the Internet for granted, its growing use by Critical Services underscores the escalating importance of comprehending both resilience and security challenges. The interconnected networks that make up the Internet are operated by various actors such as enterprises, governmental agencies, and content delivery networks (CDNs), in addition to global and local Internet Service Providers (ISPs). Maintaining these network services is a complex task. Numerous components could potentially disrupt the service, and it is essential for network service operators to understand the risks associated with each component. Network security encompasses three fundamental objectives: Confidentiality, Integrity, and Availability [1]. Confidentiality and integrity are often addressed together, due to shared common attack vectors and mitigation solutions. Ensuring availability, however, presents a distinctive challenge. The primary focus of availability is to guarantee that the network service remains operational and usable. Although breaches in confidentiality and integrity can have indirect effects on availability, the nature of risk mitigation strategies differs significantly. In this setting, resilience and redundancy are central concepts. Together, the papers in this thesis analyse the complete risk landscape applicable to delivering a resilient network for critical services. A majority of the research is performed on the Media Network Services (MNS) global video conferencing network, chosen for its relevance to risk management, and the applicability of results to other network operators. Papers I and VI use 18 months of measurement data to analyse the root causes of network outages, revealing that the most important outages stem from leased Internet links, physical faults, and human errors. In contrast, relatively few are attributed to local network faults or malicious attacks. This insight into the root causes serves as a foundational understanding for subsequent analyses. Paper II presents 5 years of risk registry data highlighting the role of management standards like ISO27001 in risk reduction, showcasing their efficacy in fostering a robust risk management framework across various organizational levels. Paper III delves into the intricate domain of Internet risks, demonstrating effective mitigation strategies to enhance network resilience against outages, packet loss and high latency originating from the Internet. Paper IV establishes a co-variation between organisations’ security implementations and adherence to two security standards, Mutually Agreed Norms for Routing Security (MANRS) and ISO27001. By verifying Resource Public Key Infrastructure (RPKI) participation, IP spoofer protection, and Internet risk scores for organizations adhering to MANRS and/or ISO27001, we demonstrate that a security-aware company culture is connected to better security practices. Recent paradigm-shifting incidents like COVID-19 and the Russian incursion into Ukraine demonstrate the importance of considering governance risks. Paper VII extends the scope to encompass national governance risks, specifically the high dependency of national web services on foreign micro services and cloud services, highlighting the imperative of considering broader contextual factors. Drawing from the collective insights of these papers, combining the theoretical analyses with experiments on an operational network and real-life experiences, Paper V emerges as a synthesis, proposing an innovative cohesive 10-layer model that pragmatically organizes identified risks. This model stands as a testament to the integration of empirical findings into a practical framework, and the results can be generalized to a range of different networks. By utilizing the 10-layer model, network operators will reduce their availability risk and deliver a higher quality service to their customers.
Nettverkstjenester har en viktig rolle i dagens samfunn. Bedrifter, myndigheter og enkeltpersoner er avhengige av Internett i sitt daglige virke. Nettverkene som til sammen utgjør Internett, driftes av forskjellige aktører som bedrifter, offentlige etater og innholdsnettverk (CDN-er), i tillegg til globale og lokale internettleverandører (ISP-er). Drift av disse nettverkstjenestene er en kompleks oppgave. Tallrike komponenter kan potensielt forstyrre tjenesten, og det er viktig for nettverkstjenesteoperatører å forstå risikoen knyttet til hver komponent. Nettverkssikkerhet omfatter tre grunnleggende mål: konfidensialitet, integritet og tilgjengelighet [1]. Konfidensialitet og integritet blir ofte behandlet sammen, da de har felles angrepsvektorer og løsninger. Å sikre tilgjengelighet er en separat utfordring. Hovedfokuset for tilgjengelighet er å garantere at nettverkstjenesten er operativ og kan brukes. Selv om brudd på konfidensialitet og integritet kan ha indirekte påvirkning på tilgjengelighet, er typen risikoreduserende strategier forskjellig, og redundans er sentralt. Sammen analyserer artiklene i denne avhandlingen det komplette risikolandskapet som skal til for å levere et stabilt nettverk for kritiske tjenester. Store deler av forskningen er utført på Media Network Services’ (MNS) globale videokonferansenettverk. Dette nettverket er valgt på grunn av relevansen for risikostyring, og anvendeligheten av resultater for andre nettverksoperatører. Paper I og VI bruker 18 måneders måledata for å analysere de grunnleggende årsakene til nettverksavbrudd, og avslører at de viktigste bruddene stammer fra leide linjer, fysiske feil og menneskelige feil. Derimot tilskrives relativt få nettverksproblemer til lokale nettverksfeil eller ondsinnede angrep. Denne innsikten i de grunnleggende årsakene fungerer som en basis for etterfølgende analyser. Paper II presenterer 5 år med risikoregisterdata for å fremheve rollen til standarder som ISO27001 for reduksjon av risiko og viser effekten av å implementere et robust rammeverk for risikostyring på tvers av ulike organisasjonsnivåer. Paper III ser på internettrisiko, og demonstrerer effektive avbøtende strategier som forbedrer nettverkets motstandskraft mot avbrudd, pakketap og høy latenstid der årsakene skyldes Internett. Paper IV viser en samvariasjon mellom organisasjoners sikkerhetsimplementeringer og overholdelse av to sikkerhetsstandarder, Mutually Agreed Norms for Routing Security (MANRS) og ISO27001. Ved å verifisere RPKI-deltakelse (Resource Public Key Infrastructure), IP-spooferbeskyttelse og Internett risk score for organisasjoner som følger MANRS og/eller ISO27001, demonstrerer vi at en sikkerhetsbevisst bedriftskultur er koblet til bedre sikkerhetspraksis. Nylige hendelser som COVID-19 og den russiske inntrengningen i Ukraina viser viktigheten av også å vurdere governance-risiko. Paper VII utvider forskningen til å omfatte nasjonale styringsrisikoer, spesielt den store avhengigheten til nasjonale webtjenester av utenlandske mikrotjenester og skytjenester, og understreker nødvendigheten av å vurdere bredere kontekstuelle faktorer. Med utgangspunkt i den kollektive innsikten fra disse artiklene, ved å kombinere de teoretiske analysene med eksperimenter på et operativt nettverk og erfaringer fra det virkelige livet, fremstår Paper V som en syntese, og foreslår en innovativ 10-lags modell som pragmatisk organiserer identifiserte risikofaktorer. Denne modellen integrerer empiriske funn i et praktisk rammeverk, og resultatene kan generaliseres til en rekke ulike nettverk. Ved å bruke 10-lagsmodellen vil nettverksoperatører redusere sin tilgjengelighetsrisiko og levere tjenester av høyere kvalitet til sine kunder.