Fremtidens forskning? Bruk av maskinlæringsverktøy for studieseleksjon til systematiske oversiktsartikler
Abstract
Sammendrag
Bakgrunn: For å sikre tilgang til høyest mulig grad av evidens i klinisk praksis har det blitt løftet frem et behov for hurtigere produksjon av systematiske oversiktsartikler. Kunstig intelligens kan potensielt benyttes for å automatisere deler av prosessen. Dette er særlig aktuelt ved studieseleksjon, hvor arbeidsbelastningen kan reduseres med 30-70%. Formålet med oppgaven var derfor å vurdere prestasjonen til maskinlæringsverktøyet i et nettbasert verktøy (Rayyan) for automatisering av studieseleksjonen til en systematisk oversiktsartikkel om prognostiske modeller for degenerativ ryggkirurgi.
Metode: Evnen maskinlæringsverktøyet har til å identifisere relevante artikler ble sammenlignet med menneskelige vurderinger. De 7994 aktuelle artiklene ble manuelt sortert til kategoriene inkludert eller ekskludert i 20% nivåer. Etter hvert nivå ble maskinlæringsverktøyet brukt til å rangere de resterende artiklene etter relevans (fra 0.5 til 4.5 stjerner). To ulike grenseverdier for eksklusjon av artikler ble brukt: <2.5 og ≤2.5 stjerner. Utfallsmålene som ble brukt for å vurdere prestasjonen var sensitivitet, spesifisitet, positiv prediktiv verdi og negativ prediktiv verdi.
Resultat: Med en grenseverdi på <2.5 stjerner ble best prestasjon oppnådd etter manuell sortering av 60% av studiene, med en sensitivitet på 100% og spesifisitet på 68%. Allerede etter 20% manuell sortering var sensitiviteten over 96%, men spesifisiteten 38%. Tilsvarende var negativ prediktiv verdi høy og positiv prediktiv verdi lav ved alle nivåer. Dersom også artiklene med 2.5 stjerner ble ekskludert oppnådde maskinlæringsverktøyet nær perfekt spesifisitet ved alle nivåer (≥99.8%), men maksimalt 54.6% sensitivitet (etter sortering av 60%).
Konklusjon: Maskinlæringsverktøyet i Rayyan presterte godt nok til å kunne automatisk ekskludere en andel irrelevante artikler med en grenseverdi på <2.5 stjerner, og kan dermed potensielt redusere arbeidsbelastningen ved studieseleksjon til en systematisk oversiktsartikkel på prognostiske modeller for degenerativ ryggkirurgi. Menneskelige vurderinger er likevel fremdeles i stor grad nødvendig og videre utvikling av verktøyet er essensielt før full automatisering av oppgaven.
Stikkord: Automatisering, studieseleksjon, systematisk oversiktsartikkel, maskinlæring, Rayyan