Learning to rank i folkebibliotek

Andersen, Henrik Holtvedt

Andersen, Henrik Holtvedt

Master thesis

Published version

Åpne

Andersen_MBIB_2023.pdf (1.186Mb)

Permanent lenke

https://hdl.handle.net/11250/3090644

Utgivelsesdato

2023

Metadata

Vis full innførsel

Samlinger

SAM - Master i Bibliotek- og informasjonsvitenskap [158]

Sammendrag

Denne oppgaven har som mål å skape rangeringsmodeller via metoden Learning to Rank, og den vil undersøke hvordan de kan bidra til å forbedre rangeringen av dokumenter i trefflista i folkebibliotekkatalogen. Learning to Rank bruker maskinlæring til å trene opp en rangeringsmodell. Denne trenger merkelapper (training labels) som den trenes mot. Disse har vi skaffet via menneskeskapte relevansvurderinger av dokument-søketerm-par fra Deichmankatalogen - Norges største folkebibliotek. Sammen med data fra Deichmankatalogen, som er blitt representert på ulike måter via features, har vi trent opp noen modeller med algoritmene LambdaMART og Random forest. Vi evaluerte modellene ved å måle plasseringen av utvalgte dokumenters posisjon på trefflisten med og uten modellene. Resultatene viste at de fleste modellene klarte å forbedre rangeringen av trefflista. Modellen som presterte best var basert på en kombinasjon av popularitetsfaetures og tekst-matching-features. Resultatene viste at Learning to Rank er en lovende metode for å forbedre trefflista i folkebibliotek.

The goal of this thesis is to create ranking modeles based on Learning to Rank and determine if and how they can be used to improve the ranking of materials in a public library catalogue. Learning to Rank is an approach based on machine learning that need labeled data. We used training labels based on human relevance judgements of query-document pairs of materials in the Deichman collection - the biggest public library in Norway. Together with data from its collection, represented as features, we trained several ranking models using the algorithms LambdaMART and Random forest. We evaluated the models by measuring the ranking positions of certain documents with and without using the models. The results showed that most of the models succeeded in improving the ranking. The model with the best results probed to be a model based on a combination of popularity features and text matching. The results indicate that Learning to Rank is a method with much potential to improve the ranking of materials in a public library catalogue.

Utgiver

OsloMet-Storbyuniversitetet