Automatisk klassifikasjon av bøker basert på brukeranmeldelser: Et konsept
Abstract
Bøker har mange egenskaper utover de konkrete egenskapene, som bl.a. tittel, forfatter og emneord. Bøker vekker også følelser og reaksjoner hos leseren. Denne oppgaven tar for seg hvordan følelsene og reaksjonene - også kalt de subtile egenskapene - kan brukes til å anbefale litteratur. Videre er de subtile egenskapene implementert i et gjenfinningssystem for litteratur, slik at de kan søkes opp på samme måte som man slår opp emneord. Det har blitt benyttet et datasett med representasjoner av 2,8 millioner bøker med både ordinære bokdata og brukergenerert innhold fra henholdsvis Amazon.com og LibraryThing.com. Brukergenerert data er ment å skulle avdekke de subtile egenskapene ved bøkene. Undersøkelser har likevel vist at brukergenererte data som anmeldelser, tagger og tallkarakterer i liten grad formidler følelser og reaksjoner. Derimot er brukeranmeldelser bedre egnet for å avdekke bøkers appell. Jeg har basert meg på Joyce G. Saricks rammeverk for bøkers appell og utviklet et konsept ved hjelp av verktøyene Solr og OpenNLP. There are many qualities to books besides their specific characteristics, such as title, author and subject. Books also evoke the readers emotions. This thesis explores how emotions and other subtle qualities can be discovered in user generated data and subsequently used in a system for automatic classification of books. Furthermore, I have developed a system based on Joyce G. Saricks model for classifying the appeal of books by using the tools Solr and OpenNLP. The thesis is based on a data set of 2,8 million books, including their regular characteristics as well as user generated data. These data sets have been collected from Amazon.com and LibraryThing.com. Results indicate that user generated data such as tags and ratings only to a limited extent provide a good picture of a books appeal. On the other hand, reader's reviews seem to be better suited to describe the emotions evoked by a certain book.
Description
Master i bibliotek- og informasjonsvitenskap