Automatisk kategorisering av nyhetsartikler fra to norske aviser
Master thesis
Permanent lenke
https://hdl.handle.net/10642/311Utgivelsesdato
2008Metadata
Vis full innførselSamlinger
Sammendrag
I oppgaven har jeg kjørt forsøk på automatisk kategorisering av artikler fra de to norske aviseneAftenposten og Klassekampen. Jeg har valgt å bruke Support Vector Mashine (SVM) som bygger påteoriene fra maskinlæring. SVM er lært opp med artikler fra Aftenposten der kategorier er satt påmanuelt. Det er å forvente at resultatet av kategoriseringen er bedre når artiklene somkategoriseres, er fra samme kilde som læringsdokumentene. Det ene forsøket mitt gikk derfor utpå å kategorier artikler fra en avis som ikke var brukt i opplæringen (Klassekampen) , og såsammenlikne resultatene herfra med resultatene fra kategorisering av Aftenposten. Forsøket visteet betraktelig dårligere resultat for Klassekampen. Dette var som forventet, det er flere faktorersom spilte inn og disse er diskutert i oppgaven.Det andre forsøket jeg kjørte var for å se om kvaliteten på kategoriseringsmetoden ville holde segover tid, eller om effekten reduseres etter som det blir større avstand mellom tidspunkt foropplæring og tidspunktet for kategoriseringen. Jeg forsøkte dette både for Aftenposten ogKlassekampen. Tidsgapet var på tre måneder. For Aftenposten viste resultatene en liten nedgang ikvaliteten, dette var som forventet. For Klassekampen var resultatene betraktelig bedre etter tremåneder, men her virket nok et litt lite datagrunnlag inn på resultatet.
Beskrivelse
Master i bibliotek- og informasjonsvitenskap