Metadata Structures of the Bibliographic Universe: Transformation, Interoperability, Conceptualizations, and Quality

Tallerås, Kim

Tallerås, Kim

Doctoral thesis, Peer reviewed

Published version

Åpne

A-18-18-manus-Tallerås-siste.pdf (7.230Mb)

Permanent lenke

https://hdl.handle.net/10642/6622

Utgivelsesdato

2018

Metadata

Vis full innførsel

Samlinger

SAM - PhD i bibliotek- og informasjonsvitenskap [16]

Sammendrag

This PhD dissertation examines different aspects of the quality of bibliographic metadata

structures. In the library field, there is a long tradition of using bibliographic metadata to

organize document collections. It essentially involves describing documents and structuring

these descriptions in a way that optimizes fitness for use. Fitness for use applies to both the

end users of metadata-based information systems and the computers that interpret metadata

algorithmically (e.g., a search or a recommendation system) or in contexts where metadata are

exchanged across systems.

Metadata descriptions and structures are developed according to standards based on the

opportunities and limitations in their technological environment. These standards cover a

variety of use cases and purposes. Consequently, significant resources are being put into

modernizing standards and metadata practices to exploit technological innovations. In the

library sector (and other sectors where metadata are business critical), much of this work in

recent years has been inspired by the principles of Linked Data, which encourage metadata

producers to publish data on the Web according to Web standards.

After years of Linked Data oriented experimentation and development, evaluations from

several perspectives are required. The main purpose of this thesis, therefore, is to provide

updated knowledge in this field of work, based on three main research questions: What are the

main challenges in transforming bibliographic metadata according to Linked Data principles?

What qualities characterize bibliographic metadata published as Linked Data? How do current

users conceptualize entities and relationships in the bibliographic universe?

The questions are examined through four studies. The main challenges of Linked Data

transformations are investigated through a literature review and an experimental case study.

Sets of Linked Data published by four European national libraries are examined through a

statistical study of their structural and semantic characteristics. User conceptualizations are

explored in a study where informants used concept mapping to conceptualize relationships

between selected documents.

The findings show that both published Linked Data and user conceptualizations vary. The

national libraries have chosen different strategies when creating their Linked Data sets. The

data conform to Linked Data principles on a general level, but the divergent implementations

can hinder interoperability across data sets and with the outside world. Some datasets are also

characterized by significant quality problems in completeness and consistency.

A cluster analysis of the user conceptualizations, group participants into two main clusters

and five subclusters. The two main clusters represent conceptualizations applying an

abstracted multi-entity model to relate documents and conceptualizations that relate

documents directly, respectively.

The review of main challenges in Linked Data transformations shows that a significant

challenge concerns the choice of target vocabularies, which must be adapted to the purpose of

the metadata. The experimental case study also shows that the existing data to be transformed

can be characterized by inconsistencies, further affecting the results. This finding is confirmed

by the study of the published Linked Data sets.

The findings indicate that the quality of the large amounts of existing data facilitating access

to cultural heritage collections must be improved and that new practices and standards must

be developed and implemented to prevent new inconsistencies. The variations in user

conceptualizations and models for publishing Linked Data indicate that the further

development of standards and practices should be closely monitored for relevant purposes and

use-case scenarios.

PhD-avhandlingen undersøker ulike kvalitetsaspekter ved bibliografiske metadata. I

bibliotekfeltet har man lange tradisjoner for å bruke bibliografiske metadata til å organisere

dokumentsamlinger. Det innebærer i hovedsak å beskrive dokumenter og om å strukturere

disse beskrivelsene på en måte som optimaliserer brukskvaliteten. Brukskvalitet gjelder både

for sluttbrukere av metadatabaserte informasjonssystemer, for datamaskiner som fortolker

metadata algoritmisk (for eksempel et søke- eller anbefalingssystem) eller i sammenhenger

hvor metadata utveksles på tvers av systemer.

Metadatabeskrivelser og -strukturer utvikles i henhold til standarder. Slike metadatastandarder

har på sin side blitt utviklet på bakgrunn av muligheter og begrensninger i de teknologiske

omgivelsene. De skal gjerne dekke flere bruksområder og nye kommer stadig til. Det legges

derfor vesentlige ressurser inn i å modernisere standarder og metadatapraksis for å kunne

utnytte teknologiske nyvinninger. I biblioteksektoren (og i andre sektorer hvor metadata er

virksomhetskritisk) har mye av dette arbeidet de senere årene latt seg inspirere av prinsipper

for såkalt lenkede data (Linked Data). Dette er prinsipper som oppfordrer

metadataprodusenter til å publisere data på Weben i henhold til gitte Web-standarder.

Moderniseringsarbeidet består både i å utvikle nye lenkede data-vennlige metadatastandarder

og i å transformere eksisterende data i henhold til disse.

Etter noen år med mye eksperimentering, etterlyses evalueringer fra flere hold. Denne

avhandlingens hovedformål er derfor å fremskaffe oppdatert kunnskap på dette feltet.

Utviklingen undersøkes hovedsakelig ut fra tre hovedspørsmål: Hva er hovedutfordringene

ved overgangen til nye bibliografiske metadatapraksiser basert på prinsipper for lenkede data?

Hvilken kvalitet har bibliografiske metadata som er publisert på Weben som lenkede data?

Hvordan konseptualiserer brukere bibliografiske strukturer?

Spørsmålene blir undersøkt gjennom fire studier. Hovedutfordringer ved en overgang til nye

praksiser er undersøkt gjennom en litteraturstudie og et case studie av en eksperimentell

metadatatransformasjon. Eksisterende samlinger med lenkede data, publisert av fire

europeiske nasjonalbibliotek, undersøkes gjennom en statistisk studie.

Brukerkonseptualiseringer er undersøkt gjennom en studie hvor informanter gjennom en

concept mapping-oppgave ble bedt om å angi sammenhenger mellom utvalgte dokumenter.

Funnene viser at både publiserte data og brukerkonseptualiseringer varierer.

Nasjonalbibliotekene har valgt nokså ulike modeller for sine «nye» data. Dataene er gode

lenkede data på et overordnet nivå, men valgene av ulike modeller kan begrense

interoperabiliteten mellom samlingene, og samlet sett mot omverdenen. Enkelte av

datasettene er også preget av betydelige kvalitetsproblemer når det gjelder fullstendighet og

konsistens.

Brukerkonspetualiseringene kan deles inn i to hovedmodeller, men videre i fem nokså ulike

undermodeller av disse. De to hovedmodellene skiller konseptualiseringer som bruker en

multi-entitetsmodell til å relatere dokumenter på et abstrahert nivå, og konseptualiseringer

som relaterer dokumenter direkte. Undersøkelsen av hovedutfordringer ved transformasjonene

viser at en vesentlige utfordring nettopp angår valg av modell, og at dette valget må tilpasses

metadataenes formål. Den viser også at eksisterende data som skal transformeres preges av

inkonsistenser som videre påvirker resultatet. Dette funnet underbygges av studien av de

publiserte lenkede dataene.

Avhandlingen indikerer dermed at kvaliteten ved de store mengdene av eksisterende metadata

må forbedres og at nye praksiser og standarder må utvikles og innføres på en slik måte av de

best mulig forhindrer nye inkonsistenser. Variasjonen i brukerkonseptualiseringer og modeller

for å publisere lenkede data, indikerer at videreutviklingen av standarder og praksiser bør

vurderes nøye opp mot (nye) formål og bruksscenarier.

Utgiver

OsloMet – Oslo Metropolitan University

Serie

OsloMet Avhandling;2018, nr 18

Med mindre annet er angitt, så er denne innførselen lisensiert som Attribution-ShareAlike 3.0 United States