Metadata Structures of the Bibliographic Universe: Transformation, Interoperability, Conceptualizations, and Quality
Doctoral thesis, Peer reviewed
Published version
Permanent lenke
https://hdl.handle.net/10642/6622Utgivelsesdato
2018Metadata
Vis full innførselSamlinger
Sammendrag
This PhD dissertation examines different aspects of the quality of bibliographic metadata
structures. In the library field, there is a long tradition of using bibliographic metadata to
organize document collections. It essentially involves describing documents and structuring
these descriptions in a way that optimizes fitness for use. Fitness for use applies to both the
end users of metadata-based information systems and the computers that interpret metadata
algorithmically (e.g., a search or a recommendation system) or in contexts where metadata are
exchanged across systems.
Metadata descriptions and structures are developed according to standards based on the
opportunities and limitations in their technological environment. These standards cover a
variety of use cases and purposes. Consequently, significant resources are being put into
modernizing standards and metadata practices to exploit technological innovations. In the
library sector (and other sectors where metadata are business critical), much of this work in
recent years has been inspired by the principles of Linked Data, which encourage metadata
producers to publish data on the Web according to Web standards.
After years of Linked Data oriented experimentation and development, evaluations from
several perspectives are required. The main purpose of this thesis, therefore, is to provide
updated knowledge in this field of work, based on three main research questions: What are the
main challenges in transforming bibliographic metadata according to Linked Data principles?
What qualities characterize bibliographic metadata published as Linked Data? How do current
users conceptualize entities and relationships in the bibliographic universe?
The questions are examined through four studies. The main challenges of Linked Data
transformations are investigated through a literature review and an experimental case study.
Sets of Linked Data published by four European national libraries are examined through a
statistical study of their structural and semantic characteristics. User conceptualizations are
explored in a study where informants used concept mapping to conceptualize relationships
between selected documents.
The findings show that both published Linked Data and user conceptualizations vary. The
national libraries have chosen different strategies when creating their Linked Data sets. The
data conform to Linked Data principles on a general level, but the divergent implementations
can hinder interoperability across data sets and with the outside world. Some datasets are also
characterized by significant quality problems in completeness and consistency.
A cluster analysis of the user conceptualizations, group participants into two main clusters
and five subclusters. The two main clusters represent conceptualizations applying an
abstracted multi-entity model to relate documents and conceptualizations that relate
documents directly, respectively.
The review of main challenges in Linked Data transformations shows that a significant
challenge concerns the choice of target vocabularies, which must be adapted to the purpose of
the metadata. The experimental case study also shows that the existing data to be transformed
can be characterized by inconsistencies, further affecting the results. This finding is confirmed
by the study of the published Linked Data sets.
The findings indicate that the quality of the large amounts of existing data facilitating access
to cultural heritage collections must be improved and that new practices and standards must
be developed and implemented to prevent new inconsistencies. The variations in user
conceptualizations and models for publishing Linked Data indicate that the further
development of standards and practices should be closely monitored for relevant purposes and
use-case scenarios. PhD-avhandlingen undersøker ulike kvalitetsaspekter ved bibliografiske metadata. I
bibliotekfeltet har man lange tradisjoner for å bruke bibliografiske metadata til å organisere
dokumentsamlinger. Det innebærer i hovedsak å beskrive dokumenter og om å strukturere
disse beskrivelsene på en måte som optimaliserer brukskvaliteten. Brukskvalitet gjelder både
for sluttbrukere av metadatabaserte informasjonssystemer, for datamaskiner som fortolker
metadata algoritmisk (for eksempel et søke- eller anbefalingssystem) eller i sammenhenger
hvor metadata utveksles på tvers av systemer.
Metadatabeskrivelser og -strukturer utvikles i henhold til standarder. Slike metadatastandarder
har på sin side blitt utviklet på bakgrunn av muligheter og begrensninger i de teknologiske
omgivelsene. De skal gjerne dekke flere bruksområder og nye kommer stadig til. Det legges
derfor vesentlige ressurser inn i å modernisere standarder og metadatapraksis for å kunne
utnytte teknologiske nyvinninger. I biblioteksektoren (og i andre sektorer hvor metadata er
virksomhetskritisk) har mye av dette arbeidet de senere årene latt seg inspirere av prinsipper
for såkalt lenkede data (Linked Data). Dette er prinsipper som oppfordrer
metadataprodusenter til å publisere data på Weben i henhold til gitte Web-standarder.
Moderniseringsarbeidet består både i å utvikle nye lenkede data-vennlige metadatastandarder
og i å transformere eksisterende data i henhold til disse.
Etter noen år med mye eksperimentering, etterlyses evalueringer fra flere hold. Denne
avhandlingens hovedformål er derfor å fremskaffe oppdatert kunnskap på dette feltet.
Utviklingen undersøkes hovedsakelig ut fra tre hovedspørsmål: Hva er hovedutfordringene
ved overgangen til nye bibliografiske metadatapraksiser basert på prinsipper for lenkede data?
Hvilken kvalitet har bibliografiske metadata som er publisert på Weben som lenkede data?
Hvordan konseptualiserer brukere bibliografiske strukturer?
Spørsmålene blir undersøkt gjennom fire studier. Hovedutfordringer ved en overgang til nye
praksiser er undersøkt gjennom en litteraturstudie og et case studie av en eksperimentell
metadatatransformasjon. Eksisterende samlinger med lenkede data, publisert av fire
europeiske nasjonalbibliotek, undersøkes gjennom en statistisk studie.
Brukerkonseptualiseringer er undersøkt gjennom en studie hvor informanter gjennom en
concept mapping-oppgave ble bedt om å angi sammenhenger mellom utvalgte dokumenter.
Funnene viser at både publiserte data og brukerkonseptualiseringer varierer.
Nasjonalbibliotekene har valgt nokså ulike modeller for sine «nye» data. Dataene er gode
lenkede data på et overordnet nivå, men valgene av ulike modeller kan begrense
interoperabiliteten mellom samlingene, og samlet sett mot omverdenen. Enkelte av
datasettene er også preget av betydelige kvalitetsproblemer når det gjelder fullstendighet og
konsistens.
Brukerkonspetualiseringene kan deles inn i to hovedmodeller, men videre i fem nokså ulike
undermodeller av disse. De to hovedmodellene skiller konseptualiseringer som bruker en
multi-entitetsmodell til å relatere dokumenter på et abstrahert nivå, og konseptualiseringer
som relaterer dokumenter direkte. Undersøkelsen av hovedutfordringer ved transformasjonene
viser at en vesentlige utfordring nettopp angår valg av modell, og at dette valget må tilpasses
metadataenes formål. Den viser også at eksisterende data som skal transformeres preges av
inkonsistenser som videre påvirker resultatet. Dette funnet underbygges av studien av de
publiserte lenkede dataene.
Avhandlingen indikerer dermed at kvaliteten ved de store mengdene av eksisterende metadata
må forbedres og at nye praksiser og standarder må utvikles og innføres på en slik måte av de
best mulig forhindrer nye inkonsistenser. Variasjonen i brukerkonseptualiseringer og modeller
for å publisere lenkede data, indikerer at videreutviklingen av standarder og praksiser bør
vurderes nøye opp mot (nye) formål og bruksscenarier.