Bits:Metadata

Fra DDHFwiki
Spring til navigationSpring til søgning

Metadata, Syntax, Sektioner og Poster

Vi har valgt et meget lavpraktisk metadata-format til BitArkivet, UTF-8 tekstfiler, men for at gøre det nemmere at behandle filerne systematisk er der foreskrevet både en general syntax og specifikke felter.

Syntax

En metadata fil består af et antal poster og en slutpost.

En post består af en linie med et postnavn efterfulgt af colon og et antal indholdslinier der alle starter med et TAB-tegn og posten afsluttes af en blank linie. F.eks:

Bitstore.Access:[NL]
[TAB]public[NL]
[NL]

Indholdslinier har altid et <TAB> tegn som første tegn - også blanke indholdslinier:

Media.Description:[NL]
[TAB]Harddisk fra "Deep Thought"[NL]
[TAB][NL]
[TAB]Indeholder så vidt vi kan se udelukkende tegnet SM i EBCDIC.[NL]
[NL]

Slutposten skal være de sidste seks tegn i filen og den ser således ud:

*END*[NL]

Sektioner

Posterne i metadatafilerne er inddelt i sektioner og postnavnet består sektionens navn, et punktum og postens navn i sektionen, f.eks:

BitStore.Metadata_version
DDHF.Keyword
Document.Date

Sektionerne #BitStore og #DDHF skal være de første to sektioner, i den rækkefølge og derefter skal følge en eller flere indholdsspecifikke sektioner.

Pt. har vi følgende indholds-specifikke sektioner: #Document, #Media og #Image.

Sektionernes poster er beskrevet herunder.

Generelle & Obligatoriske Sektioner

BitStore

BitStore sektionen indeholder de poster der vedrører lagringen i BitArkivet

BitStore.Metadata_version

Obligatorisk post.

Hvilket version af vores metadata specifikation der er brugt.

Har indholdet 1.0

Denne post skal være den første i en metadata fil.

BitStore.Access

Obligatorisk post.

Adgangskontrol til metadata og objektet, kan have følgende værdier:

  • public - Offentlig adgang
  • private - Adgang for medlemmer (= Logget ind i vores wiki)
  • restricted - Ingen adgang uden Formandens tilladelse.
  • gone - Objektet er udgået af BitArkivet.

Forskellig adgangskontrol til metadata og objekt opnåes ved at at skrive to ord adskilt af skråstreg:

   public/private

Som udgangspunkt tilstræber vi at metadata er så åbne som muligt.

BitStore.Filename

Obligatorisk post.

Hvilket filnavn der bliver brugt når filen downloades.

Filnavnet kan kun indeholde tegnene a-åA-Å0-9_.-

Bitstore.Size

Valgfri post, laves automatisk hvis den mangler.

Objektets størrelse i bytes.

BitStore.Format

Obligatorisk post.

Objektets filformat, f.eks PDF eller ASCII_EVEN.

Mere om dette under Bits:Formater

BitStore.Ident

Forbudt post, laves automatisk.

Objektets nummer i Bitarkivet, f.eks 30000552:1.

Tallet efter kolon tælles en op, hver gang metadata ændres.

Denne post laves og vedligeholdes automatisk.

BitStore.Digest

Valgfri post, laves automatisk hvis den mangler.

SHA256 checksum af objektet.

BitStore.LastEdit

Obligatorisk post.

Dato (YYYYMMDD) og initialer, f.eks 20200206 phk


DDHF

DDHF sektionen indeholder felter der er relevante for alle objekter i BitArkivet.

DDHF.Keyword

Obligatorisk post.

Et antal relevante keywords for objektet, et per linie. Disse keywords bruges til at presentere objektet i wikien. F.eks:

COMAL
RC3600/COMAL

Keywords er som udgangspunkt på engelsk.

Se Bits:Keyword for nuværende sæt af tilladte keywords.

DDHF.Genstand

Valgfri post.

Krydsreference til Genstandsdatabasen, f.eks:

11001475

DDHF.Provenance

Valgfri post, flere linier.

Hvor vi har dette objekt fra, f.eks:

Fra P.E.Mønsteds private samling.

Indholdsspecifikke Sektioner

Document

Dokumenter indeholder tekst og eventuelt tegninger, billede og grafik. (Hvis der udelukkende er tale om et enkelt billede bruges #Image.)

Dokumenter må kun lagres i filformaterne PDF eller ASCII.

Document.Title

Obligatorisk post.

Dokumentets titel, som den er skrevet på dokumentet. F.eks:

Tekniske Beskrivelser for Comet-8 Model 30

Hvis titlen er i flere linier, erstattes linieskift med et komma.

Document.Subtitle

Valgfri post.

Dokumentets undertitel, som den er skrevet på dokumentet.

Flere linier tilladt.

Document.Author

Valgfri post, flere linier.

Dokumentets forfattere, en per linie. F.eks:

P.E.Mønsted
J.P.Pennevisker

Document.Date

Valgfri post.

Dokumentets udgivelsesdato, i det format den er angivet på dokumentet. F.eks:

August 1986

Document.Description

Valgfri post, flere linier.

Fritekst beskrivelse af dokumentet, herunder dataarkæologiske observationer, notater om manglende sider i originalen og anden relevant information. F.eks:

3. version af disse diagrammer, efter mødet på Kronborg.
Side 145 mangler i originalen.

Document.ISBN

Valgfri post.

Dokumentets ISBN nummer (Typisk bøger)

Document.ISSN

Valgfri post.

Dokumentets ISSN nummer (Typisk tidsskrifter)

Document.RCSL

Valgfri post.

Dokumentets RCSL nummer på formatet RCSL-#-$-#, F.eks:

RCSL-43-GL-7538

Husk at bruge det tilhørende #DDHF.Keyword, i dette tilfælde RCSL/43/GL

(XXX: Ja, dette bør automatiseres)


Media

Denne sektion bruges til datamedier af enhver art.

Medier kan lages i følgende formater:

Media.Summary

Obligatorisk post.

Beskrivelse af mediets indhold til wikiens indexsider. F.eks:

DOMUS disk image - Nakskov Gymnasium "0"

Media.RCSL

Valgfri post.

Mediets RCSL nummer, se: #RCSL

Media.Type

Obligatorisk post.

Beskrivelse af det fysiske datamedie, en af:

8mm "Exabyte" magtape
8-hole paper tape
IBM 2315 Disk Cartridge
8" Floppy Disk
5¼" Floppy Disk
3½" Floppy Disk
½" Magnetic Tape
Integrated Circuit
ST506 Disk
SCSI Disk

Media.Model

Valgfri post.

Model- eller typenummer for mediet, f.eks i forbindelse med harddiske. F.eks:

SEAGATE ST32550N

Media.Serial

Valgfri post.

Serienummer for mediet, f.eks i forbindelse med harddiske. F.eks:

01101944s0

Media.Description

Valgfri post.

Fritekst beskrivelse af mediet, herunder hvad der står på labels mv. F.eks:

Mærket "C0T3D0S0" og "/usr/spool"

Media.Geometry

Valgfri post.

Beskrivelse af diskmediers datamæssige geometri.

Dette felt skal gøre det muligt at rekonstruere diskimages med specielle layouts, f.eks floppydiske der har forskellige formatteringer i cylinder nul og på resten af mediet.

Feltet består af et antal "zoner" adskilt med komma, hver zone kan have op til et felt fra den tilladte sekvens af felter. Felterne har alle formatet %d%c.

Sekvensen af felterne er:

c - cylinder
h - hoved
s - sektor
b - bytes

F.eks kan en IBM 8" diskette være beskrevet som:

2h 26s 128b, 76c 2h 15s 256b

Mens en SCSI disk kan være beskrevet som:

2188417s 1024b

Beskrivelsen skal opsummere til #BitStore.size bytes.


Event

Event beskriver en begivenhed, typisk et medlemsmøde hvor der blev givet et antal præsentationer.

Metadata med en Event sektion skal også have EVENT[/*] i DDHF.keywords

Event.Title

Obligatorisk post.

Overskrift for begivenheden, f.eks:

DASK's 50 års jubilæum

Event.Subtitle

Valgfri post

Fritekst til underoverskrifter f.eks:

Medlemsmøde d. 13 feb. 2005

Event.Date

Obligatorisk post.

Dato i YYYYMMDD format

Event.Location

Obligatorisk post.

Hvor begivenheden fandt sted, f.eks

Carlsberg Laboratorierne

Event.Description

Valgfri post.

Fritekst beskrivelse af begivenheden


Presentation

En præsentation eller et foredrag i forbindelse med et Event.

Tilladte formater er PDF (slides) og MPEG (video)

Presentation.Title

Valgfri post, bør bruges hvis præsentationen på nogen måde kan siges at have en titel.

F.eks:

Dankortets historie

Presentation.Subtitle

Valgfri post.

Fritekst felt til underoverskrifter, f.eks:

Fra idé til implementering

Presentation.Speaker

Obligatorisk post.

Foredragsholdere, en per linie.

P.E.Mønsted

Presentation.Bio

Valgfri post.

Biografiske informationer om foredragsholdere, f.eks:

Fregatten Jylland som barn.

Presentation.Abstract

Valgfri post.

Kort opsummering af presentationens indhold.