Workflow/Scanninger

Fra DDHFwiki
Spring til navigation Spring til søgning

Scanning

En overordnet guide til at scanne.


Ved såvidt muligt, skal alt scannes i 600dpi, kun hardware begrænsninger bør gøre, at opløsningen skal sættes ned.

For at bevare scanninger, skal hver side gemmes i lossless format. JPG er IKKE et lossless format. JPG laver artefakter, og billedet ændrer sig hver gang det åbnes og der trykkes gem.

Det anbefales at bruge TIFF eller PNG. PNG kan være tungt at indlæse og gemme. TIFF kan komprimeres med forskellige algoritmer.

For at have en gylden mellemvej, mellem performance og bedste komprimering, og stadig holde det i lossless format, anbefales følgende skema for TIFF formatet.

Farve Komprimerings type
Sort/Hvid G4Fax/CCITT.6
Gråtoner LZW
Farver LZW


Andre komprimerings algoritmer kan enten være langsomme til at åbne, eller er i lossless format. Fx JBIG kan være meget tungt i PDF dokumenter, dvs man skal vente længe før man får noget brugbart frem på skærmen.


Det er selvfølgeligt en vurderingssag, hvilken farvetype der scannes i.

Bøger med tekst: er typisk kun for og bagside der skal scannes i farver, resten kan scannes i sort/hvid.

(Trykte) Tidsskrifter: vil være en fordel at scanne i farver/gråtoner.

Elektronik diagrammer: scannes i gråtoner


Er man i tvivl - tommelfinger reglen:

  • Indeholder siden kun tekst: sort/hvid
  • Indeholder siden "sort/hvid" billeder: gråtoner
  • Indeholder siden noget fra avisudklip: sort/hvid
  • Indeholder siden elektronik diagram: gråtoner
  • Indeholder siden farver: farve

Hvordan har trykkeriet bestemt det skal se ud: egen vurderingssag - eksempel en avis kan have gulnet eller gråt papir, men trykket er ment at skulle være sort på hvidt. Her scannes i sort/hvid.

Er man stadig i tvivl, scan i farver. Derfra kan det altid laves til gråtoner eller sort/hvid.

Hvis man scanner andre ting end bøger/blade/manualer oln. Kan det være en rigtig god idé at scanne sit emne med en margen omkring, så bliver det indscannede ikke beskåret. Man kan beskære i efterbehandlingen i stedet. Men der kan sagtens være detaljer i kanten, som man har ønsket at tage med, hvis scannersoftwaren stod for beskæringen.

Backup

Det anbefales altid at arbejde på en kopi af det indscannede, derved kan man altid gendanne fra originalen skulle uheldet være ude.

Det kan med fordel anbefales at gemme både originale scanninger, og sine mellemliggende arbejds filer.

Efterbehandling

Hvis man giver sig tid til at efterbehandle, kan man reducere slutresultatets fil størrelse væsenligt.

Gråtoner kan reduceres til fx 4 eller 8 farver. Diagrammer vises ret godt i 8 farver.

Farve billeder kan reduceres fra 16 mill farver til det antal som siden reelt set skulle gengives i. Mange for-/bagsider af bøger, har typisk meget få antal farver. Farvereduktion, gøres ved at lave billedet om til indekseret mode.

En farveside fra en bog, kan typisk fylde ca 50MB, reduceres antallet af farver, kan den komme ned på 6-8MB. Ved en forside med få farver, kan man gøre den rigtig pæn ved netop at reducere antallet af farver, så er der ikke en masse skygger og struktur, men en ensartet farve, som det var ment skulle være oplevelsen.

Man kan opnå en god oplevelse ved at holde alle sider, med nogenlunde ens størrelse -fx A4-, i samme dimensioner, således når man bladrer igennem siderne, vil man ikke se konstant skift i højde og bredde. Mix mellem fx A4 og A3, som kan være tilfældet i en teknisk manual med elektronik diagrammer, er dog en ok blanding, sålænge de forskellige A4 sider har sammen dimensioner, det samme gælder for A3 sider i nævnte eksempel.

Slut resultat

Siderne samles og konverteres til PDF.

Tidsskrifter kan fylde rigtigt meget, og for at holde et komprimis, kan opløsningen på disse sænkes til 300dpi. Er filerne stadig alt for store, kan man reducere antallet af farver pr side. Eller konvertere hver side til jpg. De danske Commodore blade er konverteret til JPG med 95% kvalitet/komprimering, før de blev lavet om til PDF. JPG artefakter er næsten ikke til at se.

Optical Character Recognition

Alle PDF dokumenter med tekst bør have OCR udført på dem inden de lægges op i Bitarkivet eller Wikien.

Hvis man kun har et par filer, så findes der gratis tjenester på Internettet. Søg efter "Online OCR". Forventer man at have mange filer kan det bedre betale sig at installere et program lokalt. F.eks. findes der OCRmyPDF til Linux, FreeBSD, macOS og Windows.

Når du laver OCR, er det særdeles vigtigt at angive en sprogkode. Hvis læseren tror teksten er på engelsk vil den antage at æ, ø og å ikke er mulige bogstaver. Derudover bruger den stavekontrol til at korrigere indlæste ord. Og endeligt, hvis det er muligt, så sæt en titel og forfatter ind som metadata på PDF dokumentet.

Arkivering

  • Hvis ting skal bevares digitalt skal de i bitarkivet.

Eksterne links

RCEU (The rules of) Scanning for Preservation

RCEU Scanning Tutorials