Linux ja PDF/A

November 18th, 2024

Tulipa opinnäytteiden kanssa vastaan tilanne, että piti saada tavallinen pdf-tiedosto käännettyä pdf/a-standardin mukaiseksi arkistointia varten. Googlausrallin perusteella OCRmyPDF on tässäkin käytössä ystävä – aiemmin olen käyttänyt sitä pelkkään kirjaskannien OCR:ään. Jotakuinkin näin:

ocrmypdf --tesseract-timeout=0 --skip-text input.pdf output.pdf

Jos mukaan täytyy uittaa metadataa, niin niitä saa mukaan seuraavasti: –author “Herra 47”. Muut tunnetut tägit ovat –subject, –title ja –keywords. Tässä vaiheessa kannattanee tehdä jo erillinen skriptitiedosto, koska koko sotku voi olla kohtuuttoman pitkä komentoriville. Näin helpostiko se kävi?

No eipä tietenkään. Verkossa oleva PDF/A-validaattori valittaa, että päivämäärä on väärässä formaatissa. Pikavilkaisulla en keksi, että miksi, mutta ilmeisesti pikepdf:ssä on aiheeseen liittyvä bugi, joka on vasta hiljattain korjattu. Koneeni paketinhallinnasta tulee liian vanha versio, joten eipä onnistu ilman erillistä työkalua. Kaikenlaisia sekavia skriptejä löytyi asian korjaamiseksi, mikä tuntui taas mutkistavan asiaa. Onneksi vastaan tuli myös simppeli metadataeditori Paper Clip, jolla päivämäärän sai tehtyä uusiksi, ja sitten meni jo validointikin läpi.

Filed under: linux,softat

Kommentin kirjoitus

You must be logged in to post a comment.

RSS feed for comments on this post.


Kommenttien virta

Aiheet