[{kk|si{ ja ddkkvsid

April 19th, 2013

Vuosien varrella on tullut vastaan monenlaisia ongelmia skandinaavisten kirjainten so. ääkkösten kanssa, kun eri järjestelmissä merkkejä on esitetty eri tavoin, minkä lisäksi etenkin jenkkiperäisillä ohjelmilla oli vuosikymmenten ajan tapana tarkoituksella nollata luetuista merkeistä ylin bitti, jotta luetut tavut varmasti olisivat “kirjaimia”, mikä on aiheuttanut loputtomasti ongelmia muualla. 1987 standardoidun Latin-1:n eli ISO-8859-1:n myötä alettiin 1990-luvun kuluessa päästä hiljalleen eteenpäin yhteensopivuudessa, mutta kun esim. yleisesti käytetty MS-DOS käytti omaa merkistöään, ei tekstin siirtyminen ollut mitenkään itsestään selvää. UTF-8:n myötä ongelmat ehkä lopulta poistuvat, vaikkakin muilla merkistöillä tehtyä vanhaa sisältöä on olemassa niin paljon, että konversiotarve tuskin tulee ikinä täysin katoamaan. Itse käytän merkistöjen ja rivinvaihtojen välillä hyppimiseen GNU Recodea. Jokunen esimerkki vikaan menneistä merkistömuunnoksista:

  • Ookkon{ Oulusta, pelk{{kk|n{ polliisia? Tätä tuli vastaan etenkin opiskelujen alkuvuosina, kun päätteiden skandituki oli toteutettu 7-bittisellä ASCII-koodilla, jossa ÄäÖö oli sijoitettu vähemmän tarpeellisten erikoismerkkien [, {, \ sekä | tilalle. Ei liene vaikea kuvitella, mitä ongelmia tästä seurasi esim. C-koodin kanssa.
  • Ookkond Oulusta, pelkddkkvnd polliisia? Tässä on meneillään yllä kuvattu ylimmän bitin nollaus, joka muuttaa Latin-1:n mukaiset ääkköset 7-bittisen ASCII:n kirjaimiksi D, d, V ja v.
  • Oookkon^Ä Oulusta, pelk^Ä^Äkk^Ôn^Ä polliisia? Tältä näyttävät puolestaan MS-DOSin koodisivujen 437 tai 850 mukaiset skandit Latin-1-merkistössä tarkasteltuina. Tämän kanssa sai askarrella jatkuvasti, kun siirsi tekstiä dossipeeseeltään koulun Unix-koneille tai oman koneen Linux-puolelle.
  • OokkonΣ Oulusta, pelkΣΣkk÷nΣ polliisia? Ja sama toiseen suuntaan.
  • Ookkon Oulusta, pelkkkn polliisia? Joskus epäilyttävät merkit suodatettiin tulostuksesta varmuuden vuoksi kokonaan.
  • Ookkona Oulusta, pelkaakkona polliisia? Eräs strategia olikin varmuuden vuoksi korvata äät ja ööt aalla ja oolla. Huumorilta ei voinut välttyä, kun vaikkapa “näin Petrin tänään”.
  • Ookkonä Oulusta, pelkääkkönä polliisia? Viimeisenä irkistä tuttu tilanne, kun oma asiakasohjelmasi puhuu Latin-1:tä ja joku solkkaa UTF-8:aa: kahdesta tavusta koostuvat merkit näkyvät kahtena eri merkkinä. Aiheesta on käyty kanavilla pitkällisiä keskusteluja päätymättä ikinä mihinkään varsinaiseen konsensukseen.

Sinänsä oikein toimivia, mutta hankalalukuisia ovat lisäksi mm. HTML-koodissa käytetty Ookkonä Oulusta, pelkääkkönä polliisia? sekä webbisivujen osoitteisiin enkoodattu Ookkon%C3%A4%20Oulusta%2C%20pelk%C3%A4%C3%A4kk%C3%B6n%C3%A4%20polliisia%3F. Aivojen mukautuvuudesta kertoo se, kuinka riittävän pitkään vääränlaista merkistöä katseltuaan tilanteeseen tottuu ja sotkun alkaa lukea ääkkösinä ilman eri vaivaa. Lisätietoa merkistöjen ihmeistä vaikkapa Wikipedian Ääkköset-sivulta ja Linuxin Finnish HOWTO:sta.

Filed under: retro,sekalaista,softat

Kommentin kirjoitus

You must be logged in to post a comment.

RSS feed for comments on this post.


Kommenttien virta

Aiheet