From: Petter Reinholdtsen Date: Wed, 15 Nov 2023 08:16:34 +0000 (+0100) Subject: Gjør interne lenker mer unike og oppdater publiseringstidspunkt. X-Git-Url: https://pere.pagekite.me/gitweb/homepage.git/commitdiff_plain/8f97879ff3cd6c0e4c0847cb44d58c7f564d4182?ds=inline Gjør interne lenker mer unike og oppdater publiseringstidspunkt. --- diff --git a/blog/data/2023-11-15-tegnsett-aksess.txt b/blog/data/2023-11-15-tegnsett-aksess.txt index 6a0fe4280b..e1d280a251 100644 --- a/blog/data/2023-11-15-tegnsett-aksess.txt +++ b/blog/data/2023-11-15-tegnsett-aksess.txt @@ -1,6 +1,6 @@ Title: «NÃ¥r «på» blir «pÃ¥»: Et reservoar av tegn sett fra depotet» i tidsskriftet Aksess Tags: norsk, noark5, standard -Date: 2023-11-15 10:00 +Date: 2023-11-15 09:20

For noen uker siden skrev en kamerat og meg en @@ -29,7 +29,7 @@ har vært preget av rot. Noen husker kanskje tilbake til en tid der bokstavene æ, ø og å ofte var ødelagt i e-poster – et klassisk eksempel på tegnsettproblemstilling.

-

«Nå» og «før»

+

«Nå» og «før»

Tid er et skjult problem for depot fordi vi danner dokumentasjon i en kontekst som er preget av å være «nå». Vår forståelse av verden og @@ -54,7 +54,7 @@ mellom datasystemer.

Tegnsettproblemstillingen er satt sammen av fire fasetter; repertoar, representasjon, koding og uttegning.

-

Repertoarer

+

Repertoarer

Repertoar er en samling med tegn og symboler som kan representeres. Tenk norsk alfabet eller japanske piktogrammer, men @@ -85,7 +85,7 @@ skrifttyper har også informasjon om repertoar, men det finnes skrifttyper som kun kobler mellom tallkode og uttegning, uten å fortelle noe om hvordan tallkodene egentlig skal tolkes.

-

Fra ASCII til ISO-8859

+

Fra ASCII til ISO-8859

Vi begynner historien med ASCII (American Standard Code for Information Interchange) som har en historie som spores tilbake til @@ -249,7 +249,7 @@ tegnsett.

Tabell 3. Viser tolkning av verdiene som er tilegnet de norske symbolene i ISO-8859-1 i de andre ISO 8859-variatene. Merk -ISO-8859-12 ikke finnes da arbeidet ble avsluttet.[
1] +ISO-8859-12 ikke finnes da arbeidet ble avsluttet.[1] @@ -402,7 +402,7 @@ kompatibel med ISO-8859-1, men hadde byttet ut plassene fra 127 til har vært i bruk, og hvor vellykket konvertering mellom tegnsett har vært.

-

Unicode som løsning

+

Unicode som løsning

Tegnsettforvirring ble etter hvert et irritasjonsmoment og samvirkeproblem. Ofte fikk man en e-post der æøå var erstattet av rare @@ -420,7 +420,7 @@ har i Unicode-katalogen. Her finner vi tegn brukt av både levende og døde språk, konstruerte språk, tekniske symboler, morsomme tegninger (såkalte emojier) og tegn ingen vet hva betyr eller skal brukes til. Et morsomt eksempel er i nettartikkelen: U+237C ⍼ RIGHT ANGLE -WITH DOWNWARDS ZIGZAG ARROW, av Jonathan Chan.[2]

+WITH DOWNWARDS ZIGZAG ARROW, av Jonathan Chan.[2]

Sammen med Unicode kom det tre måter å kode disse tallene på; UTF-8, UTF-16 og UTF-32. Av datatekniske årsaker er UTF-8 mye brukt, spesielt @@ -437,10 +437,10 @@ gyldig bruk av Unicode, selv om det er tradisjon for å foretrekke å «normalisere» kombinasjoner som enkelttegn der det er mulig, nettopp for å forenkle søk.

-

Bare Unicode fremover

+

Bare Unicode fremover

Forvaltningens bruk av tegnsett er regulert i Forskrift om -IT-standarder i offentlig forvaltning[3]. Her står det: «Ved all +IT-standarder i offentlig forvaltning[3]. Her står det: «Ved all utveksling av informasjon mellom forvaltningsorganer og fra forvaltningsorgan til innbyggere og næringsliv skal tegnsettstandarden ISO/IEC 10646 representert ved UTF8 benyttes.» Det er forskjellige @@ -494,7 +494,7 @@ som ble brukt. Et eksempel på dette er €-symbolet, som kom først etter at ISO-8859-1 var tatt i bruk. Det kan bli en utfordring for et depotarkiv, men så lenge det er kjent hvilket tegnsett var i bruk, så bør det gå bra. Riksarkivarens -forskrift[4] +forskrift[4] formaliserer dette ved å kreve følgende:

@@ -517,7 +517,7 @@ formaliserer dette ved å kreve følgende:

-

Ditt ansvar

+

Ditt ansvar

På mange måter burde ikke tegnsett være et problem i 2023, men sånn er det nok ikke. Land som har oppgradert til UTF-8 som primærtegnsett for @@ -537,13 +537,13 @@ være UTF-8 for alle nye systemer.


-

1. Tegnsettkilde https://en.wikipedia.org/wiki/ISO/IEC_8859

+

1. Tegnsettkilde https://en.wikipedia.org/wiki/ISO/IEC_8859

-

2. https://ionathan.ch/2022/04/09/angzarr.html

+

2. https://ionathan.ch/2022/04/09/angzarr.html

-

3. https://lovdata.no/dokument/SF/forskrift/2013-04-05-959/%C2%A78#%C2%A78

+

3. https://lovdata.no/dokument/SF/forskrift/2013-04-05-959/%C2%A78#%C2%A78

-

4. https://lovdata.no/forskrift/2017-12-19-2286/§5-11

+

4. https://lovdata.no/forskrift/2017-12-19-2286/§5-11