Petter Reinholdtsen - Entries from November 2023

Â«NÃ¥r Â«pÃ¥Â» blir Â«pÃÂ¥Â»: Et reservoar av tegn sett fra depotetÂ» i tidsskriftet Aksess

Wed, 15 Nov 2023 09:20:00 +0100

For noen uker siden skrev en kamerat og meg +en +artikkel om tegnsett i +arkivtidsskriftet +Aksess bÃ¥de pÃ¥ web og i papirutgave nr. 3 2023. Her er det som +nettopp ble publisert.

+ +

+ +
NÃ¥r Â«pÃ¥Â» blir Â«pÃÂ¥Â»: Et reservoar av tegn sett fra +depotet
+ +
av Thomas SÃ¸dring og Petter Reinholdtsen
+ +
De fÃ¦rreste av oss tenker over hva som skjer dypere i datamaskinen +mens vi sitter der og skriver noe pÃ¥ tastaturet. NÃ¥r du trykker pÃ¥ +tasten Â«ÃÂ», sÃ¥ vises bokstaven Ã. Men noen ganger blir det +feil. Hvorfor det â og hva er viktig Ã¥ vÃ¦re klar over i +arkivsammenheng?
+ +
Dersom bokstaver tolkes forskjellig mellom systemer, blir det fort +rot, dette kalles mojibake blant kjennere, etter det japanske +uttrykket for tegnomforming. Det er en lang historie her som tidvis +har vÃ¦rt preget av rot. Noen husker kanskje tilbake til en tid der +bokstavene Ã¦, Ã¸ og Ã¥ ofte var Ã¸delagt i e-poster â et klassisk +eksempel pÃ¥ tegnsettproblemstilling.
+ +
Â«NÃ¥Â» og Â«fÃ¸rÂ»
+ +
Tid er et skjult problem for depot fordi vi danner dokumentasjon i +en kontekst som er preget av Ã¥ vÃ¦re Â«nÃ¥Â». VÃ¥r forstÃ¥else av verden og +bruken av teknologi er utgangspunktet for denne konteksten. Tenk selv +hvordan verden har utviklet seg de siste 20 Ã¥rene, hva samfunnet er +opptatt av, og hvordan vi bruker teknologi i hverdagen. Tid er et +skjult problem fordi nÃ¥r vi trekker dokumentasjon ut av systemer og +deponerer for langtidsbevaring, er konteksten til materialet Â«nÃ¥Â», men +verden gÃ¥r videre. Ettersom teknologien og mÃ¥ten vi bruker den pÃ¥, +utvikler seg, blir Â«nÃ¥Â» til Â«fÃ¸rÂ», og dokumentasjonen befinner seg +snart i en Â«fÃ¸rÂ»-kontekst.
+ +
Dette med Â«fÃ¸rÂ» og Â«nÃ¥Â» i forhold til dokumentasjonens kontekst er +noe vi er veldig lite bevisste pÃ¥, men det er en problemstilling +depotarkivene eier og forvalter. En av disse utfordringene er hvorfor +Â«ÃÂ» ikke nÃ¸dvendigvis er det samme som Â«ÃÂ», og hvorfor det i det hele +tatt gir mening Ã¥ si noe sÃ¥nt. Vi snakker her om noe som heter +tegnsett, som er en avtalt mÃ¥te Ã¥ representere bokstaver, tall og +andre symboler pÃ¥ slik at vi pÃ¥ en feilfri mÃ¥te kan utveksle tekst +mellom datasystemer.
+ +
Tegnsettproblemstillingen er satt sammen av fire fasetter; +repertoar, representasjon, koding og uttegning.
+ +
Repertoarer
+ +
Repertoar er en samling med tegn og symboler som kan +representeres. Tenk norsk alfabet eller japanske piktogrammer, men +ogsÃ¥ matematiske og elektroniske symboler. Bokstaven Â«stor aÂ» kan vÃ¦re +en oppfÃ¸ring i et slikt repertoar. For Ã¥ kunne brukes i en datamaskin +trenger hver oppfÃ¸ring i et slikt repertoar en representasjon, hvilket +i datamaskinsammenheng betyr at det tilordnes et tall. Tallet kan +lagres pÃ¥ ulike vis i en eller flere kodingsformater. For eksempel kan +en skrive tallet ti som bÃ¥de 10, X og A, i henholdsvis +titallssystemet, romertallssystemet og sekstentallssystemet.
+ +
Hvis en skal kunne lese inn filer og vite hvilket tall og hvilken +representasjon og instans i et repertoar det er snakk om, sÃ¥ mÃ¥ en +vite hvordan tallet er kodet. Sist, men ikke minst, for Ã¥ kunne bruke +symbolet til noe mÃ¥ det kunne vÃ¦re kjent hvordan det skal se ut eller +tegnes pÃ¥ ark. Det finnes utallige skrifttyper med norske bokstaver, +alle litt forskjellige, og skal en kunne tegne en stor A pÃ¥ skjermen, +sÃ¥ mÃ¥ datamaskinen vite hva den skal tegne. Skrifttyper inneholder +informasjon om hvordan ulike tall skal tegnes. De inneholder ikke +alltid alle symbolene som er brukt i en tekst, hvilket gjÃ¸r at ikke +alle forstÃ¥tte tegn vil kunne vises pÃ¥ skjerm eller ark.
+ +
Hver av disse fasettene mÃ¥ vÃ¦re avklart for Ã¥ kunne ta vare pÃ¥ og vise +frem tekst med en datamaskin. Kombinasjon av repertoar, representasjon +og koding er det en kaller et tegnsett. Kombinasjonen av +representasjon og uttegning kalles en skrifttype. De fleste +skrifttyper har ogsÃ¥ informasjon om repertoar, men det finnes +skrifttyper som kun kobler mellom tallkode og uttegning, uten Ã¥ +fortelle noe om hvordan tallkodene egentlig skal tolkes.
+ +
Fra ASCII til ISO-8859
+ +
Vi begynner historien med ASCII (American Standard Code for +Information Interchange) som har en historie som spores tilbake til +1963. Utgangspunktet til ASCII var at det kunne kode opp til 128 +forskjellige symboler i vanlig bruk i USA. De visuelle symbolene i +ASCII er de smÃ¥ og store bokstavene (a til z og A til Z), tall (0 til +9) og tegnsettingssymboler (for eksempel semikolon, komma og +punktum). ASCII har ogsÃ¥ noen usynlige symboler som ble brukt for +bl.a. kommunikasjon. FÃ¸r ASCII var det for eksempel teleks-tegnsett +med plass til bare 32 tegn og EBCDIC med plass til 256 tegn, alle med +en helt annen rekkefÃ¸lge pÃ¥ symbolene enn ASCII, men de har vÃ¦rt lite +brukt de siste femti Ã¥rene. Et eksempel pÃ¥ noen utvalgte symboler i +repertoaret til ASCII vises i tabell 1.
+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
Tabell 1. Eksempel pÃ¥ utvalgte symboler hentet fra +ASCII-tegnsettet. Kolonnen Â«BinÃ¦rÂ» viser symbolets verdi i +totallssystemet (1 og 0 tall), mens kolonnen Â«DesimalÂ» viser symbolets +verdi i titallssystemet.
Grafisk BinÃ¦r Desimal
A 1000001 65
M 1001101 77
Z 1011010 90
a 1100001 97
m 1101101 109
z 1111010 122
0 0110000 48
9 0111001 58
; 0111011 59
+ +
Det opprinnelige ASCII-tegnsettet ble ogsÃ¥ omtalt som ASCII-7 og +brukte 7 bits (0 og 1) for Ã¥ representere symboler. Datamaskiner er +ofte konfigurert til Ã¥ jobbe med enheter der bits er gruppert som 4 +eller 8 bits . Det lÃ¥ en mulighet i Ã¥ ta i bruk bit Ã¥tte. En slik +endring ville gjÃ¸re det mulig for datamaskiner Ã¥ Ã¸ke antall symboler +de kunne representere, noe som ga en Ã¸kning fra 128 forskjellige +symboler til 256 forskjellige symboler. Det ble Ã¥pnet for Ã¥ innlemme +de nordiske bokstavene sammen med ASCII, og dette ble etter hvert +standardisert som ISO-8859-1. Tabell 2 viser deler av ISO-8859-1 som +stÃ¸tter de norske bokstavene.
+ +
Det sier seg selv at muligheten til Ã¥ representere inntil 256 symboler +ikke holder nÃ¥r vi snakker om en global verden, og det ble gjort et +standardiseringslÃ¸p som tok utgangspunkt i ASCII-7 med en utvidelse +til Ã¥ bruke den Ã¥ttende biten for ulike sprÃ¥kgrupper. Denne standarden +heter ISO-8859 og er inndelt i opptil 16 varianter, altsÃ¥ fra +ISO-8859-1 til ISO-8859-16.
+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
Tabell 2. Koding av de norske symbolene slik de er definert i +ISO-8859-1 tegnsettet.
Grafisk BinÃ¦r Desimal
Ã 11000110 198
Ã 11011000 216
Ã 11000101 197
Ã¦ 11100110 230
Ã¸ 11111000 248
Ã¥ 11100101 229
+ +
Norske tegn er definert i ISO-8859-1, som ogsÃ¥ omtales som Latin 1, de +fleste samiske tegn er definert i ISO-8859-4 (Latin 4) mens tilgang +til â¬-symbolet kom med ISO-8859-15 (Latin 9). ISO-8859-15 er en +revisjon av ISO-8859-1 som fjerner noen lite brukte symboler og +erstatter bokstaver som er mer brukt, og introduserer â¬-symbolet. Det +er viktig Ã¥ merke at alle ISO-8859-variantene har overlapp med +ASCII-7, noe som ga samvirke med de engelsksprÃ¥klige landene som ikke +trengte Ã¥ gjÃ¸re noe. Det innebÃ¦rer ogsÃ¥ at de fÃ¸rste 128 verdiene i +ISO-8859-variantene representerer de samme symbolene. Det er fÃ¸rst nÃ¥r +du kommer til tolkningen av de resterende 128 verdiene med nummer 128 +til 255, at det oppsto tolkningsutfordringer mellom +ISO-8859-variantene.
+ +
ISO-8859-verdenen fungerte godt sÃ¥ lenge tegnsettet som ble brukt nÃ¥r +innhold ble skapt, ogsÃ¥ ble brukt nÃ¥r innhold ble gjengitt og du ikke +trengte Ã¥ kombinere innhold fra forskjellige tegnsett i samme +dokument. Utfordringen med bruken av ISO-8859-variantene ble raskt +tydelig i en mer globalisert verden med utveksling av tekst pÃ¥ tvers +av landegrenser der tekstlig innhold i dokumenter, e-poster og +websider kunne bli skrevet med ett tegnsett og gjengitt med et annet +tegnsett.
+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
Tabell 3. Viser tolkning av verdiene som er tilegnet de +norske symbolene i ISO-8859-1 i de andre ISO 8859-variatene. Merk +ISO-8859-12 ikke finnes da arbeidet ble avsluttet.^[1]
BinÃ¦rverdi 1 2 3 4 5 6 7 8 9 10 11 13 14 15 16
11000110 Ã Ä Ä Ã Ð¦ Ø¦ Î Ã Ã à¸¦ Ä Ã Ã Ã
11011000 Ã Å Ä Ã Ð¸ Ø¸ Î¨ Ã Ã à¸¸ Å² Ã Ã Å°
11000101 Ã Ä¹ Ä Ã Ð¥ Ø¥ Î Ã Ã à¸¥ Ã Ã Ã Ä
11100110 Ã¦ Ä Ä Ã¦ Ñ Ù Î¶ × Ã¦ Ã¦ à¹ Ä Ã¦ Ã¦ v
11111000 Ã¸ Å Ä Ã¸ Ñ Ï ×¨ Ã¸ Ã¸ à¹ Å³ Ã¸ Ã¸ Å±
11100101 Ã¥ Äº Ä Ã¥ Ñ Ù Îµ × Ã¥ Ã¥ à¹ Ã¥ Ã¥ Ã¥ Ä
+ +
Denne problemstillingen er illustrert i tabell 3, der vi ser verdiene +tilegnet de norske symbolene i ISO-8859-1 i kolonne Â«1Â». I de Ã¸vrige +kolonnene ser vi hvilket symbol verdien fÃ¥r i de andre +ISO-8859-variantene. Tar vi utgangspunkt i tabell 3, kan vi se at +ordet lÃ¦rlingspÃ¸rsmÃ¥l gjengitt med ISO-8859-2 (kolonne 2) blir +lÄrlingspÅrsmÄºl, mens det blir lÎ¶rlingspÏrsmÎµl med ISO- 8859-7 +(kolonne 7). Med ISO-8859-2 blir Â«Ã¦Â» til Â«ÄÂ», Â«Ã¸Â» til Â«ÅÂ» og Â«Ã¥Â» til + Â«ÄºÂ». I ISO-8859-7 blir Â«Ã¦Â» til Â«Î¶Â», Â«Ã¸Â» til Â«ÏÂ», mens Â«Ã¥Â» blir Â«ÎµÂ».
+ +
Det er egentlig ingen utfordring med dette sÃ¥ lenge du vet hvilket +tegnsett innholdet ditt er representert med, og det ikke har skjedd +omforminger som du ikke er klar over. Det er det siste som er +problematisk, spesielt de datasystemene som har vÃ¦rt i bruk de siste +20 Ã¥rene, som ikke har noe innebygd funksjonalitet for Ã¥ forvalte +tegnsettproblematikken. Et godt eksempel pÃ¥ dette er +Microsoft-tegnsettet Windows-1252, som ble forvekslet som 100 % +kompatibel med ISO-8859-1, men hadde byttet ut plassene fra 127 til +159. Historisk vil det finnes en del variasjon i hvilket tegnsett som +har vÃ¦rt i bruk, og hvor vellykket konvertering mellom tegnsett har +vÃ¦rt.
+ +
Unicode som lÃ¸sning
+ +
Tegnsettforvirring ble etter hvert et irritasjonsmoment og +samvirkeproblem. Ofte fikk man en e-post der Ã¦Ã¸Ã¥ var erstattet av rare +symboler fordi e-posten hadde vÃ¦rt innom et eller annet datasystem som +ikke brukte samme tegnsett.
+ +
For Ã¥ lÃ¸se dette samvirkeproblemet for tegnsett ble det startet et +arbeid og en ny standard sÃ¥ dagens lys etter hvert. Denne standarden +fikk navnet Unicode (ISO/ IEC 10646) og skulle resultere i et tegnsett +som alle skulle vÃ¦re enige om. Unicode er et repertoar og en +representasjon, dvs. navngivning og tilordning av tallverdi til alle +symboler i bruk i verden i dag. OppfÃ¸ringer i Unicode skrives gjerne +U+XXXX der XXXX er tallkoden i sekstentallssystemet som oppfÃ¸ringen +har i Unicode-katalogen. Her finner vi tegn brukt av bÃ¥de levende og +dÃ¸de sprÃ¥k, konstruerte sprÃ¥k, tekniske symboler, morsomme tegninger +(sÃ¥kalte emojier) og tegn ingen vet hva betyr eller skal brukes +til. Et morsomt eksempel er i nettartikkelen: U+237C â¼ RIGHT ANGLE +WITH DOWNWARDS ZIGZAG ARROW, av Jonathan Chan.^[2]
+ +
Sammen med Unicode kom det tre mÃ¥ter Ã¥ kode disse tallene pÃ¥; UTF-8, +UTF-16 og UTF-32. Av datatekniske Ã¥rsaker er UTF-8 mye brukt, spesielt +nÃ¥r det gjelder utveksling av tekst over Internett, mens UTF-16 er +brukt en del til tekstfiler lagret pÃ¥ Windows. En utfordring med +Unicode og UTF-variantene er at disse gir flere mÃ¥ter Ã¥ kode samme +symbol pÃ¥ med en kombinasjonsmekanisme. Dette kan gi utfordringer ved +sÃ¸k, hvis en skal sÃ¸ke etter et ord som har ett eller flere symboler +som kan skrives pÃ¥ ulikt vis, sÃ¥ er det ikke sikkert at sÃ¸kesystemet +vil finne alle forekomster. For eksempel kan bokstaven U+00F8 Â«Latin +Small Letter O with StrokeÂ» kodes som den tradisjonelle norske tegnet +Ã¸, men ogsÃ¥ som o kombinert med skrÃ¥strek U+0338. Begge deler er +gyldig bruk av Unicode, selv om det er tradisjon for Ã¥ foretrekke Ã¥ +Â«normalisereÂ» kombinasjoner som enkelttegn der det er mulig, nettopp +for Ã¥ forenkle sÃ¸k.
+ +
Bare Unicode fremover
+ +
Forvaltningens bruk av tegnsett er regulert i Forskrift om +IT-standarder i offentlig forvaltning^[3]. Her stÃ¥r det: Â«Ved all +utveksling av informasjon mellom forvaltningsorganer og fra +forvaltningsorgan til innbyggere og nÃ¦ringsliv skal tegnsettstandarden +ISO/IEC 10646 representert ved UTF8 benyttes.Â» Det er forskjellige +bruksomrÃ¥der til UTF-8, UTF-16 og UTF-32, men UTF-8 er kodingen vi +kjenner mest til. Det er flere grunner at UTF-8 Â«vantÂ» konkurransen +til Ã¥ bli den utvalgte. Den kanskje viktigste er at UTF-8 er fullt +samvirkende med ASCII-7, slik at den engelsksprÃ¥klige delen av verden +kunne rulle ut UTF-8 uten Ã¥ merke noe forskjell. En tekstfil med kun +ASCII-tekst vil vÃ¦re identisk pÃ¥ disken hvis den lagres som UTF-8 og +ASCII. UTF-16 og UTF-32 byr pÃ¥ noen optimaliseringer som gjÃ¸r dem +relevant for spesifikke problemomrÃ¥der, men for det meste vil vi aldri +oppleve disse standardene pÃ¥ nÃ¦rt hold i hverdagen. Det er uansett kun +bruken av UTF-8 som er lovregulert i Norge.
+ +
Det er ikke slik at hele verden bruker ISO/IEC 10646 og UTF-8. Kina +har egne standarder for tegnsett, mye brukt er GB 18030, som er +Unicode med en annen koding enn UTF-8, mens Taiwan og andre asiatiske +land gjerne bruker Big5 eller andre tegnsett.
+ +
UTF-8 er dominerende i Norge, men det er tidsperioder der forskjellige +datasystemer utvekslet data i henhold til ISO-8859-1, ISO-8859-15, +Windows-1252, Codepage 865 og ISO-646-60 / Codepage 1016 mens +overgangen til UTF-8 pÃ¥gikk. Det er ikke slik at et datasystem enkelt +kan tvinges til Ã¥ bruke et tegnsett, da det er flere lag i et +datasystem som mÃ¥ settes opp til Ã¥ bruke riktig tegnsett, og +tegnsettproblemet fort oppstÃ¥r nÃ¥r det er et eller annet i +datasystemet som bruker feil tegnsett.
+ +
Et klassisk eksempel pÃ¥ problemet er en utveksling av tekst mellom to +systemer der teksten i utgangspunktet er kodet i UTF-8, men gÃ¥r +gjennom noe som er ISO-8859-1 underveis. Dette kan vises med at ordet +Â«pÃ¥Â» i et slik scenario ender opp som Â«pÃÂ¥Â». Det er mulig Ã¥ spore +dette tilbake til verdiene symbolene er tilordnet i tegnsettene. Â«pÃ¥Â» +blir til Â«pÃÂ¥Â» fordi Â«Ã¥Â» i UTF-8 er representert med U+C3AF, og dersom +vi ser pÃ¥ hva disse verdiene representerer, ser vi at +sekstentallssystemverdien C3 er 1100 0011 i totallssystemet og +symbolet med dette tallet i ISO-8859-1 er Ã.
+ +
Vi ser det samme med sekstentallssystemverdien A5, som er 1010 0101 i +totallssystemet, og tilsvarende symbol i ISO-8859-1 er Â¥. Slik +mojibake kan lett skje hvis Â«pÃ¥Â» i utgangspunktet var representert med +UTF-8, men ble behandlet med et system som bruker ISO-8859-1. Det er +ingen automatikk i Ã¥ fange opp slike Ã¸deleggelser mens tekstlig +innhold utveksles mellom datasystemer.
+ +
En utfordring for depotarkivene er at bruken av tegnsett ikke alltid +har vÃ¦rt regulert, og at det kan finnes flere dokumentasjonssamlinger +som er opprettet med varierende tegnsett fÃ¸r gjeldende forskrift +inntraff â uten at det er mulig Ã¥ avlede fra filene hvilket tegnsett +som ble brukt. Et eksempel pÃ¥ dette er â¬-symbolet, som kom fÃ¸rst etter +at ISO-8859-1 var tatt i bruk. Det kan bli en utfordring for et +depotarkiv, men sÃ¥ lenge det er kjent hvilket tegnsett var i bruk, sÃ¥ +bÃ¸r det gÃ¥ bra. Riksarkivarens +forskrift^[4] +formaliserer dette ved Ã¥ kreve fÃ¸lgende:
+ +
+
Â§ 5-11. Tegnsett i arkivuttrekk
+ +
+
Arkivuttrekk og medfÃ¸lgende struktur- og innholdsbeskrivelser skal + overfÃ¸res som ren tekst i ukryptert form, og benytte godkjent + tegnsett.
+ +
Godkjente tegnsett er: +
+
Unicode UTF-8
+ (ISO/IEC 10646-1:2000 Annex D)
+
ISO 8859-1:1998, Latin 1
+
ISO 8859-4:1998, Latin 4 for samiske tegn.
+
+ +
Andre tegnsett aksepteres bare etter avtale med Arkivverket.
+
+
+ +
Ditt ansvar
+ +
PÃ¥ mange mÃ¥ter burde ikke tegnsett vÃ¦re et problem i 2023, men sÃ¥nn er +det nok ikke. Land som har oppgradert til UTF-8 som primÃ¦rtegnsett for +utveksling av tekstlig innhold, begrenser problematikken betraktelig, +men globalt sett sÃ¥ er tegnsettutfordringen ikke lÃ¸st fordi ikke alle +er enige om Ã¥ bruke samme tegnsett. Det kan vÃ¦re geopolitiske eller +kulturelle hensyn som ligger til grunn for dette.
+ +
Det er uansett verdt Ã¥ merke at selv om bruken av UTF-8 skulle bli +100% utbredt, sÃ¥ er det et historisk perspektiv (ASCII-7, +ISO-8859-variantene, UTF-8) her som gjÃ¸r tegnsett til et problemomrÃ¥de +arkivarene mÃ¥ forstÃ¥ og hÃ¥ndtere. Som danningsarkivar har du et +ansvar for Ã¥ vite hvilket tegnsett systemene og databasene dere +forvalter, er i samsvar med. Det er noe IT-avdelingen din eller +programvareleverandÃ¸rene enkelt skal kunne svare pÃ¥, og svaret skal +vÃ¦re UTF-8 for alle nye systemer.
+ +
+ +
1. Tegnsettkilde https://en.wikipedia.org/wiki/ISO/IEC_8859
+ +
2. https://ionathan.ch/2022/04/09/angzarr.html
+ +
3. https://lovdata.no/dokument/SF/forskrift/2013-04-05-959/%C2%A78#%C2%A78
+ +
4. https://lovdata.no/forskrift/2017-12-19-2286/Â§5-11
+ +

Tabell 1. Eksempel pÃ¥ utvalgte symboler hentet fra +ASCII-tegnsettet. Kolonnen Â«BinÃ¦rÂ» viser symbolets verdi i +totallssystemet (1 og 0 tall), mens kolonnen Â«DesimalÂ» viser symbolets +verdi i titallssystemet.
Grafisk	BinÃ¦r	Desimal
A	1000001	65
M	1001101	77
Z	1011010	90
a	1100001	97
m	1101101	109
z	1111010	122
0	0110000	48
9	0111001	58
;	0111011	59

Tabell 2. Koding av de norske symbolene slik de er definert i +ISO-8859-1 tegnsettet.
Grafisk	BinÃ¦r	Desimal
Ã	11000110	198
Ã	11011000	216
Ã	11000101	197
Ã¦	11100110	230
Ã¸	11111000	248
Ã¥	11100101	229

Tabell 3. Viser tolkning av verdiene som er tilegnet de +norske symbolene i ISO-8859-1 i de andre ISO 8859-variatene. Merk +ISO-8859-12 ikke finnes da arbeidet ble avsluttet.^[1]
BinÃ¦rverdi	1	2	3	4	5	6	7	8	9	10	11	13	14	15	16
11000110	Ã	Ä	Ä	Ã	Ð¦	Ø¦	Î		Ã	Ã	à¸¦	Ä	Ã	Ã	Ã
11011000	Ã	Å	Ä	Ã	Ð¸	Ø¸	Î¨		Ã	Ã	à¸¸	Å²	Ã	Ã	Å°
11000101	Ã	Ä¹	Ä	Ã	Ð¥	Ø¥	Î		Ã	Ã	à¸¥	Ã	Ã	Ã	Ä
11100110	Ã¦	Ä	Ä	Ã¦	Ñ	Ù	Î¶	×	Ã¦	Ã¦	à¹	Ä	Ã¦	Ã¦	v
11111000	Ã¸	Å	Ä	Ã¸	Ñ		Ï	×¨	Ã¸	Ã¸	à¹	Å³	Ã¸	Ã¸	Å±
11100101	Ã¥	Äº	Ä	Ã¥	Ñ	Ù	Îµ	×	Ã¥	Ã¥	à¹	Ã¥	Ã¥	Ã¥	Ä

+ +

For Ã¸vrig burde varsleren Edward Snowden fÃ¥ politisk asyl i Norge.

+ +

Som vanlig, hvis du bruker Bitcoin og Ã¸nsker Ã¥ vise din stÃ¸tte til +det jeg driver med, setter jeg pris pÃ¥ om du sender Bitcoin-donasjoner +til min adresse +15oWEoG9dUPovwmUL9KWAnYRtNJEkP1u1b. Merk, +betaling med bitcoin er ikke anonymt. :)

+ +

Oppdatering 2024-08-23: Har fÃ¥tt innspill om at det norske +ordet for japanske mojibake er tegnsalat.

New and improved sqlcipher in Debian for accessing Signal database

Sun, 12 Nov 2023 12:00:00 +0100

For a while now I wanted to have direct access to the +Signal database of messages and +channels of my Desktop edition of Signal. I prefer the enforced end +to end encryption of Signal these days for my communication with +friends and family, to increase the level of safety and privacy as +well as raising the cost of the mass surveillance government and +non-government entities practice these days. In August I came across +a nice +recipe +on how to use sqlcipher to extract statistics from the Signal +database explaining how to do this. Unfortunately this did not +work with the version of sqlcipher in Debian. The +sqlcipher +package is a "fork" of the sqlite package with added support for +encrypted databases. Sadly the current Debian maintainer +announced more than three +years ago that he did not have time to maintain sqlcipher, so it +seemed unlikely to be upgraded by the maintainer. I was reluctant to +take on the job myself, as I have very limited experience maintaining +shared libraries in Debian. After waiting and hoping for a few +months, I gave up the last week, and set out to update the package. In +the process I orphaned it to make it more obvious for the next person +looking at it that the package need proper maintenance.

+ +

The version in Debian was around five years old, and quite a lot of +changes had taken place upstream into the Debian maintenance git +repository. After spending a few days importing the new upstream +versions, realising that upstream did not care much for SONAME +versioning as I saw library symbols being both added and removed with +minor version number changes to the project, I concluded that I had to +do a SONAME bump of the library package to avoid surprising the +reverse dependencies. I even added a simple +autopkgtest script to ensure the package work as intended. Dug deep +into the hole of learning shared library maintenance, I set out a few +days ago to upload the new version to Debian experimental to see what +the quality assurance framework in Debian had to say about the result. +The feedback told me the pacakge was not too shabby, and yesterday I +uploaded the latest version to Debian unstable. It should enter +testing today or tomorrow, perhaps delayed by +a small library +transition.

+ +

Armed with a new version of sqlcipher, I can now have a look at the +SQL database in ~/.config/Signal/sql/db.sqlite. First, one need to +fetch the encryption key from the Signal configuration using this +simple JSON extraction command:

+ +

/usr/bin/jq -r '."key"' ~/.config/Signal/config.json

+ +

Assuming the result from that command is 'secretkey', which is a +hexadecimal number representing the key used to encrypt the database. +Next, one can now connect to the database and inject the encryption +key for access via SQL to fetch information from the database. Here +is an example dumping the database structure:

+ +

+% sqlcipher ~/.config/Signal/sql/db.sqlite
+sqlite> PRAGMA key = "x'secretkey'";
+sqlite> .schema
+CREATE TABLE sqlite_stat1(tbl,idx,stat);
+CREATE TABLE conversations(
+      id STRING PRIMARY KEY ASC,
+      json TEXT,
+
+      active_at INTEGER,
+      type STRING,
+      members TEXT,
+      name TEXT,
+      profileName TEXT
+    , profileFamilyName TEXT, profileFullName TEXT, e164 TEXT, serviceId TEXT, groupId TEXT, profileLastFetchedAt INTEGER);
+CREATE TABLE identityKeys(
+      id STRING PRIMARY KEY ASC,
+      json TEXT
+    );
+CREATE TABLE items(
+      id STRING PRIMARY KEY ASC,
+      json TEXT
+    );
+CREATE TABLE sessions(
+      id TEXT PRIMARY KEY,
+      conversationId TEXT,
+      json TEXT
+    , ourServiceId STRING, serviceId STRING);
+CREATE TABLE attachment_downloads(
+    id STRING primary key,
+    timestamp INTEGER,
+    pending INTEGER,
+    json TEXT
+  );
+CREATE TABLE sticker_packs(
+    id TEXT PRIMARY KEY,
+    key TEXT NOT NULL,
+
+    author STRING,
+    coverStickerId INTEGER,
+    createdAt INTEGER,
+    downloadAttempts INTEGER,
+    installedAt INTEGER,
+    lastUsed INTEGER,
+    status STRING,
+    stickerCount INTEGER,
+    title STRING
+  , attemptedStatus STRING, position INTEGER DEFAULT 0 NOT NULL, storageID STRING, storageVersion INTEGER, storageUnknownFields BLOB, storageNeedsSync
+      INTEGER DEFAULT 0 NOT NULL);
+CREATE TABLE stickers(
+    id INTEGER NOT NULL,
+    packId TEXT NOT NULL,
+
+    emoji STRING,
+    height INTEGER,
+    isCoverOnly INTEGER,
+    lastUsed INTEGER,
+    path STRING,
+    width INTEGER,
+
+    PRIMARY KEY (id, packId),
+    CONSTRAINT stickers_fk
+      FOREIGN KEY (packId)
+      REFERENCES sticker_packs(id)
+      ON DELETE CASCADE
+  );
+CREATE TABLE sticker_references(
+    messageId STRING,
+    packId TEXT,
+    CONSTRAINT sticker_references_fk
+      FOREIGN KEY(packId)
+      REFERENCES sticker_packs(id)
+      ON DELETE CASCADE
+  );
+CREATE TABLE emojis(
+    shortName TEXT PRIMARY KEY,
+    lastUsage INTEGER
+  );
+CREATE TABLE messages(
+        rowid INTEGER PRIMARY KEY ASC,
+        id STRING UNIQUE,
+        json TEXT,
+        readStatus INTEGER,
+        expires_at INTEGER,
+        sent_at INTEGER,
+        schemaVersion INTEGER,
+        conversationId STRING,
+        received_at INTEGER,
+        source STRING,
+        hasAttachments INTEGER,
+        hasFileAttachments INTEGER,
+        hasVisualMediaAttachments INTEGER,
+        expireTimer INTEGER,
+        expirationStartTimestamp INTEGER,
+        type STRING,
+        body TEXT,
+        messageTimer INTEGER,
+        messageTimerStart INTEGER,
+        messageTimerExpiresAt INTEGER,
+        isErased INTEGER,
+        isViewOnce INTEGER,
+        sourceServiceId TEXT, serverGuid STRING NULL, sourceDevice INTEGER, storyId STRING, isStory INTEGER
+        GENERATED ALWAYS AS (type IS 'story'), isChangeCreatedByUs INTEGER NOT NULL DEFAULT 0, isTimerChangeFromSync INTEGER
+        GENERATED ALWAYS AS (
+          json_extract(json, '$.expirationTimerUpdate.fromSync') IS 1
+        ), seenStatus NUMBER default 0, storyDistributionListId STRING, expiresAt INT
+        GENERATED ALWAYS
+        AS (ifnull(
+          expirationStartTimestamp + (expireTimer * 1000),
+          9007199254740991
+        )), shouldAffectActivity INTEGER
+        GENERATED ALWAYS AS (
+          type IS NULL
+          OR
+          type NOT IN (
+            'change-number-notification',
+            'contact-removed-notification',
+            'conversation-merge',
+            'group-v1-migration',
+            'keychange',
+            'message-history-unsynced',
+            'profile-change',
+            'story',
+            'universal-timer-notification',
+            'verified-change'
+          )
+        ), shouldAffectPreview INTEGER
+        GENERATED ALWAYS AS (
+          type IS NULL
+          OR
+          type NOT IN (
+            'change-number-notification',
+            'contact-removed-notification',
+            'conversation-merge',
+            'group-v1-migration',
+            'keychange',
+            'message-history-unsynced',
+            'profile-change',
+            'story',
+            'universal-timer-notification',
+            'verified-change'
+          )
+        ), isUserInitiatedMessage INTEGER
+        GENERATED ALWAYS AS (
+          type IS NULL
+          OR
+          type NOT IN (
+            'change-number-notification',
+            'contact-removed-notification',
+            'conversation-merge',
+            'group-v1-migration',
+            'group-v2-change',
+            'keychange',
+            'message-history-unsynced',
+            'profile-change',
+            'story',
+            'universal-timer-notification',
+            'verified-change'
+          )
+        ), mentionsMe INTEGER NOT NULL DEFAULT 0, isGroupLeaveEvent INTEGER
+        GENERATED ALWAYS AS (
+          type IS 'group-v2-change' AND
+          json_array_length(json_extract(json, '$.groupV2Change.details')) IS 1 AND
+          json_extract(json, '$.groupV2Change.details[0].type') IS 'member-remove' AND
+          json_extract(json, '$.groupV2Change.from') IS NOT NULL AND
+          json_extract(json, '$.groupV2Change.from') IS json_extract(json, '$.groupV2Change.details[0].aci')
+        ), isGroupLeaveEventFromOther INTEGER
+        GENERATED ALWAYS AS (
+          isGroupLeaveEvent IS 1
+          AND
+          isChangeCreatedByUs IS 0
+        ), callId TEXT
+        GENERATED ALWAYS AS (
+          json_extract(json, '$.callId')
+        ));
+CREATE TABLE sqlite_stat4(tbl,idx,neq,nlt,ndlt,sample);
+CREATE TABLE jobs(
+        id TEXT PRIMARY KEY,
+        queueType TEXT STRING NOT NULL,
+        timestamp INTEGER NOT NULL,
+        data STRING TEXT
+      );
+CREATE TABLE reactions(
+        conversationId STRING,
+        emoji STRING,
+        fromId STRING,
+        messageReceivedAt INTEGER,
+        targetAuthorAci STRING,
+        targetTimestamp INTEGER,
+        unread INTEGER
+      , messageId STRING);
+CREATE TABLE senderKeys(
+        id TEXT PRIMARY KEY NOT NULL,
+        senderId TEXT NOT NULL,
+        distributionId TEXT NOT NULL,
+        data BLOB NOT NULL,
+        lastUpdatedDate NUMBER NOT NULL
+      );
+CREATE TABLE unprocessed(
+        id STRING PRIMARY KEY ASC,
+        timestamp INTEGER,
+        version INTEGER,
+        attempts INTEGER,
+        envelope TEXT,
+        decrypted TEXT,
+        source TEXT,
+        serverTimestamp INTEGER,
+        sourceServiceId STRING
+      , serverGuid STRING NULL, sourceDevice INTEGER, receivedAtCounter INTEGER, urgent INTEGER, story INTEGER);
+CREATE TABLE sendLogPayloads(
+        id INTEGER PRIMARY KEY ASC,
+
+        timestamp INTEGER NOT NULL,
+        contentHint INTEGER NOT NULL,
+        proto BLOB NOT NULL
+      , urgent INTEGER, hasPniSignatureMessage INTEGER DEFAULT 0 NOT NULL);
+CREATE TABLE sendLogRecipients(
+        payloadId INTEGER NOT NULL,
+
+        recipientServiceId STRING NOT NULL,
+        deviceId INTEGER NOT NULL,
+
+        PRIMARY KEY (payloadId, recipientServiceId, deviceId),
+
+        CONSTRAINT sendLogRecipientsForeignKey
+          FOREIGN KEY (payloadId)
+          REFERENCES sendLogPayloads(id)
+          ON DELETE CASCADE
+      );
+CREATE TABLE sendLogMessageIds(
+        payloadId INTEGER NOT NULL,
+
+        messageId STRING NOT NULL,
+
+        PRIMARY KEY (payloadId, messageId),
+
+        CONSTRAINT sendLogMessageIdsForeignKey
+          FOREIGN KEY (payloadId)
+          REFERENCES sendLogPayloads(id)
+          ON DELETE CASCADE
+      );
+CREATE TABLE preKeys(
+        id STRING PRIMARY KEY ASC,
+        json TEXT
+      , ourServiceId NUMBER
+        GENERATED ALWAYS AS (json_extract(json, '$.ourServiceId')));
+CREATE TABLE signedPreKeys(
+        id STRING PRIMARY KEY ASC,
+        json TEXT
+      , ourServiceId NUMBER
+        GENERATED ALWAYS AS (json_extract(json, '$.ourServiceId')));
+CREATE TABLE badges(
+        id TEXT PRIMARY KEY,
+        category TEXT NOT NULL,
+        name TEXT NOT NULL,
+        descriptionTemplate TEXT NOT NULL
+      );
+CREATE TABLE badgeImageFiles(
+        badgeId TEXT REFERENCES badges(id)
+          ON DELETE CASCADE
+          ON UPDATE CASCADE,
+        'order' INTEGER NOT NULL,
+        url TEXT NOT NULL,
+        localPath TEXT,
+        theme TEXT NOT NULL
+      );
+CREATE TABLE storyReads (
+        authorId STRING NOT NULL,
+        conversationId STRING NOT NULL,
+        storyId STRING NOT NULL,
+        storyReadDate NUMBER NOT NULL,
+
+        PRIMARY KEY (authorId, storyId)
+      );
+CREATE TABLE storyDistributions(
+        id STRING PRIMARY KEY NOT NULL,
+        name TEXT,
+
+        senderKeyInfoJson STRING
+      , deletedAtTimestamp INTEGER, allowsReplies INTEGER, isBlockList INTEGER, storageID STRING, storageVersion INTEGER, storageUnknownFields BLOB, storageNeedsSync INTEGER);
+CREATE TABLE storyDistributionMembers(
+        listId STRING NOT NULL REFERENCES storyDistributions(id)
+          ON DELETE CASCADE
+          ON UPDATE CASCADE,
+        serviceId STRING NOT NULL,
+
+        PRIMARY KEY (listId, serviceId)
+      );
+CREATE TABLE uninstalled_sticker_packs (
+        id STRING NOT NULL PRIMARY KEY,
+        uninstalledAt NUMBER NOT NULL,
+        storageID STRING,
+        storageVersion NUMBER,
+        storageUnknownFields BLOB,
+        storageNeedsSync INTEGER NOT NULL
+      );
+CREATE TABLE groupCallRingCancellations(
+        ringId INTEGER PRIMARY KEY,
+        createdAt INTEGER NOT NULL
+      );
+CREATE TABLE IF NOT EXISTS 'messages_fts_data'(id INTEGER PRIMARY KEY, block BLOB);
+CREATE TABLE IF NOT EXISTS 'messages_fts_idx'(segid, term, pgno, PRIMARY KEY(segid, term)) WITHOUT ROWID;
+CREATE TABLE IF NOT EXISTS 'messages_fts_content'(id INTEGER PRIMARY KEY, c0);
+CREATE TABLE IF NOT EXISTS 'messages_fts_docsize'(id INTEGER PRIMARY KEY, sz BLOB);
+CREATE TABLE IF NOT EXISTS 'messages_fts_config'(k PRIMARY KEY, v) WITHOUT ROWID;
+CREATE TABLE edited_messages(
+        messageId STRING REFERENCES messages(id)
+          ON DELETE CASCADE,
+        sentAt INTEGER,
+        readStatus INTEGER
+      , conversationId STRING);
+CREATE TABLE mentions (
+        messageId REFERENCES messages(id) ON DELETE CASCADE,
+        mentionAci STRING,
+        start INTEGER,
+        length INTEGER
+      );
+CREATE TABLE kyberPreKeys(
+        id STRING PRIMARY KEY NOT NULL,
+        json TEXT NOT NULL, ourServiceId NUMBER
+        GENERATED ALWAYS AS (json_extract(json, '$.ourServiceId')));
+CREATE TABLE callsHistory (
+        callId TEXT PRIMARY KEY,
+        peerId TEXT NOT NULL, -- conversation id (legacy) | uuid | groupId | roomId
+        ringerId TEXT DEFAULT NULL, -- ringer uuid
+        mode TEXT NOT NULL, -- enum "Direct" | "Group"
+        type TEXT NOT NULL, -- enum "Audio" | "Video" | "Group"
+        direction TEXT NOT NULL, -- enum "Incoming" | "Outgoing
+        -- Direct: enum "Pending" | "Missed" | "Accepted" | "Deleted"
+        -- Group: enum "GenericGroupCall" | "OutgoingRing" | "Ringing" | "Joined" | "Missed" | "Declined" | "Accepted" | "Deleted"
+        status TEXT NOT NULL,
+        timestamp INTEGER NOT NULL,
+        UNIQUE (callId, peerId) ON CONFLICT FAIL
+      );
+[ dropped all indexes to save space in this blog post ]
+CREATE TRIGGER messages_on_view_once_update AFTER UPDATE ON messages
+      WHEN
+        new.body IS NOT NULL AND new.isViewOnce = 1
+      BEGIN
+        DELETE FROM messages_fts WHERE rowid = old.rowid;
+      END;
+CREATE TRIGGER messages_on_insert AFTER INSERT ON messages
+      WHEN new.isViewOnce IS NOT 1 AND new.storyId IS NULL
+      BEGIN
+        INSERT INTO messages_fts
+          (rowid, body)
+        VALUES
+          (new.rowid, new.body);
+      END;
+CREATE TRIGGER messages_on_delete AFTER DELETE ON messages BEGIN
+        DELETE FROM messages_fts WHERE rowid = old.rowid;
+        DELETE FROM sendLogPayloads WHERE id IN (
+          SELECT payloadId FROM sendLogMessageIds
+          WHERE messageId = old.id
+        );
+        DELETE FROM reactions WHERE rowid IN (
+          SELECT rowid FROM reactions
+          WHERE messageId = old.id
+        );
+        DELETE FROM storyReads WHERE storyId = old.storyId;
+      END;
+CREATE VIRTUAL TABLE messages_fts USING fts5(
+        body,
+        tokenize = 'signal_tokenizer'
+      );
+CREATE TRIGGER messages_on_update AFTER UPDATE ON messages
+      WHEN
+        (new.body IS NULL OR old.body IS NOT new.body) AND
+         new.isViewOnce IS NOT 1 AND new.storyId IS NULL
+      BEGIN
+        DELETE FROM messages_fts WHERE rowid = old.rowid;
+        INSERT INTO messages_fts
+          (rowid, body)
+        VALUES
+          (new.rowid, new.body);
+      END;
+CREATE TRIGGER messages_on_insert_insert_mentions AFTER INSERT ON messages
+      BEGIN
+        INSERT INTO mentions (messageId, mentionAci, start, length)
+        
+    SELECT messages.id, bodyRanges.value ->> 'mentionAci' as mentionAci,
+      bodyRanges.value ->> 'start' as start,
+      bodyRanges.value ->> 'length' as length
+    FROM messages, json_each(messages.json ->> 'bodyRanges') as bodyRanges
+    WHERE bodyRanges.value ->> 'mentionAci' IS NOT NULL
+  
+        AND messages.id = new.id;
+      END;
+CREATE TRIGGER messages_on_update_update_mentions AFTER UPDATE ON messages
+      BEGIN
+        DELETE FROM mentions WHERE messageId = new.id;
+        INSERT INTO mentions (messageId, mentionAci, start, length)
+        
+    SELECT messages.id, bodyRanges.value ->> 'mentionAci' as mentionAci,
+      bodyRanges.value ->> 'start' as start,
+      bodyRanges.value ->> 'length' as length
+    FROM messages, json_each(messages.json ->> 'bodyRanges') as bodyRanges
+    WHERE bodyRanges.value ->> 'mentionAci' IS NOT NULL
+  
+        AND messages.id = new.id;
+      END;
+sqlite>
+

+ +

Finally I have the tool needed to inspect and process Signal +messages that I need, without using the vendor provided client. Now +on to transforming it to a more useful format.

+ +

As usual, if you use Bitcoin and want to show your support of my +activities, please send Bitcoin donations to my address +15oWEoG9dUPovwmUL9KWAnYRtNJEkP1u1b.

Petter Reinholdtsen - Entries from November 2023

Â«NÃ¥r Â«pÃ¥Â» blir Â«pÃÂ¥Â»: Et reservoar av tegn sett fra depotetÂ» i tidsskriftet Aksess

New and improved sqlcipher in Debian for accessing Signal database

Â«NÃ¥r Â«pÃ¥Â» blir Â«pÃÂ¥Â»: Et reservoar av tegn sett fra depotetÂ» i tidsskriftet Aksess