1 <?xml version=
"1.0" encoding=
"ISO-8859-1"?>
2 <rss version='
2.0' xmlns:lj='http://www.livejournal.org/rss/lj/
1.0/'
>
4 <title>Petter Reinholdtsen - Entries from November
2023</title>
5 <description>Entries from November
2023</description>
6 <link>https://www.hungry.com/~pere/blog/
</link>
10 <title>«Når «på» blir «pÃ¥»: Et reservoar av tegn sett fra depotet» i tidsskriftet Aksess
</title>
11 <link>https://www.hungry.com/~pere/blog/_N_r__p___blir__p_____Et_reservoar_av_tegn_sett_fra_depotet__i_tidsskriftet_Aksess.html
</link>
12 <guid isPermaLink=
"true">https://www.hungry.com/~pere/blog/_N_r__p___blir__p_____Et_reservoar_av_tegn_sett_fra_depotet__i_tidsskriftet_Aksess.html
</guid>
13 <pubDate>Wed,
15 Nov
2023 09:
20:
00 +
0100</pubDate>
14 <description><p
>For noen uker siden skrev en kamerat og meg
15 <a href=
"https://www.aksess-tidsskrift.no/fordypning/
175530">en
16 artikkel om tegnsett
</a
> i
17 <a href=
"https://www.aksess-tidsskrift.no/
">arkivtidsskriftet
18 Aksess
</a
> både på web og i papirutgave nr.
3 2023. Her er det som
19 nettopp ble publisert.
</p
>
23 <p
><strong
>Når «på» blir «pÃ¥»: Et reservoar av tegn sett fra
24 depotet
</strong
></p
>
26 <p
>av Thomas Sødring og Petter Reinholdtsen
</p
>
28 <p
>De færreste av oss tenker over hva som skjer dypere i datamaskinen
29 mens vi sitter der og skriver noe på tastaturet. Når du trykker på
30 tasten «Å», så vises bokstaven Å. Men noen ganger blir det
31 feil. Hvorfor det – og hva er viktig å være klar over i
32 arkivsammenheng?
</p
>
34 <p
>Dersom bokstaver tolkes forskjellig mellom systemer, blir det fort
35 rot, dette kalles mojibake blant kjennere, etter det japanske
36 uttrykket for tegnomforming. Det er en lang historie her som tidvis
37 har vært preget av rot. Noen husker kanskje tilbake til en tid der
38 bokstavene æ, ø og å ofte var ødelagt i e-poster – et klassisk
39 eksempel på tegnsettproblemstilling.
</p
>
41 <p id=
"tegnsett_access_nå_og_før
"><strong
>«Nå» og «før»
</strong
></p
>
43 <p
>Tid er et skjult problem for depot fordi vi danner dokumentasjon i
44 en kontekst som er preget av å være «nå». Vår forståelse av verden og
45 bruken av teknologi er utgangspunktet for denne konteksten. Tenk selv
46 hvordan verden har utviklet seg de siste
20 årene, hva samfunnet er
47 opptatt av, og hvordan vi bruker teknologi i hverdagen. Tid er et
48 skjult problem fordi når vi trekker dokumentasjon ut av systemer og
49 deponerer for langtidsbevaring, er konteksten til materialet «nå», men
50 verden går videre. Ettersom teknologien og måten vi bruker den på,
51 utvikler seg, blir «nå» til «før», og dokumentasjonen befinner seg
52 snart i en «før»-kontekst.
</p
>
54 <p
>Dette med «før» og «nå» i forhold til dokumentasjonens kontekst er
55 noe vi er veldig lite bevisste på, men det er en problemstilling
56 depotarkivene eier og forvalter. En av disse utfordringene er hvorfor
57 «Ø» ikke nødvendigvis er det samme som «Ø», og hvorfor det i det hele
58 tatt gir mening å si noe sånt. Vi snakker her om noe som heter
59 tegnsett, som er en avtalt måte å representere bokstaver, tall og
60 andre symboler på slik at vi på en feilfri måte kan utveksle tekst
61 mellom datasystemer.
</p
>
63 <p
>Tegnsettproblemstillingen er satt sammen av fire fasetter;
64 repertoar, representasjon, koding og uttegning.
</p
>
66 <p id=
"tegnsett_access_repertoarer
"><strong
>Repertoarer
</strong
></p
>
68 <p
>Repertoar er en samling med tegn og symboler som kan
69 representeres. Tenk norsk alfabet eller japanske piktogrammer, men
70 også matematiske og elektroniske symboler. Bokstaven «stor a» kan være
71 en oppføring i et slikt repertoar. For å kunne brukes i en datamaskin
72 trenger hver oppføring i et slikt repertoar en representasjon, hvilket
73 i datamaskinsammenheng betyr at det tilordnes et tall. Tallet kan
74 lagres på ulike vis i en eller flere kodingsformater. For eksempel kan
75 en skrive tallet ti som både
10, X og A, i henholdsvis
76 titallssystemet, romertallssystemet og sekstentallssystemet.
</p
>
78 <p
>Hvis en skal kunne lese inn filer og vite hvilket tall og hvilken
79 representasjon og instans i et repertoar det er snakk om, så må en
80 vite hvordan tallet er kodet. Sist, men ikke minst, for å kunne bruke
81 symbolet til noe må det kunne være kjent hvordan det skal se ut eller
82 tegnes på ark. Det finnes utallige skrifttyper med norske bokstaver,
83 alle litt forskjellige, og skal en kunne tegne en stor A på skjermen,
84 så må datamaskinen vite hva den skal tegne. Skrifttyper inneholder
85 informasjon om hvordan ulike tall skal tegnes. De inneholder ikke
86 alltid alle symbolene som er brukt i en tekst, hvilket gjør at ikke
87 alle forståtte tegn vil kunne vises på skjerm eller ark.
</p
>
89 <p
>Hver av disse fasettene må være avklart for å kunne ta vare på og vise
90 frem tekst med en datamaskin. Kombinasjon av repertoar, representasjon
91 og koding er det en kaller et tegnsett. Kombinasjonen av
92 representasjon og uttegning kalles en skrifttype. De fleste
93 skrifttyper har også informasjon om repertoar, men det finnes
94 skrifttyper som kun kobler mellom tallkode og uttegning, uten å
95 fortelle noe om hvordan tallkodene egentlig skal tolkes.
</p
>
97 <p id=
"tegnsett_access_fra_ascii_til_iso_8859
"><strong
>Fra ASCII til ISO-
8859</strong
></p
>
99 <p
>Vi begynner historien med ASCII (American Standard Code for
100 Information Interchange) som har en historie som spores tilbake til
101 1963. Utgangspunktet til ASCII var at det kunne kode opp til
128
102 forskjellige symboler i vanlig bruk i USA. De visuelle symbolene i
103 ASCII er de små og store bokstavene (a til z og A til Z), tall (
0 til
104 9) og tegnsettingssymboler (for eksempel semikolon, komma og
105 punktum). ASCII har også noen usynlige symboler som ble brukt for
106 bl.a. kommunikasjon. Før ASCII var det for eksempel teleks-tegnsett
107 med plass til bare
32 tegn og EBCDIC med plass til
256 tegn, alle med
108 en helt annen rekkefølge på symbolene enn ASCII, men de har vært lite
109 brukt de siste femti årene. Et eksempel på noen utvalgte symboler i
110 repertoaret til ASCII vises i tabell
1.
</p
>
112 <table align=
"center
" width=
"50%
">
114 <caption
>Tabell
1. Eksempel på utvalgte symboler hentet fra
115 ASCII-tegnsettet. Kolonnen «Binær» viser symbolets verdi i
116 totallssystemet (
1 og
0 tall), mens kolonnen «Desimal» viser symbolets
117 verdi i titallssystemet.
</caption
>
121 <th
>Grafisk
</th
>
122 <th
>Binær
</th
>
123 <th
>Desimal
</th
>
126 <td
>A
</td
>
127 <td
>1000001</td
>
128 <td align=
"right
">65</td
>
131 <td
>M
</td
>
132 <td
>1001101</td
>
133 <td align=
"right
">77</td
>
136 <td
>Z
</td
>
137 <td
>1011010</td
>
138 <td align=
"right
">90</td
>
141 <td
>a
</td
>
142 <td
>1100001</td
>
143 <td align=
"right
">97</td
>
146 <td
>m
</td
>
147 <td
>1101101</td
>
148 <td align=
"right
">109</td
>
151 <td
>z
</td
>
152 <td
>1111010</td
>
153 <td align=
"right
">122</td
>
156 <td
>0</td
>
157 <td
>0110000</td
>
158 <td align=
"right
">48</td
>
161 <td
>9</td
>
162 <td
>0111001</td
>
163 <td align=
"right
">58</td
>
166 <td
>;
</td
>
167 <td
>0111011</td
>
168 <td align=
"right
">59</td
>
173 <p
>Det opprinnelige ASCII-tegnsettet ble også omtalt som ASCII-
7 og
174 brukte
7 bits (
0 og
1) for å representere symboler. Datamaskiner er
175 ofte konfigurert til å jobbe med enheter der bits er gruppert som
4
176 eller
8 bits . Det lå en mulighet i å ta i bruk bit åtte. En slik
177 endring ville gjøre det mulig for datamaskiner å øke antall symboler
178 de kunne representere, noe som ga en økning fra
128 forskjellige
179 symboler til
256 forskjellige symboler. Det ble åpnet for å innlemme
180 de nordiske bokstavene sammen med ASCII, og dette ble etter hvert
181 standardisert som ISO-
8859-
1. Tabell
2 viser deler av ISO-
8859-
1 som
182 støtter de norske bokstavene.
</p
>
184 <p
>Det sier seg selv at muligheten til å representere inntil
256 symboler
185 ikke holder når vi snakker om en global verden, og det ble gjort et
186 standardiseringsløp som tok utgangspunkt i ASCII-
7 med en utvidelse
187 til å bruke den åttende biten for ulike språkgrupper. Denne standarden
188 heter ISO-
8859 og er inndelt i opptil
16 varianter, altså fra
189 ISO-
8859-
1 til ISO-
8859-
16.
</p
>
191 <table align=
"center
" width=
"50%
">
193 <caption
>Tabell
2. Koding av de norske symbolene slik de er definert i
194 ISO-
8859-
1 tegnsettet.
</caption
>
198 <th
>Grafisk
</th
>
199 <th
>Binær
</th
>
200 <th
>Desimal
</th
>
203 <td
>Æ
</td
>
204 <td
>11000110</td
>
205 <td align=
"right
">198</td
>
208 <td
>Ø
</td
>
209 <td
>11011000</td
>
210 <td align=
"right
">216</td
>
213 <td
>Å
</td
>
214 <td
>11000101</td
>
215 <td align=
"right
">197</td
>
218 <td
>æ
</td
>
219 <td
>11100110</td
>
220 <td align=
"right
">230</td
>
223 <td
>ø
</td
>
224 <td
>11111000</td
>
225 <td align=
"right
">248</td
>
228 <td
>å
</td
>
229 <td
>11100101</td
>
230 <td align=
"right
">229</td
>
235 <p
>Norske tegn er definert i ISO-
8859-
1, som også omtales som Latin
1, de
236 fleste samiske tegn er definert i ISO-
8859-
4 (Latin
4) mens tilgang
237 til €-symbolet kom med ISO-
8859-
15 (Latin
9). ISO-
8859-
15 er en
238 revisjon av ISO-
8859-
1 som fjerner noen lite brukte symboler og
239 erstatter bokstaver som er mer brukt, og introduserer €-symbolet. Det
240 er viktig å merke at alle ISO-
8859-variantene har overlapp med
241 ASCII-
7, noe som ga samvirke med de engelskspråklige landene som ikke
242 trengte å gjøre noe. Det innebærer også at de første
128 verdiene i
243 ISO-
8859-variantene representerer de samme symbolene. Det er først når
244 du kommer til tolkningen av de resterende
128 verdiene med nummer
128
245 til
255, at det oppsto tolkningsutfordringer mellom
246 ISO-
8859-variantene.
</p
>
248 <p
>ISO-
8859-verdenen fungerte godt så lenge tegnsettet som ble brukt når
249 innhold ble skapt, også ble brukt når innhold ble gjengitt og du ikke
250 trengte å kombinere innhold fra forskjellige tegnsett i samme
251 dokument. Utfordringen med bruken av ISO-
8859-variantene ble raskt
252 tydelig i en mer globalisert verden med utveksling av tekst på tvers
253 av landegrenser der tekstlig innhold i dokumenter, e-poster og
254 websider kunne bli skrevet med ett tegnsett og gjengitt med et annet
257 <table align=
"center
" width=
"60%
">
259 <caption
>Tabell
3. Viser tolkning av verdiene som er tilegnet de
260 norske symbolene i ISO-
8859-
1 i de andre ISO
8859-variatene. Merk
261 ISO-
8859-
12 ikke finnes da arbeidet ble avsluttet.
<sup
>[
<a id=
"tegnsett_access_footnoteref_1
" href=
"#tegnsett_access_footnotedef_1
" title=
"View footnote.
">1</a
>]
</sup
></caption
>
265 <th
>Binærverdi
</th
>
266 <th
>1</th
>
267 <th
>2</th
>
268 <th
>3</th
>
269 <th
>4</th
>
270 <th
>5</th
>
271 <th
>6</th
>
272 <th
>7</th
>
273 <th
>8</th
>
274 <th
>9</th
>
275 <th
>10</th
>
276 <th
>11</th
>
277 <th
>13</th
>
278 <th
>14</th
>
279 <th
>15</th
>
280 <th
>16</th
>
283 <td
>11000110</td
>
284 <td
>Æ
</td
>
285 <td
>Ć
</td
>
286 <td
>Ĉ
</td
>
287 <td
>Æ
</td
>
288 <td
>Ц
</td
>
289 <td
>ئ
</td
>
290 <td
>Ζ
</td
>
291 <td
></td
>
292 <td
>Æ
</td
>
293 <td
>Æ
</td
>
294 <td
>ฦ
</td
>
295 <td
>Ę
</td
>
296 <td
>Æ
</td
>
297 <td
>Æ
</td
>
298 <td
>Æ
</td
>
301 <td
>11011000</td
>
302 <td
>Ø
</td
>
303 <td
>Ř
</td
>
304 <td
>Ĝ
</td
>
305 <td
>Ø
</td
>
306 <td
>и
</td
>
307 <td
>ظ
</td
>
308 <td
>Ψ
</td
>
309 <td
></td
>
310 <td
>Ø
</td
>
311 <td
>Ø
</td
>
312 <td
>ุ
</td
>
313 <td
>Ų
</td
>
314 <td
>Ø
</td
>
315 <td
>Ø
</td
>
316 <td
>Ű
</td
>
319 <td
>11000101</td
>
320 <td
>Å
</td
>
321 <td
>Ĺ
</td
>
322 <td
>Ċ
</td
>
323 <td
>Å
</td
>
324 <td
>Х
</td
>
325 <td
>إ
</td
>
326 <td
>Ε
</td
>
327 <td
></td
>
328 <td
>Å
</td
>
329 <td
>Å
</td
>
330 <td
>ล
</td
>
331 <td
>Å
</td
>
332 <td
>Å
</td
>
333 <td
>Å
</td
>
334 <td
>Ć
</td
>
337 <td
>11100110</td
>
338 <td
>æ
</td
>
339 <td
>ć
</td
>
340 <td
>ĉ
</td
>
341 <td
>æ
</td
>
342 <td
>ц
</td
>
343 <td
>ن
</td
>
344 <td
>ζ
</td
>
345 <td
>ז
</td
>
346 <td
>æ
</td
>
347 <td
>æ
</td
>
348 <td
>ๆ
</td
>
349 <td
>ę
</td
>
350 <td
>æ
</td
>
351 <td
>æ
</td
>
352 <td
>v
</td
>
355 <td
>11111000</td
>
356 <td
>ø
</td
>
357 <td
>ř
</td
>
358 <td
>ĝ
</td
>
359 <td
>ø
</td
>
360 <td
>ј
</td
>
361 <td
></td
>
362 <td
>ψ
</td
>
363 <td
>ר
</td
>
364 <td
>ø
</td
>
365 <td
>ø
</td
>
366 <td
>๘
</td
>
367 <td
>ų
</td
>
368 <td
>ø
</td
>
369 <td
>ø
</td
>
370 <td
>ű
</td
>
373 <td
>11100101</td
>
374 <td
>å
</td
>
375 <td
>ĺ
</td
>
376 <td
>ċ
</td
>
377 <td
>å
</td
>
378 <td
>х
</td
>
379 <td
>م
</td
>
380 <td
>ε
</td
>
381 <td
>ו
</td
>
382 <td
>å
</td
>
383 <td
>å
</td
>
384 <td
>ๅ
</td
>
385 <td
>å
</td
>
386 <td
>å
</td
>
387 <td
>å
</td
>
388 <td
>ć
</td
>
393 <p
>Denne problemstillingen er illustrert i tabell
3, der vi ser verdiene
394 tilegnet de norske symbolene i ISO-
8859-
1 i kolonne «
1». I de øvrige
395 kolonnene ser vi hvilket symbol verdien får i de andre
396 ISO-
8859-variantene. Tar vi utgangspunkt i tabell
3, kan vi se at
397 ordet lærlingspørsmål gjengitt med ISO-
8859-
2 (kolonne
2) blir
398 lćrlingspřrsmĺl, mens det blir lζrlingspψrsmεl med ISO-
8859-
7
399 (kolonne
7). Med ISO-
8859-
2 blir «æ» til «ć», «ø» til «ř» og «å» til
400 «ĺ». I ISO-
8859-
7 blir «æ» til «ζ», «ø» til «ψ», mens «å» blir «ε».
</p
>
402 <p
>Det er egentlig ingen utfordring med dette så lenge du vet hvilket
403 tegnsett innholdet ditt er representert med, og det ikke har skjedd
404 omforminger som du ikke er klar over. Det er det siste som er
405 problematisk, spesielt de datasystemene som har vært i bruk de siste
406 20 årene, som ikke har noe innebygd funksjonalitet for å forvalte
407 tegnsettproblematikken. Et godt eksempel på dette er
408 Microsoft-tegnsettet Windows-
1252, som ble forvekslet som
100 %
409 kompatibel med ISO-
8859-
1, men hadde byttet ut plassene fra
127 til
410 159. Historisk vil det finnes en del variasjon i hvilket tegnsett som
411 har vært i bruk, og hvor vellykket konvertering mellom tegnsett har
414 <p id=
"tegnsett_access_unicode_som_løsning
"><strong
>Unicode som løsning
</strong
></p
>
416 <p
>Tegnsettforvirring ble etter hvert et irritasjonsmoment og
417 samvirkeproblem. Ofte fikk man en e-post der æøå var erstattet av rare
418 symboler fordi e-posten hadde vært innom et eller annet datasystem som
419 ikke brukte samme tegnsett.
</p
>
421 <p
>For å løse dette samvirkeproblemet for tegnsett ble det startet et
422 arbeid og en ny standard så dagens lys etter hvert. Denne standarden
423 fikk navnet Unicode (ISO/ IEC
10646) og skulle resultere i et tegnsett
424 som alle skulle være enige om. Unicode er et repertoar og en
425 representasjon, dvs. navngivning og tilordning av tallverdi til alle
426 symboler i bruk i verden i dag. Oppføringer i Unicode skrives gjerne
427 U+XXXX der XXXX er tallkoden i sekstentallssystemet som oppføringen
428 har i Unicode-katalogen. Her finner vi tegn brukt av både levende og
429 døde språk, konstruerte språk, tekniske symboler, morsomme tegninger
430 (såkalte emojier) og tegn ingen vet hva betyr eller skal brukes
431 til. Et morsomt eksempel er i nettartikkelen: U+
237C ⍼ RIGHT ANGLE
432 WITH DOWNWARDS ZIGZAG ARROW, av Jonathan Chan.
<sup
>[
<a id=
"tegnsett_access_footnoteref_2
" href=
"#tegnsett_access_footnotedef_2
" title=
"View footnote.
">2</a
>]
</sup
></p
>
434 <p
>Sammen med Unicode kom det tre måter å kode disse tallene på; UTF-
8,
435 UTF-
16 og UTF-
32. Av datatekniske årsaker er UTF-
8 mye brukt, spesielt
436 når det gjelder utveksling av tekst over Internett, mens UTF-
16 er
437 brukt en del til tekstfiler lagret på Windows. En utfordring med
438 Unicode og UTF-variantene er at disse gir flere måter å kode samme
439 symbol på med en kombinasjonsmekanisme. Dette kan gi utfordringer ved
440 søk, hvis en skal søke etter et ord som har ett eller flere symboler
441 som kan skrives på ulikt vis, så er det ikke sikkert at søkesystemet
442 vil finne alle forekomster. For eksempel kan bokstaven U+
00F8 «Latin
443 Small Letter O with Stroke» kodes som den tradisjonelle norske tegnet
444 ø, men også som o kombinert med skråstrek U+
0338. Begge deler er
445 gyldig bruk av Unicode, selv om det er tradisjon for å foretrekke å
446 «normalisere» kombinasjoner som enkelttegn der det er mulig, nettopp
447 for å forenkle søk.
</p
>
449 <p id=
"tegnsett_access_bare_unicode_fremover
"><strong
>Bare Unicode fremover
</strong
></p
>
451 <p
>Forvaltningens bruk av tegnsett er regulert i Forskrift om
452 IT-standarder i offentlig forvaltning
<sup
>[
<a id=
"tegnsett_access_footnoteref_3
" href=
"#tegnsett_access_footnotedef_3
" title=
"View footnote.
">3</a
>]
</sup
>. Her står det: «Ved all
453 utveksling av informasjon mellom forvaltningsorganer og fra
454 forvaltningsorgan til innbyggere og næringsliv skal tegnsettstandarden
455 ISO/IEC
10646 representert ved UTF8 benyttes.» Det er forskjellige
456 bruksområder til UTF-
8, UTF-
16 og UTF-
32, men UTF-
8 er kodingen vi
457 kjenner mest til. Det er flere grunner at UTF-
8 «vant» konkurransen
458 til å bli den utvalgte. Den kanskje viktigste er at UTF-
8 er fullt
459 samvirkende med ASCII-
7, slik at den engelskspråklige delen av verden
460 kunne rulle ut UTF-
8 uten å merke noe forskjell. En tekstfil med kun
461 ASCII-tekst vil være identisk på disken hvis den lagres som UTF-
8 og
462 ASCII. UTF-
16 og UTF-
32 byr på noen optimaliseringer som gjør dem
463 relevant for spesifikke problemområder, men for det meste vil vi aldri
464 oppleve disse standardene på nært hold i hverdagen. Det er uansett kun
465 bruken av UTF-
8 som er lovregulert i Norge.
</p
>
467 <p
>Det er ikke slik at hele verden bruker ISO/IEC
10646 og UTF-
8. Kina
468 har egne standarder for tegnsett, mye brukt er GB
18030, som er
469 Unicode med en annen koding enn UTF-
8, mens Taiwan og andre asiatiske
470 land gjerne bruker Big5 eller andre tegnsett.
</p
>
472 <p
>UTF-
8 er dominerende i Norge, men det er tidsperioder der forskjellige
473 datasystemer utvekslet data i henhold til ISO-
8859-
1, ISO-
8859-
15,
474 Windows-
1252, Codepage
865 og ISO-
646-
60 / Codepage
1016 mens
475 overgangen til UTF-
8 pågikk. Det er ikke slik at et datasystem enkelt
476 kan tvinges til å bruke et tegnsett, da det er flere lag i et
477 datasystem som må settes opp til å bruke riktig tegnsett, og
478 tegnsettproblemet fort oppstår når det er et eller annet i
479 datasystemet som bruker feil tegnsett.
</p
>
481 <p
>Et klassisk eksempel på problemet er en utveksling av tekst mellom to
482 systemer der teksten i utgangspunktet er kodet i UTF-
8, men går
483 gjennom noe som er ISO-
8859-
1 underveis. Dette kan vises med at ordet
484 «på» i et slik scenario ender opp som «pÃ¥». Det er mulig å spore
485 dette tilbake til verdiene symbolene er tilordnet i tegnsettene. «på»
486 blir til «pÃ¥» fordi «å» i UTF-
8 er representert med U+C3AF, og dersom
487 vi ser på hva disse verdiene representerer, ser vi at
488 sekstentallssystemverdien C3 er
1100 0011 i totallssystemet og
489 symbolet med dette tallet i ISO-
8859-
1 er Ã.
</p
>
491 <p
>Vi ser det samme med sekstentallssystemverdien A5, som er
1010 0101 i
492 totallssystemet, og tilsvarende symbol i ISO-
8859-
1 er ¥. Slik
493 mojibake kan lett skje hvis «på» i utgangspunktet var representert med
494 UTF-
8, men ble behandlet med et system som bruker ISO-
8859-
1. Det er
495 ingen automatikk i å fange opp slike ødeleggelser mens tekstlig
496 innhold utveksles mellom datasystemer.
</p
>
498 <p
>En utfordring for depotarkivene er at bruken av tegnsett ikke alltid
499 har vært regulert, og at det kan finnes flere dokumentasjonssamlinger
500 som er opprettet med varierende tegnsett før gjeldende forskrift
501 inntraff – uten at det er mulig å avlede fra filene hvilket tegnsett
502 som ble brukt. Et eksempel på dette er €-symbolet, som kom først etter
503 at ISO-
8859-
1 var tatt i bruk. Det kan bli en utfordring for et
504 depotarkiv, men så lenge det er kjent hvilket tegnsett var i bruk, så
505 bør det gå bra. Riksarkivarens
506 forskrift
<sup
>[
<a id=
"tegnsett_access_footnoteref_4
" href=
"#tegnsett_access_footnotedef_4
" title=
"View footnote.
">4</a
>]
</sup
>
507 formaliserer dette ved å kreve følgende:
</p
>
510 <p
>§
5-
11. Tegnsett i arkivuttrekk
</p
>
513 <li
>Arkivuttrekk og medfølgende struktur- og innholdsbeskrivelser skal
514 overføres som ren tekst i ukryptert form, og benytte godkjent
517 <li
>Godkjente tegnsett er:
519 <li
>Unicode UTF-
8<br
>
520 (ISO/IEC
10646-
1:
2000 Annex D)
</li
>
521 <li
>ISO
8859-
1:
1998, Latin
1</li
>
522 <li
>ISO
8859-
4:
1998, Latin
4 for samiske tegn.
</li
>
523 </ol
></li
>
525 <li
>Andre tegnsett aksepteres bare etter avtale med Arkivverket.
</li
>
529 <p id=
"tegnsett_access_ditt_ansvar
"><strong
>Ditt ansvar
</strong
></p
>
531 <p
>På mange måter burde ikke tegnsett være et problem i
2023, men sånn er
532 det nok ikke. Land som har oppgradert til UTF-
8 som primærtegnsett for
533 utveksling av tekstlig innhold, begrenser problematikken betraktelig,
534 men globalt sett så er tegnsettutfordringen ikke løst fordi ikke alle
535 er enige om å bruke samme tegnsett. Det kan være geopolitiske eller
536 kulturelle hensyn som ligger til grunn for dette.
</p
>
538 <p
>Det er uansett verdt å merke at selv om bruken av UTF-
8 skulle bli
539 100% utbredt, så er det et historisk perspektiv (ASCII-
7,
540 ISO-
8859-variantene, UTF-
8) her som gjør tegnsett til et problemområde
541 arkivarene må forstå og håndtere. Som danningsarkivar har du et
542 ansvar for å vite hvilket tegnsett systemene og databasene dere
543 forvalter, er i samsvar med. Det er noe IT-avdelingen din eller
544 programvareleverandørene enkelt skal kunne svare på, og svaret skal
545 være UTF-
8 for alle nye systemer.
</p
>
549 <p id=
"tegnsett_access_footnotedef_1
"><a href=
"#tegnsett_access_footnoteref_1
">1</a
>. Tegnsettkilde
<a href=
"https://en.wikipedia.org/wiki/ISO/IEC_8859
">https://en.wikipedia.org/wiki/ISO/IEC_8859
</a
></p
>
551 <p id=
"tegnsett_access_footnotedef_2
"><a href=
"#tegnsett_access_footnoteref_2
">2</a
>.
<a href=
"https://ionathan.ch/
2022/
04/
09/angzarr.html
">https://ionathan.ch/
2022/
04/
09/angzarr.html
</a
></p
>
553 <p id=
"tegnsett_access_footnotedef_3
"><a href=
"#tegnsett_access_footnoteref_3
">3</a
>.
<a href=
"https://lovdata.no/dokument/SF/forskrift/
2013-
04-
05-
959/%C2%A78#%C2%A78
">https://lovdata.no/dokument/SF/forskrift/
2013-
04-
05-
959/%C2%A78#%C2%A78
</a
></p
>
555 <p id=
"tegnsett_access_footnotedef_4
"><a href=
"#tegnsett_access_footnoteref_4
">4</a
>.
<a href=
"https://lovdata.no/forskrift/
2017-
12-
19-
2286/§
5-
11">https://lovdata.no/forskrift/
2017-
12-
19-
2286/§
5-
11</a
></p
>
559 <p
>For øvrig burde varsleren Edward Snowden få politisk asyl i Norge.
</p
>
561 <p
>Som vanlig, hvis du bruker Bitcoin og ønsker å vise din støtte til
562 det jeg driver med, setter jeg pris på om du sender Bitcoin-donasjoner
564 <b
><a href=
"bitcoin:
15oWEoG9dUPovwmUL9KWAnYRtNJEkP1u1b
">15oWEoG9dUPovwmUL9KWAnYRtNJEkP1u1b
</a
></b
>. Merk,
565 betaling med bitcoin er ikke anonymt. :)
</p
>
570 <title>New and improved sqlcipher in Debian for accessing Signal database
</title>
571 <link>https://www.hungry.com/~pere/blog/New_and_improved_sqlcipher_in_Debian_for_accessing_Signal_database.html
</link>
572 <guid isPermaLink=
"true">https://www.hungry.com/~pere/blog/New_and_improved_sqlcipher_in_Debian_for_accessing_Signal_database.html
</guid>
573 <pubDate>Sun,
12 Nov
2023 12:
00:
00 +
0100</pubDate>
574 <description><p
>For a while now I wanted to have direct access to the
575 <a href=
"https://signal.org/
">Signal
</a
> database of messages and
576 channels of my Desktop edition of Signal. I prefer the enforced end
577 to end encryption of Signal these days for my communication with
578 friends and family, to increase the level of safety and privacy as
579 well as raising the cost of the mass surveillance government and
580 non-government entities practice these days. In August I came across
582 <a href=
"https://www.yoranbrondsema.com/post/the-guide-to-extracting-statistics-from-your-signal-conversations/
">recipe
583 on how to use sqlcipher to extract statistics from the Signal
584 database
</a
> explaining how to do this. Unfortunately this did not
585 work with the version of sqlcipher in Debian. The
586 <a href=
"http://tracker.debian.org/sqlcipher/
">sqlcipher
</a
>
587 package is a
"fork
" of the sqlite package with added support for
588 encrypted databases. Sadly the current Debian maintainer
589 <a href=
"https://bugs.debian.org/
961598">announced more than three
590 years ago that he did not have time to maintain sqlcipher
</a
>, so it
591 seemed unlikely to be upgraded by the maintainer. I was reluctant to
592 take on the job myself, as I have very limited experience maintaining
593 shared libraries in Debian. After waiting and hoping for a few
594 months, I gave up the last week, and set out to update the package. In
595 the process I orphaned it to make it more obvious for the next person
596 looking at it that the package need proper maintenance.
</p
>
598 <p
>The version in Debian was around five years old, and quite a lot of
599 changes had taken place upstream into the Debian maintenance git
600 repository. After spending a few days importing the new upstream
601 versions, realising that upstream did not care much for SONAME
602 versioning as I saw library symbols being both added and removed with
603 minor version number changes to the project, I concluded that I had to
604 do a SONAME bump of the library package to avoid surprising the
605 reverse dependencies. I even added a simple
606 autopkgtest script to ensure the package work as intended. Dug deep
607 into the hole of learning shared library maintenance, I set out a few
608 days ago to upload the new version to Debian experimental to see what
609 the quality assurance framework in Debian had to say about the result.
610 The feedback told me the pacakge was not too shabby, and yesterday I
611 uploaded the latest version to Debian unstable. It should enter
612 testing today or tomorrow, perhaps delayed by
613 <a href=
"https://bugs.debian.org/
1055812">a small library
614 transition
</a
>.
</p
>
616 <p
>Armed with a new version of sqlcipher, I can now have a look at the
617 SQL database in ~/.config/Signal/sql/db.sqlite. First, one need to
618 fetch the encryption key from the Signal configuration using this
619 simple JSON extraction command:
</p
>
621 <pre
>/usr/bin/jq -r
'.
"key
"' ~/.config/Signal/config.json
</pre
>
623 <p
>Assuming the result from that command is
'secretkey
', which is a
624 hexadecimal number representing the key used to encrypt the database.
625 Next, one can now connect to the database and inject the encryption
626 key for access via SQL to fetch information from the database. Here
627 is an example dumping the database structure:
</p
>
630 % sqlcipher ~/.config/Signal/sql/db.sqlite
631 sqlite
> PRAGMA key =
"x
'secretkey
'";
633 CREATE TABLE sqlite_stat1(tbl,idx,stat);
634 CREATE TABLE conversations(
635 id STRING PRIMARY KEY ASC,
643 , profileFamilyName TEXT, profileFullName TEXT, e164 TEXT, serviceId TEXT, groupId TEXT, profileLastFetchedAt INTEGER);
644 CREATE TABLE identityKeys(
645 id STRING PRIMARY KEY ASC,
649 id STRING PRIMARY KEY ASC,
652 CREATE TABLE sessions(
656 , ourServiceId STRING, serviceId STRING);
657 CREATE TABLE attachment_downloads(
658 id STRING primary key,
663 CREATE TABLE sticker_packs(
668 coverStickerId INTEGER,
670 downloadAttempts INTEGER,
674 stickerCount INTEGER,
676 , attemptedStatus STRING, position INTEGER DEFAULT
0 NOT NULL, storageID STRING, storageVersion INTEGER, storageUnknownFields BLOB, storageNeedsSync
677 INTEGER DEFAULT
0 NOT NULL);
678 CREATE TABLE stickers(
680 packId TEXT NOT NULL,
689 PRIMARY KEY (id, packId),
690 CONSTRAINT stickers_fk
692 REFERENCES sticker_packs(id)
695 CREATE TABLE sticker_references(
698 CONSTRAINT sticker_references_fk
700 REFERENCES sticker_packs(id)
704 shortName TEXT PRIMARY KEY,
707 CREATE TABLE messages(
708 rowid INTEGER PRIMARY KEY ASC,
714 schemaVersion INTEGER,
715 conversationId STRING,
718 hasAttachments INTEGER,
719 hasFileAttachments INTEGER,
720 hasVisualMediaAttachments INTEGER,
722 expirationStartTimestamp INTEGER,
725 messageTimer INTEGER,
726 messageTimerStart INTEGER,
727 messageTimerExpiresAt INTEGER,
730 sourceServiceId TEXT, serverGuid STRING NULL, sourceDevice INTEGER, storyId STRING, isStory INTEGER
731 GENERATED ALWAYS AS (type IS
'story
'), isChangeCreatedByUs INTEGER NOT NULL DEFAULT
0, isTimerChangeFromSync INTEGER
732 GENERATED ALWAYS AS (
733 json_extract(json,
'$.expirationTimerUpdate.fromSync
') IS
1
734 ), seenStatus NUMBER default
0, storyDistributionListId STRING, expiresAt INT
737 expirationStartTimestamp + (expireTimer *
1000),
739 )), shouldAffectActivity INTEGER
740 GENERATED ALWAYS AS (
744 'change-number-notification
',
745 'contact-removed-notification
',
746 'conversation-merge
',
747 'group-v1-migration
',
749 'message-history-unsynced
',
750 'profile-change
',
752 'universal-timer-notification
',
753 'verified-change
'
755 ), shouldAffectPreview INTEGER
756 GENERATED ALWAYS AS (
760 'change-number-notification
',
761 'contact-removed-notification
',
762 'conversation-merge
',
763 'group-v1-migration
',
765 'message-history-unsynced
',
766 'profile-change
',
768 'universal-timer-notification
',
769 'verified-change
'
771 ), isUserInitiatedMessage INTEGER
772 GENERATED ALWAYS AS (
776 'change-number-notification
',
777 'contact-removed-notification
',
778 'conversation-merge
',
779 'group-v1-migration
',
780 'group-v2-change
',
782 'message-history-unsynced
',
783 'profile-change
',
785 'universal-timer-notification
',
786 'verified-change
'
788 ), mentionsMe INTEGER NOT NULL DEFAULT
0, isGroupLeaveEvent INTEGER
789 GENERATED ALWAYS AS (
790 type IS
'group-v2-change
' AND
791 json_array_length(json_extract(json,
'$.groupV2Change.details
')) IS
1 AND
792 json_extract(json,
'$.groupV2Change.details[
0].type
') IS
'member-remove
' AND
793 json_extract(json,
'$.groupV2Change.from
') IS NOT NULL AND
794 json_extract(json,
'$.groupV2Change.from
') IS json_extract(json,
'$.groupV2Change.details[
0].aci
')
795 ), isGroupLeaveEventFromOther INTEGER
796 GENERATED ALWAYS AS (
797 isGroupLeaveEvent IS
1
799 isChangeCreatedByUs IS
0
801 GENERATED ALWAYS AS (
802 json_extract(json,
'$.callId
')
804 CREATE TABLE sqlite_stat4(tbl,idx,neq,nlt,ndlt,sample);
807 queueType TEXT STRING NOT NULL,
808 timestamp INTEGER NOT NULL,
811 CREATE TABLE reactions(
812 conversationId STRING,
815 messageReceivedAt INTEGER,
816 targetAuthorAci STRING,
817 targetTimestamp INTEGER,
820 CREATE TABLE senderKeys(
821 id TEXT PRIMARY KEY NOT NULL,
822 senderId TEXT NOT NULL,
823 distributionId TEXT NOT NULL,
825 lastUpdatedDate NUMBER NOT NULL
827 CREATE TABLE unprocessed(
828 id STRING PRIMARY KEY ASC,
835 serverTimestamp INTEGER,
836 sourceServiceId STRING
837 , serverGuid STRING NULL, sourceDevice INTEGER, receivedAtCounter INTEGER, urgent INTEGER, story INTEGER);
838 CREATE TABLE sendLogPayloads(
839 id INTEGER PRIMARY KEY ASC,
841 timestamp INTEGER NOT NULL,
842 contentHint INTEGER NOT NULL,
844 , urgent INTEGER, hasPniSignatureMessage INTEGER DEFAULT
0 NOT NULL);
845 CREATE TABLE sendLogRecipients(
846 payloadId INTEGER NOT NULL,
848 recipientServiceId STRING NOT NULL,
849 deviceId INTEGER NOT NULL,
851 PRIMARY KEY (payloadId, recipientServiceId, deviceId),
853 CONSTRAINT sendLogRecipientsForeignKey
854 FOREIGN KEY (payloadId)
855 REFERENCES sendLogPayloads(id)
858 CREATE TABLE sendLogMessageIds(
859 payloadId INTEGER NOT NULL,
861 messageId STRING NOT NULL,
863 PRIMARY KEY (payloadId, messageId),
865 CONSTRAINT sendLogMessageIdsForeignKey
866 FOREIGN KEY (payloadId)
867 REFERENCES sendLogPayloads(id)
870 CREATE TABLE preKeys(
871 id STRING PRIMARY KEY ASC,
873 , ourServiceId NUMBER
874 GENERATED ALWAYS AS (json_extract(json,
'$.ourServiceId
')));
875 CREATE TABLE signedPreKeys(
876 id STRING PRIMARY KEY ASC,
878 , ourServiceId NUMBER
879 GENERATED ALWAYS AS (json_extract(json,
'$.ourServiceId
')));
882 category TEXT NOT NULL,
884 descriptionTemplate TEXT NOT NULL
886 CREATE TABLE badgeImageFiles(
887 badgeId TEXT REFERENCES badges(id)
890 'order
' INTEGER NOT NULL,
895 CREATE TABLE storyReads (
896 authorId STRING NOT NULL,
897 conversationId STRING NOT NULL,
898 storyId STRING NOT NULL,
899 storyReadDate NUMBER NOT NULL,
901 PRIMARY KEY (authorId, storyId)
903 CREATE TABLE storyDistributions(
904 id STRING PRIMARY KEY NOT NULL,
907 senderKeyInfoJson STRING
908 , deletedAtTimestamp INTEGER, allowsReplies INTEGER, isBlockList INTEGER, storageID STRING, storageVersion INTEGER, storageUnknownFields BLOB, storageNeedsSync INTEGER);
909 CREATE TABLE storyDistributionMembers(
910 listId STRING NOT NULL REFERENCES storyDistributions(id)
913 serviceId STRING NOT NULL,
915 PRIMARY KEY (listId, serviceId)
917 CREATE TABLE uninstalled_sticker_packs (
918 id STRING NOT NULL PRIMARY KEY,
919 uninstalledAt NUMBER NOT NULL,
921 storageVersion NUMBER,
922 storageUnknownFields BLOB,
923 storageNeedsSync INTEGER NOT NULL
925 CREATE TABLE groupCallRingCancellations(
926 ringId INTEGER PRIMARY KEY,
927 createdAt INTEGER NOT NULL
929 CREATE TABLE IF NOT EXISTS
'messages_fts_data
'(id INTEGER PRIMARY KEY, block BLOB);
930 CREATE TABLE IF NOT EXISTS
'messages_fts_idx
'(segid, term, pgno, PRIMARY KEY(segid, term)) WITHOUT ROWID;
931 CREATE TABLE IF NOT EXISTS
'messages_fts_content
'(id INTEGER PRIMARY KEY, c0);
932 CREATE TABLE IF NOT EXISTS
'messages_fts_docsize
'(id INTEGER PRIMARY KEY, sz BLOB);
933 CREATE TABLE IF NOT EXISTS
'messages_fts_config
'(k PRIMARY KEY, v) WITHOUT ROWID;
934 CREATE TABLE edited_messages(
935 messageId STRING REFERENCES messages(id)
939 , conversationId STRING);
940 CREATE TABLE mentions (
941 messageId REFERENCES messages(id) ON DELETE CASCADE,
946 CREATE TABLE kyberPreKeys(
947 id STRING PRIMARY KEY NOT NULL,
948 json TEXT NOT NULL, ourServiceId NUMBER
949 GENERATED ALWAYS AS (json_extract(json,
'$.ourServiceId
')));
950 CREATE TABLE callsHistory (
951 callId TEXT PRIMARY KEY,
952 peerId TEXT NOT NULL, -- conversation id (legacy) | uuid | groupId | roomId
953 ringerId TEXT DEFAULT NULL, -- ringer uuid
954 mode TEXT NOT NULL, -- enum
"Direct
" |
"Group
"
955 type TEXT NOT NULL, -- enum
"Audio
" |
"Video
" |
"Group
"
956 direction TEXT NOT NULL, -- enum
"Incoming
" |
"Outgoing
957 -- Direct: enum
"Pending
" |
"Missed
" |
"Accepted
" |
"Deleted
"
958 -- Group: enum
"GenericGroupCall
" |
"OutgoingRing
" |
"Ringing
" |
"Joined
" |
"Missed
" |
"Declined
" |
"Accepted
" |
"Deleted
"
959 status TEXT NOT NULL,
960 timestamp INTEGER NOT NULL,
961 UNIQUE (callId, peerId) ON CONFLICT FAIL
963 [ dropped all indexes to save space in this blog post ]
964 CREATE TRIGGER messages_on_view_once_update AFTER UPDATE ON messages
966 new.body IS NOT NULL AND new.isViewOnce =
1
968 DELETE FROM messages_fts WHERE rowid = old.rowid;
970 CREATE TRIGGER messages_on_insert AFTER INSERT ON messages
971 WHEN new.isViewOnce IS NOT
1 AND new.storyId IS NULL
973 INSERT INTO messages_fts
976 (new.rowid, new.body);
978 CREATE TRIGGER messages_on_delete AFTER DELETE ON messages BEGIN
979 DELETE FROM messages_fts WHERE rowid = old.rowid;
980 DELETE FROM sendLogPayloads WHERE id IN (
981 SELECT payloadId FROM sendLogMessageIds
982 WHERE messageId = old.id
984 DELETE FROM reactions WHERE rowid IN (
985 SELECT rowid FROM reactions
986 WHERE messageId = old.id
988 DELETE FROM storyReads WHERE storyId = old.storyId;
990 CREATE VIRTUAL TABLE messages_fts USING fts5(
992 tokenize =
'signal_tokenizer
'
994 CREATE TRIGGER messages_on_update AFTER UPDATE ON messages
996 (new.body IS NULL OR old.body IS NOT new.body) AND
997 new.isViewOnce IS NOT
1 AND new.storyId IS NULL
999 DELETE FROM messages_fts WHERE rowid = old.rowid;
1000 INSERT INTO messages_fts
1003 (new.rowid, new.body);
1005 CREATE TRIGGER messages_on_insert_insert_mentions AFTER INSERT ON messages
1007 INSERT INTO mentions (messageId, mentionAci, start, length)
1009 SELECT messages.id, bodyRanges.value -
>> 'mentionAci
' as mentionAci,
1010 bodyRanges.value -
>> 'start
' as start,
1011 bodyRanges.value -
>> 'length
' as length
1012 FROM messages, json_each(messages.json -
>> 'bodyRanges
') as bodyRanges
1013 WHERE bodyRanges.value -
>> 'mentionAci
' IS NOT NULL
1015 AND messages.id = new.id;
1017 CREATE TRIGGER messages_on_update_update_mentions AFTER UPDATE ON messages
1019 DELETE FROM mentions WHERE messageId = new.id;
1020 INSERT INTO mentions (messageId, mentionAci, start, length)
1022 SELECT messages.id, bodyRanges.value -
>> 'mentionAci
' as mentionAci,
1023 bodyRanges.value -
>> 'start
' as start,
1024 bodyRanges.value -
>> 'length
' as length
1025 FROM messages, json_each(messages.json -
>> 'bodyRanges
') as bodyRanges
1026 WHERE bodyRanges.value -
>> 'mentionAci
' IS NOT NULL
1028 AND messages.id = new.id;
1033 <p
>Finally I have the tool needed to inspect and process Signal
1034 messages that I need, without using the vendor provided client. Now
1035 on to transforming it to a more useful format.
</p
>
1037 <p
>As usual, if you use Bitcoin and want to show your support of my
1038 activities, please send Bitcoin donations to my address
1039 <b
><a href=
"bitcoin:
15oWEoG9dUPovwmUL9KWAnYRtNJEkP1u1b
">15oWEoG9dUPovwmUL9KWAnYRtNJEkP1u1b
</a
></b
>.
</p
>
1044 <title>New chrpath release
0.17</title>
1045 <link>https://www.hungry.com/~pere/blog/New_chrpath_release_0_17.html
</link>
1046 <guid isPermaLink=
"true">https://www.hungry.com/~pere/blog/New_chrpath_release_0_17.html
</guid>
1047 <pubDate>Fri,
10 Nov
2023 07:
30:
00 +
0100</pubDate>
1048 <description><p
>The chrpath package provide a simple command line tool to remove or
1049 modify the rpath or runpath of compiled ELF program. It is almost
10
1050 years since I updated the code base, but I stumbled over the tool
1051 today, and decided it was time to move the code base from Subversion
1052 to git and find a new home for it, as the previous one (Debian Alioth)
1053 has been shut down. I decided to go with
1054 <a href=
"https://codeberg.org/
">Codeberg
</a
> this time, as it is my git
1055 service of choice these days, did a quick and dirty migration to git
1056 and updated the code with a few patches I found in the Debian bug
1057 tracker. These are the release notes:
</p
>
1059 <p
>New in
0.17 released
2023-
11-
10:
</p
>
1062 <li
>Moved project to Codeberg, as Alioth is shut down.
</li
>
1063 <li
>Add Solaris support (use
&lt;sys/byteorder.h
> instead of
&lt;byteswap.h
>).
1064 Patch from Rainer Orth.
</li
>
1065 <li
>Added missing newline from printf() line. Patch from Frank Dana.
</li
>
1066 <li
>Corrected handling of multiple ELF sections. Patch from Frank Dana.
</li
>
1067 <li
>Updated build rules for .deb. Partly based on patch from djcj.
</li
>
1070 <p
>The latest edition is tagged and available from
1071 <a href=
"https://codeberg.org/pere/chrpath
">https://codeberg.org/pere/chrpath
</a
>.
1073 <p
>As usual, if you use Bitcoin and want to show your support of my
1074 activities, please send Bitcoin donations to my address
1075 <b
><a href=
"bitcoin:
15oWEoG9dUPovwmUL9KWAnYRtNJEkP1u1b
">15oWEoG9dUPovwmUL9KWAnYRtNJEkP1u1b
</a
></b
>.
</p
>
1080 <title>Test framework for DocBook processors / formatters
</title>
1081 <link>https://www.hungry.com/~pere/blog/Test_framework_for_DocBook_processors___formatters.html
</link>
1082 <guid isPermaLink=
"true">https://www.hungry.com/~pere/blog/Test_framework_for_DocBook_processors___formatters.html
</guid>
1083 <pubDate>Sun,
5 Nov
2023 13:
00:
00 +
0100</pubDate>
1084 <description><p
>All the books I have published so far has been using
1085 <a href=
"https://docbook.org/
">DocBook
</a
> somewhere in the process.
1086 For the first book, the source format was DocBook, while for every
1087 later book it was an intermediate format used as the stepping stone to
1088 be able to present the same manuscript in several formats, on paper,
1089 as ebook in ePub format, as a HTML page and as a PDF file either for
1090 paper production or for Internet consumption. This is made possible
1091 with a wide variety of free software tools with DocBook support in
1092 Debian. The source format of later books have been docx via rst,
1093 Markdown, Filemaker and Asciidoc, and for all of these I was able to
1094 generate a suitable DocBook file for further processing using
1095 <a href=
"https://tracker.debian.org/pkg/pandoc
">pandoc
</a
>,
1096 <a href=
"https://tracker.debian.org/pkg/asciidoc
">a2x
</a
> and
1097 <a href=
"https://tracker.debian.org/pkg/asciidoctor
">asciidoctor
</a
>,
1098 as well as rendering using
1099 <a href=
"https://tracker.debian.org/pkg/xmlto
">xmlto
</a
>,
1100 <a href=
"https://tracker.debian.org/pkg/dbtoepub
">dbtoepub
</a
>,
1101 <a href=
"https://tracker.debian.org/pkg/dblatex
">dblatex
</a
>,
1102 <a href=
"https://tracker.debian.org/pkg/docbook-xsl
">docbook-xsl
</a
> and
1103 <a href=
"https://tracker.debian.org/pkg/fop
">fop
</a
>.
</p
>
1105 <p
>Most of the
<a href=
"http://www.hungry.com/~pere/publisher/
">books I
1106 have published
</a
> are translated books, with English as the source
1107 language. The use of
1108 <a href=
"https://tracker.debian.org/pkg/po4a
">po4a
</a
> to
1109 handle translations using the gettext PO format has been a blessing,
1110 but publishing translated books had triggered the need to ensure the
1111 DocBook tools handle relevant languages correctly. For every new
1112 language I have published, I had to submit patches dblatex, dbtoepub
1113 and docbook-xsl fixing incorrect language and country specific issues
1114 in the framework themselves. Typically this has been missing keywords
1115 like
'figure
' or sort ordering of index entries. After a while it
1116 became tiresome to only discover issues like this by accident, and I
1117 decided to write a DocBook
"test framework
" exercising various
1118 features of DocBook and allowing me to see all features exercised for
1119 a given language. It consist of a set of DocBook files, a version
4
1120 book, a version
5 book, a v4 book set, a v4 selection of problematic
1121 tables, one v4 testing sidefloat and finally one v4 testing a book of
1122 articles. The DocBook files are accompanied with a set of build rules
1123 for building PDF using dblatex and docbook-xsl/fop, HTML using xmlto
1124 or docbook-xsl and epub using dbtoepub. The result is a set of files
1125 visualizing footnotes, indexes, table of content list, figures,
1126 formulas and other DocBook features, allowing for a quick review on
1127 the completeness of the given locale settings. To build with a
1128 different language setting, all one need to do is edit the lang= value
1129 in the .xml file to pick a different ISO
639 code value and run
1130 'make
'.
</p
>
1132 <p
>The
<a href=
"https://codeberg.org/pere/docbook-example/
">test framework
1133 source code
</a
> is available from Codeberg, and a generated set of
1134 presentations of the various examples is available as Codeberg static
1136 <a href=
"https://pere.codeberg.page/docbook-example/
">https://pere.codeberg.page/docbook-example/
</a
>.
1137 Using this test framework I have been able to discover and report
1138 several bugs and missing features in various tools, and got a lot of
1139 them fixed. For example I got Northern Sami keywords added to both
1140 docbook-xsl and dblatex, fixed several typos in Norwegian bokmål and
1141 Norwegian Nynorsk, support for non-ascii title IDs added to pandoc,
1142 Norwegian index sorting support fixed in xindy and initial Norwegian
1143 Bokmål support added to dblatex. Some issues still remains, though.
1144 Default index sorting rules are still broken in several tools, so the
1145 Norwegian letters æ, ø and å are more often than not sorted properly
1146 in the book index.
</p
>
1148 <p
>The test framework recently received some more polish, as part of
1149 publishing my latest book. This book contained a lot of fairly
1150 complex tables, which exposed bugs in some of the tools. This made me
1151 add a new test file with various tables, as well as spend some time to
1152 brush up the build rules. My goal is for the test framework to
1153 exercise all DocBook features to make it easier to see which features
1154 work with different processors, and hopefully get them all to support
1155 the full set of DocBook features. Feel free to send patches to extend
1156 the test set, and test it with your favorite DocBook processor.
1157 Please visit these two URLs to learn more:
</p
>
1160 <li
><a href=
"https://codeberg.org/pere/docbook-example/
">https://codeberg.org/pere/docbook-example/
</a
></li
>
1161 <li
><a href=
"https://pere.codeberg.page/docbook-example/
">https://pere.codeberg.page/docbook-example/
</a
></li
>
1164 <p
>If you want to learn more on Docbook and translations, I recommend
1165 having a look at the
<a href=
"https://docbook.org/
">the DocBook
1167 <a href=
"https://doccookbook.sourceforge.net/html/en/
">the DoCookBook
1168 site
<a/
> and my earlier blog post on
1169 <a href=
"https://people.skolelinux.org/pere/blog/From_English_wiki_to_translated_PDF_and_epub_via_Docbook.html
">how
1170 the Skolelinux project process and translate documentation
</a
>, a talk I gave earlier this year on
1171 <a href=
"https://www.nuug.no/aktiviteter/
20230314-oversetting-og-publisering-av-b%c3%b8ker-med-fri-programvare/
">how
1172 to translate and publish books using free software
</a
> (Norwegian
1177 https://github.com/docbook/xslt10-stylesheets/issues/
205 (docbook-xsl: sme support)
1178 https://bugs.debian.org/
968437 (xindy: index sorting rules for nb/nn)
1179 https://bugs.debian.org/
856123 (pandoc: markdown to docbook with non-english titles)
1180 https://bugs.debian.org/
864813 (dblatex: missing nb words)
1181 https://bugs.debian.org/
756386 (dblatex: index sorting rules for nb/nn)
1182 https://bugs.debian.org/
796871 (dbtoepub: index sorting rules for nb/nn)
1183 https://bugs.debian.org/
792616 (dblatex: PDF metadata)
1184 https://bugs.debian.org/
686908 (docbook-xsl: index sorting rules for nb/nn)
1185 https://sourceforge.net/tracker/?func=detail
&atid=
373747&aid=
3556630&group_id=
21935 (docbook-xsl: nb/nn support)
1186 https://bugs.debian.org/
684391 (dblatex: initial nb support)
1190 <p
>As usual, if you use Bitcoin and want to show your support of my
1191 activities, please send Bitcoin donations to my address
1192 <b
><a href=
"bitcoin:
15oWEoG9dUPovwmUL9KWAnYRtNJEkP1u1b
">15oWEoG9dUPovwmUL9KWAnYRtNJEkP1u1b
</a
></b
>.
</p
>