]> pere.pagekite.me Git - homepage.git/blob - blog/archive/2023/11/11.rss
Generated.
[homepage.git] / blog / archive / 2023 / 11 / 11.rss
1 <?xml version="1.0" encoding="ISO-8859-1"?>
2 <rss version='2.0' xmlns:lj='http://www.livejournal.org/rss/lj/1.0/'>
3 <channel>
4 <title>Petter Reinholdtsen - Entries from November 2023</title>
5 <description>Entries from November 2023</description>
6 <link>http://www.hungry.com/~pere/blog/</link>
7
8
9 <item>
10 <title>«Når «på» blir «pÃ¥»: Et reservoar av tegn sett fra depotet» i tidsskriftet Aksess</title>
11 <link>http://www.hungry.com/~pere/blog/_N_r__p___blir__p_____Et_reservoar_av_tegn_sett_fra_depotet__i_tidsskriftet_Aksess.html</link>
12 <guid isPermaLink="true">http://www.hungry.com/~pere/blog/_N_r__p___blir__p_____Et_reservoar_av_tegn_sett_fra_depotet__i_tidsskriftet_Aksess.html</guid>
13 <pubDate>Wed, 15 Nov 2023 09:20:00 +0100</pubDate>
14 <description>&lt;p&gt;For noen uker siden skrev en kamerat og meg
15 &lt;a href=&quot;https://www.aksess-tidsskrift.no/fordypning/175530&quot;&gt;en
16 artikkel om tegnsett&lt;/a&gt; i
17 &lt;a href=&quot;https://www.aksess-tidsskrift.no/&quot;&gt;arkivtidsskriftet
18 Aksess&lt;/a&gt; både på web og i papirutgave nr. 3 2023. Her er det som
19 nettopp ble publisert.&lt;/p&gt;
20
21 &lt;blockquote&gt;
22
23 &lt;p&gt;&lt;strong&gt;Når «på» blir «pÃ¥»: Et reservoar av tegn sett fra
24 depotet&lt;/strong&gt;&lt;/p&gt;
25
26 &lt;p&gt;av Thomas Sødring og Petter Reinholdtsen&lt;/p&gt;
27
28 &lt;p&gt;De færreste av oss tenker over hva som skjer dypere i datamaskinen
29 mens vi sitter der og skriver noe på tastaturet. Når du trykker på
30 tasten «Å», så vises bokstaven Å. Men noen ganger blir det
31 feil. Hvorfor det – og hva er viktig å være klar over i
32 arkivsammenheng?&lt;/p&gt;
33
34 &lt;p&gt;Dersom bokstaver tolkes forskjellig mellom systemer, blir det fort
35 rot, dette kalles mojibake blant kjennere, etter det japanske
36 uttrykket for tegnomforming. Det er en lang historie her som tidvis
37 har vært preget av rot. Noen husker kanskje tilbake til en tid der
38 bokstavene æ, ø og å ofte var ødelagt i e-poster – et klassisk
39 eksempel på tegnsettproblemstilling.&lt;/p&gt;
40
41 &lt;p id=&quot;tegnsett_access_nå_og_før&quot;&gt;&lt;strong&gt;«Nå» og «før»&lt;/strong&gt;&lt;/p&gt;
42
43 &lt;p&gt;Tid er et skjult problem for depot fordi vi danner dokumentasjon i
44 en kontekst som er preget av å være «nå». Vår forståelse av verden og
45 bruken av teknologi er utgangspunktet for denne konteksten. Tenk selv
46 hvordan verden har utviklet seg de siste 20 årene, hva samfunnet er
47 opptatt av, og hvordan vi bruker teknologi i hverdagen. Tid er et
48 skjult problem fordi når vi trekker dokumentasjon ut av systemer og
49 deponerer for langtidsbevaring, er konteksten til materialet «nå», men
50 verden går videre. Ettersom teknologien og måten vi bruker den på,
51 utvikler seg, blir «nå» til «før», og dokumentasjonen befinner seg
52 snart i en «før»-kontekst.&lt;/p&gt;
53
54 &lt;p&gt;Dette med «før» og «nå» i forhold til dokumentasjonens kontekst er
55 noe vi er veldig lite bevisste på, men det er en problemstilling
56 depotarkivene eier og forvalter. En av disse utfordringene er hvorfor
57 «Ø» ikke nødvendigvis er det samme som «Ø», og hvorfor det i det hele
58 tatt gir mening å si noe sånt. Vi snakker her om noe som heter
59 tegnsett, som er en avtalt måte å representere bokstaver, tall og
60 andre symboler på slik at vi på en feilfri måte kan utveksle tekst
61 mellom datasystemer.&lt;/p&gt;
62
63 &lt;p&gt;Tegnsettproblemstillingen er satt sammen av fire fasetter;
64 repertoar, representasjon, koding og uttegning.&lt;/p&gt;
65
66 &lt;p id=&quot;tegnsett_access_repertoarer&quot;&gt;&lt;strong&gt;Repertoarer&lt;/strong&gt;&lt;/p&gt;
67
68 &lt;p&gt;Repertoar er en samling med tegn og symboler som kan
69 representeres. Tenk norsk alfabet eller japanske piktogrammer, men
70 også matematiske og elektroniske symboler. Bokstaven «stor a» kan være
71 en oppføring i et slikt repertoar. For å kunne brukes i en datamaskin
72 trenger hver oppføring i et slikt repertoar en representasjon, hvilket
73 i datamaskinsammenheng betyr at det tilordnes et tall. Tallet kan
74 lagres på ulike vis i en eller flere kodingsformater. For eksempel kan
75 en skrive tallet ti som både 10, X og A, i henholdsvis
76 titallssystemet, romertallssystemet og sekstentallssystemet.&lt;/p&gt;
77
78 &lt;p&gt;Hvis en skal kunne lese inn filer og vite hvilket tall og hvilken
79 representasjon og instans i et repertoar det er snakk om, så må en
80 vite hvordan tallet er kodet. Sist, men ikke minst, for å kunne bruke
81 symbolet til noe må det kunne være kjent hvordan det skal se ut eller
82 tegnes på ark. Det finnes utallige skrifttyper med norske bokstaver,
83 alle litt forskjellige, og skal en kunne tegne en stor A på skjermen,
84 så må datamaskinen vite hva den skal tegne. Skrifttyper inneholder
85 informasjon om hvordan ulike tall skal tegnes. De inneholder ikke
86 alltid alle symbolene som er brukt i en tekst, hvilket gjør at ikke
87 alle forståtte tegn vil kunne vises på skjerm eller ark.&lt;/p&gt;
88
89 &lt;p&gt;Hver av disse fasettene må være avklart for å kunne ta vare på og vise
90 frem tekst med en datamaskin. Kombinasjon av repertoar, representasjon
91 og koding er det en kaller et tegnsett. Kombinasjonen av
92 representasjon og uttegning kalles en skrifttype. De fleste
93 skrifttyper har også informasjon om repertoar, men det finnes
94 skrifttyper som kun kobler mellom tallkode og uttegning, uten å
95 fortelle noe om hvordan tallkodene egentlig skal tolkes.&lt;/p&gt;
96
97 &lt;p id=&quot;tegnsett_access_fra_ascii_til_iso_8859&quot;&gt;&lt;strong&gt;Fra ASCII til ISO-8859&lt;/strong&gt;&lt;/p&gt;
98
99 &lt;p&gt;Vi begynner historien med ASCII (American Standard Code for
100 Information Interchange) som har en historie som spores tilbake til
101 1963. Utgangspunktet til ASCII var at det kunne kode opp til 128
102 forskjellige symboler i vanlig bruk i USA. De visuelle symbolene i
103 ASCII er de små og store bokstavene (a til z og A til Z), tall (0 til
104 9) og tegnsettingssymboler (for eksempel semikolon, komma og
105 punktum). ASCII har også noen usynlige symboler som ble brukt for
106 bl.a. kommunikasjon. Før ASCII var det for eksempel teleks-tegnsett
107 med plass til bare 32 tegn og EBCDIC med plass til 256 tegn, alle med
108 en helt annen rekkefølge på symbolene enn ASCII, men de har vært lite
109 brukt de siste femti årene. Et eksempel på noen utvalgte symboler i
110 repertoaret til ASCII vises i tabell 1.&lt;/p&gt;
111
112 &lt;table align=&quot;center&quot; width=&quot;50%&quot;&gt;
113
114 &lt;caption&gt;Tabell 1. Eksempel på utvalgte symboler hentet fra
115 ASCII-tegnsettet. Kolonnen «Binær» viser symbolets verdi i
116 totallssystemet (1 og 0 tall), mens kolonnen «Desimal» viser symbolets
117 verdi i titallssystemet.&lt;/caption&gt;
118
119 &lt;tbody&gt;
120 &lt;tr&gt;
121 &lt;th&gt;Grafisk&lt;/th&gt;
122 &lt;th&gt;Binær&lt;/th&gt;
123 &lt;th&gt;Desimal&lt;/th&gt;
124 &lt;/tr&gt;
125 &lt;tr&gt;
126 &lt;td&gt;A&lt;/td&gt;
127 &lt;td&gt;1000001&lt;/td&gt;
128 &lt;td align=&quot;right&quot;&gt;65&lt;/td&gt;
129 &lt;/tr&gt;
130 &lt;tr&gt;
131 &lt;td&gt;M&lt;/td&gt;
132 &lt;td&gt;1001101&lt;/td&gt;
133 &lt;td align=&quot;right&quot;&gt;77&lt;/td&gt;
134 &lt;/tr&gt;
135 &lt;tr&gt;
136 &lt;td&gt;Z&lt;/td&gt;
137 &lt;td&gt;1011010&lt;/td&gt;
138 &lt;td align=&quot;right&quot;&gt;90&lt;/td&gt;
139 &lt;/tr&gt;
140 &lt;tr&gt;
141 &lt;td&gt;a&lt;/td&gt;
142 &lt;td&gt;1100001&lt;/td&gt;
143 &lt;td align=&quot;right&quot;&gt;97&lt;/td&gt;
144 &lt;/tr&gt;
145 &lt;tr&gt;
146 &lt;td&gt;m&lt;/td&gt;
147 &lt;td&gt;1101101&lt;/td&gt;
148 &lt;td align=&quot;right&quot;&gt;109&lt;/td&gt;
149 &lt;/tr&gt;
150 &lt;tr&gt;
151 &lt;td&gt;z&lt;/td&gt;
152 &lt;td&gt;1111010&lt;/td&gt;
153 &lt;td align=&quot;right&quot;&gt;122&lt;/td&gt;
154 &lt;/tr&gt;
155 &lt;tr&gt;
156 &lt;td&gt;0&lt;/td&gt;
157 &lt;td&gt;0110000&lt;/td&gt;
158 &lt;td align=&quot;right&quot;&gt;48&lt;/td&gt;
159 &lt;/tr&gt;
160 &lt;tr&gt;
161 &lt;td&gt;9&lt;/td&gt;
162 &lt;td&gt;0111001&lt;/td&gt;
163 &lt;td align=&quot;right&quot;&gt;58&lt;/td&gt;
164 &lt;/tr&gt;
165 &lt;tr&gt;
166 &lt;td&gt;;&lt;/td&gt;
167 &lt;td&gt;0111011&lt;/td&gt;
168 &lt;td align=&quot;right&quot;&gt;59&lt;/td&gt;
169 &lt;/tr&gt;
170 &lt;/tbody&gt;
171 &lt;/table&gt;
172
173 &lt;p&gt;Det opprinnelige ASCII-tegnsettet ble også omtalt som ASCII-7 og
174 brukte 7 bits (0 og 1) for å representere symboler. Datamaskiner er
175 ofte konfigurert til å jobbe med enheter der bits er gruppert som 4
176 eller 8 bits . Det lå en mulighet i å ta i bruk bit åtte. En slik
177 endring ville gjøre det mulig for datamaskiner å øke antall symboler
178 de kunne representere, noe som ga en økning fra 128 forskjellige
179 symboler til 256 forskjellige symboler. Det ble åpnet for å innlemme
180 de nordiske bokstavene sammen med ASCII, og dette ble etter hvert
181 standardisert som ISO-8859-1. Tabell 2 viser deler av ISO-8859-1 som
182 støtter de norske bokstavene.&lt;/p&gt;
183
184 &lt;p&gt;Det sier seg selv at muligheten til å representere inntil 256 symboler
185 ikke holder når vi snakker om en global verden, og det ble gjort et
186 standardiseringsløp som tok utgangspunkt i ASCII-7 med en utvidelse
187 til å bruke den åttende biten for ulike språkgrupper. Denne standarden
188 heter ISO-8859 og er inndelt i opptil 16 varianter, altså fra
189 ISO-8859-1 til ISO-8859-16.&lt;/p&gt;
190
191 &lt;table align=&quot;center&quot; width=&quot;50%&quot;&gt;
192
193 &lt;caption&gt;Tabell 2. Koding av de norske symbolene slik de er definert i
194 ISO-8859-1 tegnsettet.&lt;/caption&gt;
195
196 &lt;tbody&gt;
197 &lt;tr&gt;
198 &lt;th&gt;Grafisk&lt;/th&gt;
199 &lt;th&gt;Binær&lt;/th&gt;
200 &lt;th&gt;Desimal&lt;/th&gt;
201 &lt;/tr&gt;
202 &lt;tr&gt;
203 &lt;td&gt;Æ&lt;/td&gt;
204 &lt;td&gt;11000110&lt;/td&gt;
205 &lt;td align=&quot;right&quot;&gt;198&lt;/td&gt;
206 &lt;/tr&gt;
207 &lt;tr&gt;
208 &lt;td&gt;Ø&lt;/td&gt;
209 &lt;td&gt;11011000&lt;/td&gt;
210 &lt;td align=&quot;right&quot;&gt;216&lt;/td&gt;
211 &lt;/tr&gt;
212 &lt;tr&gt;
213 &lt;td&gt;Å&lt;/td&gt;
214 &lt;td&gt;11000101&lt;/td&gt;
215 &lt;td align=&quot;right&quot;&gt;197&lt;/td&gt;
216 &lt;/tr&gt;
217 &lt;tr&gt;
218 &lt;td&gt;æ&lt;/td&gt;
219 &lt;td&gt;11100110&lt;/td&gt;
220 &lt;td align=&quot;right&quot;&gt;230&lt;/td&gt;
221 &lt;/tr&gt;
222 &lt;tr&gt;
223 &lt;td&gt;ø&lt;/td&gt;
224 &lt;td&gt;11111000&lt;/td&gt;
225 &lt;td align=&quot;right&quot;&gt;248&lt;/td&gt;
226 &lt;/tr&gt;
227 &lt;tr&gt;
228 &lt;td&gt;å&lt;/td&gt;
229 &lt;td&gt;11100101&lt;/td&gt;
230 &lt;td align=&quot;right&quot;&gt;229&lt;/td&gt;
231 &lt;/tr&gt;
232 &lt;/tbody&gt;
233 &lt;/table&gt;
234
235 &lt;p&gt;Norske tegn er definert i ISO-8859-1, som også omtales som Latin 1, de
236 fleste samiske tegn er definert i ISO-8859-4 (Latin 4) mens tilgang
237 til €-symbolet kom med ISO-8859-15 (Latin 9). ISO-8859-15 er en
238 revisjon av ISO-8859-1 som fjerner noen lite brukte symboler og
239 erstatter bokstaver som er mer brukt, og introduserer €-symbolet. Det
240 er viktig å merke at alle ISO-8859-variantene har overlapp med
241 ASCII-7, noe som ga samvirke med de engelskspråklige landene som ikke
242 trengte å gjøre noe. Det innebærer også at de første 128 verdiene i
243 ISO-8859-variantene representerer de samme symbolene. Det er først når
244 du kommer til tolkningen av de resterende 128 verdiene med nummer 128
245 til 255, at det oppsto tolkningsutfordringer mellom
246 ISO-8859-variantene.&lt;/p&gt;
247
248 &lt;p&gt;ISO-8859-verdenen fungerte godt så lenge tegnsettet som ble brukt når
249 innhold ble skapt, også ble brukt når innhold ble gjengitt og du ikke
250 trengte å kombinere innhold fra forskjellige tegnsett i samme
251 dokument. Utfordringen med bruken av ISO-8859-variantene ble raskt
252 tydelig i en mer globalisert verden med utveksling av tekst på tvers
253 av landegrenser der tekstlig innhold i dokumenter, e-poster og
254 websider kunne bli skrevet med ett tegnsett og gjengitt med et annet
255 tegnsett.&lt;/p&gt;
256
257 &lt;table align=&quot;center&quot; width=&quot;60%&quot;&gt;
258
259 &lt;caption&gt;Tabell 3. Viser tolkning av verdiene som er tilegnet de
260 norske symbolene i ISO-8859-1 i de andre ISO 8859-variatene. Merk
261 ISO-8859-12 ikke finnes da arbeidet ble avsluttet.&lt;sup&gt;[&lt;a id=&quot;tegnsett_access_footnoteref_1&quot; href=&quot;#tegnsett_access_footnotedef_1&quot; title=&quot;View footnote.&quot;&gt;1&lt;/a&gt;]&lt;/sup&gt;&lt;/caption&gt;
262
263 &lt;tbody&gt;
264 &lt;tr&gt;
265 &lt;th&gt;Binærverdi&lt;/th&gt;
266 &lt;th&gt;1&lt;/th&gt;
267 &lt;th&gt;2&lt;/th&gt;
268 &lt;th&gt;3&lt;/th&gt;
269 &lt;th&gt;4&lt;/th&gt;
270 &lt;th&gt;5&lt;/th&gt;
271 &lt;th&gt;6&lt;/th&gt;
272 &lt;th&gt;7&lt;/th&gt;
273 &lt;th&gt;8&lt;/th&gt;
274 &lt;th&gt;9&lt;/th&gt;
275 &lt;th&gt;10&lt;/th&gt;
276 &lt;th&gt;11&lt;/th&gt;
277 &lt;th&gt;13&lt;/th&gt;
278 &lt;th&gt;14&lt;/th&gt;
279 &lt;th&gt;15&lt;/th&gt;
280 &lt;th&gt;16&lt;/th&gt;
281 &lt;/tr&gt;
282 &lt;tr&gt;
283 &lt;td&gt;11000110&lt;/td&gt;
284 &lt;td&gt;Æ&lt;/td&gt;
285 &lt;td&gt;Ć&lt;/td&gt;
286 &lt;td&gt;Ĉ&lt;/td&gt;
287 &lt;td&gt;Æ&lt;/td&gt;
288 &lt;td&gt;Ц&lt;/td&gt;
289 &lt;td&gt;ئ&lt;/td&gt;
290 &lt;td&gt;Ζ&lt;/td&gt;
291 &lt;td&gt;&lt;/td&gt;
292 &lt;td&gt;Æ&lt;/td&gt;
293 &lt;td&gt;Æ&lt;/td&gt;
294 &lt;td&gt;&lt;/td&gt;
295 &lt;td&gt;Ę&lt;/td&gt;
296 &lt;td&gt;Æ&lt;/td&gt;
297 &lt;td&gt;Æ&lt;/td&gt;
298 &lt;td&gt;Æ&lt;/td&gt;
299 &lt;/tr&gt;
300 &lt;tr&gt;
301 &lt;td&gt;11011000&lt;/td&gt;
302 &lt;td&gt;Ø&lt;/td&gt;
303 &lt;td&gt;Ř&lt;/td&gt;
304 &lt;td&gt;Ĝ&lt;/td&gt;
305 &lt;td&gt;Ø&lt;/td&gt;
306 &lt;td&gt;и&lt;/td&gt;
307 &lt;td&gt;ظ&lt;/td&gt;
308 &lt;td&gt;Ψ&lt;/td&gt;
309 &lt;td&gt;&lt;/td&gt;
310 &lt;td&gt;Ø&lt;/td&gt;
311 &lt;td&gt;Ø&lt;/td&gt;
312 &lt;td&gt;&lt;/td&gt;
313 &lt;td&gt;Ų&lt;/td&gt;
314 &lt;td&gt;Ø&lt;/td&gt;
315 &lt;td&gt;Ø&lt;/td&gt;
316 &lt;td&gt;Ű&lt;/td&gt;
317 &lt;/tr&gt;
318 &lt;tr&gt;
319 &lt;td&gt;11000101&lt;/td&gt;
320 &lt;td&gt;Å&lt;/td&gt;
321 &lt;td&gt;Ĺ&lt;/td&gt;
322 &lt;td&gt;Ċ&lt;/td&gt;
323 &lt;td&gt;Å&lt;/td&gt;
324 &lt;td&gt;Х&lt;/td&gt;
325 &lt;td&gt;إ&lt;/td&gt;
326 &lt;td&gt;Ε&lt;/td&gt;
327 &lt;td&gt;&lt;/td&gt;
328 &lt;td&gt;Å&lt;/td&gt;
329 &lt;td&gt;Å&lt;/td&gt;
330 &lt;td&gt;&lt;/td&gt;
331 &lt;td&gt;Å&lt;/td&gt;
332 &lt;td&gt;Å&lt;/td&gt;
333 &lt;td&gt;Å&lt;/td&gt;
334 &lt;td&gt;Ć&lt;/td&gt;
335 &lt;/tr&gt;
336 &lt;tr&gt;
337 &lt;td&gt;11100110&lt;/td&gt;
338 &lt;td&gt;æ&lt;/td&gt;
339 &lt;td&gt;ć&lt;/td&gt;
340 &lt;td&gt;ĉ&lt;/td&gt;
341 &lt;td&gt;æ&lt;/td&gt;
342 &lt;td&gt;ц&lt;/td&gt;
343 &lt;td&gt;ن&lt;/td&gt;
344 &lt;td&gt;ζ&lt;/td&gt;
345 &lt;td&gt;ז&lt;/td&gt;
346 &lt;td&gt;æ&lt;/td&gt;
347 &lt;td&gt;æ&lt;/td&gt;
348 &lt;td&gt;&lt;/td&gt;
349 &lt;td&gt;ę&lt;/td&gt;
350 &lt;td&gt;æ&lt;/td&gt;
351 &lt;td&gt;æ&lt;/td&gt;
352 &lt;td&gt;v&lt;/td&gt;
353 &lt;/tr&gt;
354 &lt;tr&gt;
355 &lt;td&gt;11111000&lt;/td&gt;
356 &lt;td&gt;ø&lt;/td&gt;
357 &lt;td&gt;ř&lt;/td&gt;
358 &lt;td&gt;ĝ&lt;/td&gt;
359 &lt;td&gt;ø&lt;/td&gt;
360 &lt;td&gt;ј&lt;/td&gt;
361 &lt;td&gt;&lt;/td&gt;
362 &lt;td&gt;ψ&lt;/td&gt;
363 &lt;td&gt;ר&lt;/td&gt;
364 &lt;td&gt;ø&lt;/td&gt;
365 &lt;td&gt;ø&lt;/td&gt;
366 &lt;td&gt;&lt;/td&gt;
367 &lt;td&gt;ų&lt;/td&gt;
368 &lt;td&gt;ø&lt;/td&gt;
369 &lt;td&gt;ø&lt;/td&gt;
370 &lt;td&gt;ű&lt;/td&gt;
371 &lt;/tr&gt;
372 &lt;tr&gt;
373 &lt;td&gt;11100101&lt;/td&gt;
374 &lt;td&gt;å&lt;/td&gt;
375 &lt;td&gt;ĺ&lt;/td&gt;
376 &lt;td&gt;ċ&lt;/td&gt;
377 &lt;td&gt;å&lt;/td&gt;
378 &lt;td&gt;х&lt;/td&gt;
379 &lt;td&gt;م&lt;/td&gt;
380 &lt;td&gt;ε&lt;/td&gt;
381 &lt;td&gt;ו&lt;/td&gt;
382 &lt;td&gt;å&lt;/td&gt;
383 &lt;td&gt;å&lt;/td&gt;
384 &lt;td&gt;&lt;/td&gt;
385 &lt;td&gt;å&lt;/td&gt;
386 &lt;td&gt;å&lt;/td&gt;
387 &lt;td&gt;å&lt;/td&gt;
388 &lt;td&gt;ć&lt;/td&gt;
389 &lt;/tr&gt;
390 &lt;/tbody&gt;
391 &lt;/table&gt;
392
393 &lt;p&gt;Denne problemstillingen er illustrert i tabell 3, der vi ser verdiene
394 tilegnet de norske symbolene i ISO-8859-1 i kolonne «1». I de øvrige
395 kolonnene ser vi hvilket symbol verdien får i de andre
396 ISO-8859-variantene. Tar vi utgangspunkt i tabell 3, kan vi se at
397 ordet lærlingspørsmål gjengitt med ISO-8859-2 (kolonne 2) blir
398 lćrlingspřrsmĺl, mens det blir lζrlingspψrsmεl med ISO- 8859-7
399 (kolonne 7). Med ISO-8859-2 blir «æ» til «ć», «ø» til «ř» og «å» til
400 «ĺ». I ISO-8859-7 blir «æ» til «ζ», «ø» til «ψ», mens «å» blir «ε».&lt;/p&gt;
401
402 &lt;p&gt;Det er egentlig ingen utfordring med dette så lenge du vet hvilket
403 tegnsett innholdet ditt er representert med, og det ikke har skjedd
404 omforminger som du ikke er klar over. Det er det siste som er
405 problematisk, spesielt de datasystemene som har vært i bruk de siste
406 20 årene, som ikke har noe innebygd funksjonalitet for å forvalte
407 tegnsettproblematikken. Et godt eksempel på dette er
408 Microsoft-tegnsettet Windows-1252, som ble forvekslet som 100 %
409 kompatibel med ISO-8859-1, men hadde byttet ut plassene fra 127 til
410 159. Historisk vil det finnes en del variasjon i hvilket tegnsett som
411 har vært i bruk, og hvor vellykket konvertering mellom tegnsett har
412 vært.&lt;/p&gt;
413
414 &lt;p id=&quot;tegnsett_access_unicode_som_løsning&quot;&gt;&lt;strong&gt;Unicode som løsning&lt;/strong&gt;&lt;/p&gt;
415
416 &lt;p&gt;Tegnsettforvirring ble etter hvert et irritasjonsmoment og
417 samvirkeproblem. Ofte fikk man en e-post der æøå var erstattet av rare
418 symboler fordi e-posten hadde vært innom et eller annet datasystem som
419 ikke brukte samme tegnsett.&lt;/p&gt;
420
421 &lt;p&gt;For å løse dette samvirkeproblemet for tegnsett ble det startet et
422 arbeid og en ny standard så dagens lys etter hvert. Denne standarden
423 fikk navnet Unicode (ISO/ IEC 10646) og skulle resultere i et tegnsett
424 som alle skulle være enige om. Unicode er et repertoar og en
425 representasjon, dvs. navngivning og tilordning av tallverdi til alle
426 symboler i bruk i verden i dag. Oppføringer i Unicode skrives gjerne
427 U+XXXX der XXXX er tallkoden i sekstentallssystemet som oppføringen
428 har i Unicode-katalogen. Her finner vi tegn brukt av både levende og
429 døde språk, konstruerte språk, tekniske symboler, morsomme tegninger
430 (såkalte emojier) og tegn ingen vet hva betyr eller skal brukes
431 til. Et morsomt eksempel er i nettartikkelen: U+237C ⍼ RIGHT ANGLE
432 WITH DOWNWARDS ZIGZAG ARROW, av Jonathan Chan.&lt;sup&gt;[&lt;a id=&quot;tegnsett_access_footnoteref_2&quot; href=&quot;#tegnsett_access_footnotedef_2&quot; title=&quot;View footnote.&quot;&gt;2&lt;/a&gt;]&lt;/sup&gt;&lt;/p&gt;
433
434 &lt;p&gt;Sammen med Unicode kom det tre måter å kode disse tallene på; UTF-8,
435 UTF-16 og UTF-32. Av datatekniske årsaker er UTF-8 mye brukt, spesielt
436 når det gjelder utveksling av tekst over Internett, mens UTF-16 er
437 brukt en del til tekstfiler lagret på Windows. En utfordring med
438 Unicode og UTF-variantene er at disse gir flere måter å kode samme
439 symbol på med en kombinasjonsmekanisme. Dette kan gi utfordringer ved
440 søk, hvis en skal søke etter et ord som har ett eller flere symboler
441 som kan skrives på ulikt vis, så er det ikke sikkert at søkesystemet
442 vil finne alle forekomster. For eksempel kan bokstaven U+00F8 «Latin
443 Small Letter O with Stroke» kodes som den tradisjonelle norske tegnet
444 ø, men også som o kombinert med skråstrek U+0338. Begge deler er
445 gyldig bruk av Unicode, selv om det er tradisjon for å foretrekke å
446 «normalisere» kombinasjoner som enkelttegn der det er mulig, nettopp
447 for å forenkle søk.&lt;/p&gt;
448
449 &lt;p id=&quot;tegnsett_access_bare_unicode_fremover&quot;&gt;&lt;strong&gt;Bare Unicode fremover&lt;/strong&gt;&lt;/p&gt;
450
451 &lt;p&gt;Forvaltningens bruk av tegnsett er regulert i Forskrift om
452 IT-standarder i offentlig forvaltning&lt;sup&gt;[&lt;a id=&quot;tegnsett_access_footnoteref_3&quot; href=&quot;#tegnsett_access_footnotedef_3&quot; title=&quot;View footnote.&quot;&gt;3&lt;/a&gt;]&lt;/sup&gt;. Her står det: «Ved all
453 utveksling av informasjon mellom forvaltningsorganer og fra
454 forvaltningsorgan til innbyggere og næringsliv skal tegnsettstandarden
455 ISO/IEC 10646 representert ved UTF8 benyttes.» Det er forskjellige
456 bruksområder til UTF-8, UTF-16 og UTF-32, men UTF-8 er kodingen vi
457 kjenner mest til. Det er flere grunner at UTF-8 «vant» konkurransen
458 til å bli den utvalgte. Den kanskje viktigste er at UTF-8 er fullt
459 samvirkende med ASCII-7, slik at den engelskspråklige delen av verden
460 kunne rulle ut UTF-8 uten å merke noe forskjell. En tekstfil med kun
461 ASCII-tekst vil være identisk på disken hvis den lagres som UTF-8 og
462 ASCII. UTF-16 og UTF-32 byr på noen optimaliseringer som gjør dem
463 relevant for spesifikke problemområder, men for det meste vil vi aldri
464 oppleve disse standardene på nært hold i hverdagen. Det er uansett kun
465 bruken av UTF-8 som er lovregulert i Norge.&lt;/p&gt;
466
467 &lt;p&gt;Det er ikke slik at hele verden bruker ISO/IEC 10646 og UTF-8. Kina
468 har egne standarder for tegnsett, mye brukt er GB 18030, som er
469 Unicode med en annen koding enn UTF-8, mens Taiwan og andre asiatiske
470 land gjerne bruker Big5 eller andre tegnsett.&lt;/p&gt;
471
472 &lt;p&gt;UTF-8 er dominerende i Norge, men det er tidsperioder der forskjellige
473 datasystemer utvekslet data i henhold til ISO-8859-1, ISO-8859-15,
474 Windows-1252, Codepage 865 og ISO-646-60 / Codepage 1016 mens
475 overgangen til UTF-8 pågikk. Det er ikke slik at et datasystem enkelt
476 kan tvinges til å bruke et tegnsett, da det er flere lag i et
477 datasystem som må settes opp til å bruke riktig tegnsett, og
478 tegnsettproblemet fort oppstår når det er et eller annet i
479 datasystemet som bruker feil tegnsett.&lt;/p&gt;
480
481 &lt;p&gt;Et klassisk eksempel på problemet er en utveksling av tekst mellom to
482 systemer der teksten i utgangspunktet er kodet i UTF-8, men går
483 gjennom noe som er ISO-8859-1 underveis. Dette kan vises med at ordet
484 «på» i et slik scenario ender opp som «pÃ¥». Det er mulig å spore
485 dette tilbake til verdiene symbolene er tilordnet i tegnsettene. «på»
486 blir til «pÃ¥» fordi «å» i UTF-8 er representert med U+C3AF, og dersom
487 vi ser på hva disse verdiene representerer, ser vi at
488 sekstentallssystemverdien C3 er 1100 0011 i totallssystemet og
489 symbolet med dette tallet i ISO-8859-1 er Ã.&lt;/p&gt;
490
491 &lt;p&gt;Vi ser det samme med sekstentallssystemverdien A5, som er 1010 0101 i
492 totallssystemet, og tilsvarende symbol i ISO-8859-1 er ¥. Slik
493 mojibake kan lett skje hvis «på» i utgangspunktet var representert med
494 UTF-8, men ble behandlet med et system som bruker ISO-8859-1. Det er
495 ingen automatikk i å fange opp slike ødeleggelser mens tekstlig
496 innhold utveksles mellom datasystemer.&lt;/p&gt;
497
498 &lt;p&gt;En utfordring for depotarkivene er at bruken av tegnsett ikke alltid
499 har vært regulert, og at det kan finnes flere dokumentasjonssamlinger
500 som er opprettet med varierende tegnsett før gjeldende forskrift
501 inntraff – uten at det er mulig å avlede fra filene hvilket tegnsett
502 som ble brukt. Et eksempel på dette er €-symbolet, som kom først etter
503 at ISO-8859-1 var tatt i bruk. Det kan bli en utfordring for et
504 depotarkiv, men så lenge det er kjent hvilket tegnsett var i bruk, så
505 bør det gå bra. Riksarkivarens
506 forskrift&lt;sup&gt;[&lt;a id=&quot;tegnsett_access_footnoteref_4&quot; href=&quot;#tegnsett_access_footnotedef_4&quot; title=&quot;View footnote.&quot;&gt;4&lt;/a&gt;]&lt;/sup&gt;
507 formaliserer dette ved å kreve følgende:&lt;/p&gt;
508
509 &lt;blockquote&gt;
510 &lt;p&gt;§ 5-11. Tegnsett i arkivuttrekk&lt;/p&gt;
511
512 &lt;ol&gt;
513 &lt;li&gt;Arkivuttrekk og medfølgende struktur- og innholdsbeskrivelser skal
514 overføres som ren tekst i ukryptert form, og benytte godkjent
515 tegnsett.&lt;/li&gt;
516
517 &lt;li&gt;Godkjente tegnsett er:
518 &lt;ol&gt;
519 &lt;li&gt;Unicode UTF-8&lt;br&gt;
520 (ISO/IEC 10646-1:2000 Annex D)&lt;/li&gt;
521 &lt;li&gt;ISO 8859-1:1998, Latin 1&lt;/li&gt;
522 &lt;li&gt;ISO 8859-4:1998, Latin 4 for samiske tegn.&lt;/li&gt;
523 &lt;/ol&gt;&lt;/li&gt;
524
525 &lt;li&gt;Andre tegnsett aksepteres bare etter avtale med Arkivverket.&lt;/li&gt;
526 &lt;/ol&gt;
527 &lt;/blockquote&gt;
528
529 &lt;p id=&quot;tegnsett_access_ditt_ansvar&quot;&gt;&lt;strong&gt;Ditt ansvar&lt;/strong&gt;&lt;/p&gt;
530
531 &lt;p&gt;På mange måter burde ikke tegnsett være et problem i 2023, men sånn er
532 det nok ikke. Land som har oppgradert til UTF-8 som primærtegnsett for
533 utveksling av tekstlig innhold, begrenser problematikken betraktelig,
534 men globalt sett så er tegnsettutfordringen ikke løst fordi ikke alle
535 er enige om å bruke samme tegnsett. Det kan være geopolitiske eller
536 kulturelle hensyn som ligger til grunn for dette.&lt;/p&gt;
537
538 &lt;p&gt;Det er uansett verdt å merke at selv om bruken av UTF-8 skulle bli
539 100% utbredt, så er det et historisk perspektiv (ASCII-7,
540 ISO-8859-variantene, UTF-8) her som gjør tegnsett til et problemområde
541 arkivarene må forstå og håndtere. Som danningsarkivar har du et
542 ansvar for å vite hvilket tegnsett systemene og databasene dere
543 forvalter, er i samsvar med. Det er noe IT-avdelingen din eller
544 programvareleverandørene enkelt skal kunne svare på, og svaret skal
545 være UTF-8 for alle nye systemer.&lt;/p&gt;
546
547 &lt;hr&gt;
548
549 &lt;p id=&quot;tegnsett_access_footnotedef_1&quot;&gt;&lt;a href=&quot;#tegnsett_access_footnoteref_1&quot;&gt;1&lt;/a&gt;. Tegnsettkilde &lt;a href=&quot;https://en.wikipedia.org/wiki/ISO/IEC_8859&quot;&gt;https://en.wikipedia.org/wiki/ISO/IEC_8859&lt;/a&gt;&lt;/p&gt;
550
551 &lt;p id=&quot;tegnsett_access_footnotedef_2&quot;&gt;&lt;a href=&quot;#tegnsett_access_footnoteref_2&quot;&gt;2&lt;/a&gt;. &lt;a href=&quot;https://ionathan.ch/2022/04/09/angzarr.html&quot;&gt;https://ionathan.ch/2022/04/09/angzarr.html&lt;/a&gt;&lt;/p&gt;
552
553 &lt;p id=&quot;tegnsett_access_footnotedef_3&quot;&gt;&lt;a href=&quot;#tegnsett_access_footnoteref_3&quot;&gt;3&lt;/a&gt;. &lt;a href=&quot;https://lovdata.no/dokument/SF/forskrift/2013-04-05-959/%C2%A78#%C2%A78&quot;&gt;https://lovdata.no/dokument/SF/forskrift/2013-04-05-959/%C2%A78#%C2%A78&lt;/a&gt;&lt;/p&gt;
554
555 &lt;p id=&quot;tegnsett_access_footnotedef_4&quot;&gt;&lt;a href=&quot;#tegnsett_access_footnoteref_4&quot;&gt;4&lt;/a&gt;. &lt;a href=&quot;https://lovdata.no/forskrift/2017-12-19-22865-11&quot;&gt;https://lovdata.no/forskrift/2017-12-19-22865-11&lt;/a&gt;&lt;/p&gt;
556
557 &lt;/blockquote&gt;
558
559 &lt;p&gt;For øvrig burde varsleren Edward Snowden få politisk asyl i Norge.&lt;/p&gt;
560
561 &lt;p&gt;Som vanlig, hvis du bruker Bitcoin og ønsker å vise din støtte til
562 det jeg driver med, setter jeg pris på om du sender Bitcoin-donasjoner
563 til min adresse
564 &lt;b&gt;&lt;a href=&quot;bitcoin:15oWEoG9dUPovwmUL9KWAnYRtNJEkP1u1b&quot;&gt;15oWEoG9dUPovwmUL9KWAnYRtNJEkP1u1b&lt;/a&gt;&lt;/b&gt;. Merk,
565 betaling med bitcoin er ikke anonymt. :)&lt;/p&gt;
566
567 &lt;p&gt;&lt;b&gt;Oppdatering 2024-08-23&lt;/b&gt;: Har fått innspill om at det norske
568 ordet for japanske mojibake er tegnsalat.&lt;/p&gt;
569 </description>
570 </item>
571
572 <item>
573 <title>New and improved sqlcipher in Debian for accessing Signal database</title>
574 <link>http://www.hungry.com/~pere/blog/New_and_improved_sqlcipher_in_Debian_for_accessing_Signal_database.html</link>
575 <guid isPermaLink="true">http://www.hungry.com/~pere/blog/New_and_improved_sqlcipher_in_Debian_for_accessing_Signal_database.html</guid>
576 <pubDate>Sun, 12 Nov 2023 12:00:00 +0100</pubDate>
577 <description>&lt;p&gt;For a while now I wanted to have direct access to the
578 &lt;a href=&quot;https://signal.org/&quot;&gt;Signal&lt;/a&gt; database of messages and
579 channels of my Desktop edition of Signal. I prefer the enforced end
580 to end encryption of Signal these days for my communication with
581 friends and family, to increase the level of safety and privacy as
582 well as raising the cost of the mass surveillance government and
583 non-government entities practice these days. In August I came across
584 a nice
585 &lt;a href=&quot;https://www.yoranbrondsema.com/post/the-guide-to-extracting-statistics-from-your-signal-conversations/&quot;&gt;recipe
586 on how to use sqlcipher to extract statistics from the Signal
587 database&lt;/a&gt; explaining how to do this. Unfortunately this did not
588 work with the version of sqlcipher in Debian. The
589 &lt;a href=&quot;http://tracker.debian.org/sqlcipher/&quot;&gt;sqlcipher&lt;/a&gt;
590 package is a &quot;fork&quot; of the sqlite package with added support for
591 encrypted databases. Sadly the current Debian maintainer
592 &lt;a href=&quot;https://bugs.debian.org/961598&quot;&gt;announced more than three
593 years ago that he did not have time to maintain sqlcipher&lt;/a&gt;, so it
594 seemed unlikely to be upgraded by the maintainer. I was reluctant to
595 take on the job myself, as I have very limited experience maintaining
596 shared libraries in Debian. After waiting and hoping for a few
597 months, I gave up the last week, and set out to update the package. In
598 the process I orphaned it to make it more obvious for the next person
599 looking at it that the package need proper maintenance.&lt;/p&gt;
600
601 &lt;p&gt;The version in Debian was around five years old, and quite a lot of
602 changes had taken place upstream into the Debian maintenance git
603 repository. After spending a few days importing the new upstream
604 versions, realising that upstream did not care much for SONAME
605 versioning as I saw library symbols being both added and removed with
606 minor version number changes to the project, I concluded that I had to
607 do a SONAME bump of the library package to avoid surprising the
608 reverse dependencies. I even added a simple
609 autopkgtest script to ensure the package work as intended. Dug deep
610 into the hole of learning shared library maintenance, I set out a few
611 days ago to upload the new version to Debian experimental to see what
612 the quality assurance framework in Debian had to say about the result.
613 The feedback told me the pacakge was not too shabby, and yesterday I
614 uploaded the latest version to Debian unstable. It should enter
615 testing today or tomorrow, perhaps delayed by
616 &lt;a href=&quot;https://bugs.debian.org/1055812&quot;&gt;a small library
617 transition&lt;/a&gt;.&lt;/p&gt;
618
619 &lt;p&gt;Armed with a new version of sqlcipher, I can now have a look at the
620 SQL database in ~/.config/Signal/sql/db.sqlite. First, one need to
621 fetch the encryption key from the Signal configuration using this
622 simple JSON extraction command:&lt;/p&gt;
623
624 &lt;pre&gt;/usr/bin/jq -r &#39;.&quot;key&quot;&#39; ~/.config/Signal/config.json&lt;/pre&gt;
625
626 &lt;p&gt;Assuming the result from that command is &#39;secretkey&#39;, which is a
627 hexadecimal number representing the key used to encrypt the database.
628 Next, one can now connect to the database and inject the encryption
629 key for access via SQL to fetch information from the database. Here
630 is an example dumping the database structure:&lt;/p&gt;
631
632 &lt;pre&gt;
633 % sqlcipher ~/.config/Signal/sql/db.sqlite
634 sqlite&gt; PRAGMA key = &quot;x&#39;secretkey&#39;&quot;;
635 sqlite&gt; .schema
636 CREATE TABLE sqlite_stat1(tbl,idx,stat);
637 CREATE TABLE conversations(
638 id STRING PRIMARY KEY ASC,
639 json TEXT,
640
641 active_at INTEGER,
642 type STRING,
643 members TEXT,
644 name TEXT,
645 profileName TEXT
646 , profileFamilyName TEXT, profileFullName TEXT, e164 TEXT, serviceId TEXT, groupId TEXT, profileLastFetchedAt INTEGER);
647 CREATE TABLE identityKeys(
648 id STRING PRIMARY KEY ASC,
649 json TEXT
650 );
651 CREATE TABLE items(
652 id STRING PRIMARY KEY ASC,
653 json TEXT
654 );
655 CREATE TABLE sessions(
656 id TEXT PRIMARY KEY,
657 conversationId TEXT,
658 json TEXT
659 , ourServiceId STRING, serviceId STRING);
660 CREATE TABLE attachment_downloads(
661 id STRING primary key,
662 timestamp INTEGER,
663 pending INTEGER,
664 json TEXT
665 );
666 CREATE TABLE sticker_packs(
667 id TEXT PRIMARY KEY,
668 key TEXT NOT NULL,
669
670 author STRING,
671 coverStickerId INTEGER,
672 createdAt INTEGER,
673 downloadAttempts INTEGER,
674 installedAt INTEGER,
675 lastUsed INTEGER,
676 status STRING,
677 stickerCount INTEGER,
678 title STRING
679 , attemptedStatus STRING, position INTEGER DEFAULT 0 NOT NULL, storageID STRING, storageVersion INTEGER, storageUnknownFields BLOB, storageNeedsSync
680 INTEGER DEFAULT 0 NOT NULL);
681 CREATE TABLE stickers(
682 id INTEGER NOT NULL,
683 packId TEXT NOT NULL,
684
685 emoji STRING,
686 height INTEGER,
687 isCoverOnly INTEGER,
688 lastUsed INTEGER,
689 path STRING,
690 width INTEGER,
691
692 PRIMARY KEY (id, packId),
693 CONSTRAINT stickers_fk
694 FOREIGN KEY (packId)
695 REFERENCES sticker_packs(id)
696 ON DELETE CASCADE
697 );
698 CREATE TABLE sticker_references(
699 messageId STRING,
700 packId TEXT,
701 CONSTRAINT sticker_references_fk
702 FOREIGN KEY(packId)
703 REFERENCES sticker_packs(id)
704 ON DELETE CASCADE
705 );
706 CREATE TABLE emojis(
707 shortName TEXT PRIMARY KEY,
708 lastUsage INTEGER
709 );
710 CREATE TABLE messages(
711 rowid INTEGER PRIMARY KEY ASC,
712 id STRING UNIQUE,
713 json TEXT,
714 readStatus INTEGER,
715 expires_at INTEGER,
716 sent_at INTEGER,
717 schemaVersion INTEGER,
718 conversationId STRING,
719 received_at INTEGER,
720 source STRING,
721 hasAttachments INTEGER,
722 hasFileAttachments INTEGER,
723 hasVisualMediaAttachments INTEGER,
724 expireTimer INTEGER,
725 expirationStartTimestamp INTEGER,
726 type STRING,
727 body TEXT,
728 messageTimer INTEGER,
729 messageTimerStart INTEGER,
730 messageTimerExpiresAt INTEGER,
731 isErased INTEGER,
732 isViewOnce INTEGER,
733 sourceServiceId TEXT, serverGuid STRING NULL, sourceDevice INTEGER, storyId STRING, isStory INTEGER
734 GENERATED ALWAYS AS (type IS &#39;story&#39;), isChangeCreatedByUs INTEGER NOT NULL DEFAULT 0, isTimerChangeFromSync INTEGER
735 GENERATED ALWAYS AS (
736 json_extract(json, &#39;$.expirationTimerUpdate.fromSync&#39;) IS 1
737 ), seenStatus NUMBER default 0, storyDistributionListId STRING, expiresAt INT
738 GENERATED ALWAYS
739 AS (ifnull(
740 expirationStartTimestamp + (expireTimer * 1000),
741 9007199254740991
742 )), shouldAffectActivity INTEGER
743 GENERATED ALWAYS AS (
744 type IS NULL
745 OR
746 type NOT IN (
747 &#39;change-number-notification&#39;,
748 &#39;contact-removed-notification&#39;,
749 &#39;conversation-merge&#39;,
750 &#39;group-v1-migration&#39;,
751 &#39;keychange&#39;,
752 &#39;message-history-unsynced&#39;,
753 &#39;profile-change&#39;,
754 &#39;story&#39;,
755 &#39;universal-timer-notification&#39;,
756 &#39;verified-change&#39;
757 )
758 ), shouldAffectPreview INTEGER
759 GENERATED ALWAYS AS (
760 type IS NULL
761 OR
762 type NOT IN (
763 &#39;change-number-notification&#39;,
764 &#39;contact-removed-notification&#39;,
765 &#39;conversation-merge&#39;,
766 &#39;group-v1-migration&#39;,
767 &#39;keychange&#39;,
768 &#39;message-history-unsynced&#39;,
769 &#39;profile-change&#39;,
770 &#39;story&#39;,
771 &#39;universal-timer-notification&#39;,
772 &#39;verified-change&#39;
773 )
774 ), isUserInitiatedMessage INTEGER
775 GENERATED ALWAYS AS (
776 type IS NULL
777 OR
778 type NOT IN (
779 &#39;change-number-notification&#39;,
780 &#39;contact-removed-notification&#39;,
781 &#39;conversation-merge&#39;,
782 &#39;group-v1-migration&#39;,
783 &#39;group-v2-change&#39;,
784 &#39;keychange&#39;,
785 &#39;message-history-unsynced&#39;,
786 &#39;profile-change&#39;,
787 &#39;story&#39;,
788 &#39;universal-timer-notification&#39;,
789 &#39;verified-change&#39;
790 )
791 ), mentionsMe INTEGER NOT NULL DEFAULT 0, isGroupLeaveEvent INTEGER
792 GENERATED ALWAYS AS (
793 type IS &#39;group-v2-change&#39; AND
794 json_array_length(json_extract(json, &#39;$.groupV2Change.details&#39;)) IS 1 AND
795 json_extract(json, &#39;$.groupV2Change.details[0].type&#39;) IS &#39;member-remove&#39; AND
796 json_extract(json, &#39;$.groupV2Change.from&#39;) IS NOT NULL AND
797 json_extract(json, &#39;$.groupV2Change.from&#39;) IS json_extract(json, &#39;$.groupV2Change.details[0].aci&#39;)
798 ), isGroupLeaveEventFromOther INTEGER
799 GENERATED ALWAYS AS (
800 isGroupLeaveEvent IS 1
801 AND
802 isChangeCreatedByUs IS 0
803 ), callId TEXT
804 GENERATED ALWAYS AS (
805 json_extract(json, &#39;$.callId&#39;)
806 ));
807 CREATE TABLE sqlite_stat4(tbl,idx,neq,nlt,ndlt,sample);
808 CREATE TABLE jobs(
809 id TEXT PRIMARY KEY,
810 queueType TEXT STRING NOT NULL,
811 timestamp INTEGER NOT NULL,
812 data STRING TEXT
813 );
814 CREATE TABLE reactions(
815 conversationId STRING,
816 emoji STRING,
817 fromId STRING,
818 messageReceivedAt INTEGER,
819 targetAuthorAci STRING,
820 targetTimestamp INTEGER,
821 unread INTEGER
822 , messageId STRING);
823 CREATE TABLE senderKeys(
824 id TEXT PRIMARY KEY NOT NULL,
825 senderId TEXT NOT NULL,
826 distributionId TEXT NOT NULL,
827 data BLOB NOT NULL,
828 lastUpdatedDate NUMBER NOT NULL
829 );
830 CREATE TABLE unprocessed(
831 id STRING PRIMARY KEY ASC,
832 timestamp INTEGER,
833 version INTEGER,
834 attempts INTEGER,
835 envelope TEXT,
836 decrypted TEXT,
837 source TEXT,
838 serverTimestamp INTEGER,
839 sourceServiceId STRING
840 , serverGuid STRING NULL, sourceDevice INTEGER, receivedAtCounter INTEGER, urgent INTEGER, story INTEGER);
841 CREATE TABLE sendLogPayloads(
842 id INTEGER PRIMARY KEY ASC,
843
844 timestamp INTEGER NOT NULL,
845 contentHint INTEGER NOT NULL,
846 proto BLOB NOT NULL
847 , urgent INTEGER, hasPniSignatureMessage INTEGER DEFAULT 0 NOT NULL);
848 CREATE TABLE sendLogRecipients(
849 payloadId INTEGER NOT NULL,
850
851 recipientServiceId STRING NOT NULL,
852 deviceId INTEGER NOT NULL,
853
854 PRIMARY KEY (payloadId, recipientServiceId, deviceId),
855
856 CONSTRAINT sendLogRecipientsForeignKey
857 FOREIGN KEY (payloadId)
858 REFERENCES sendLogPayloads(id)
859 ON DELETE CASCADE
860 );
861 CREATE TABLE sendLogMessageIds(
862 payloadId INTEGER NOT NULL,
863
864 messageId STRING NOT NULL,
865
866 PRIMARY KEY (payloadId, messageId),
867
868 CONSTRAINT sendLogMessageIdsForeignKey
869 FOREIGN KEY (payloadId)
870 REFERENCES sendLogPayloads(id)
871 ON DELETE CASCADE
872 );
873 CREATE TABLE preKeys(
874 id STRING PRIMARY KEY ASC,
875 json TEXT
876 , ourServiceId NUMBER
877 GENERATED ALWAYS AS (json_extract(json, &#39;$.ourServiceId&#39;)));
878 CREATE TABLE signedPreKeys(
879 id STRING PRIMARY KEY ASC,
880 json TEXT
881 , ourServiceId NUMBER
882 GENERATED ALWAYS AS (json_extract(json, &#39;$.ourServiceId&#39;)));
883 CREATE TABLE badges(
884 id TEXT PRIMARY KEY,
885 category TEXT NOT NULL,
886 name TEXT NOT NULL,
887 descriptionTemplate TEXT NOT NULL
888 );
889 CREATE TABLE badgeImageFiles(
890 badgeId TEXT REFERENCES badges(id)
891 ON DELETE CASCADE
892 ON UPDATE CASCADE,
893 &#39;order&#39; INTEGER NOT NULL,
894 url TEXT NOT NULL,
895 localPath TEXT,
896 theme TEXT NOT NULL
897 );
898 CREATE TABLE storyReads (
899 authorId STRING NOT NULL,
900 conversationId STRING NOT NULL,
901 storyId STRING NOT NULL,
902 storyReadDate NUMBER NOT NULL,
903
904 PRIMARY KEY (authorId, storyId)
905 );
906 CREATE TABLE storyDistributions(
907 id STRING PRIMARY KEY NOT NULL,
908 name TEXT,
909
910 senderKeyInfoJson STRING
911 , deletedAtTimestamp INTEGER, allowsReplies INTEGER, isBlockList INTEGER, storageID STRING, storageVersion INTEGER, storageUnknownFields BLOB, storageNeedsSync INTEGER);
912 CREATE TABLE storyDistributionMembers(
913 listId STRING NOT NULL REFERENCES storyDistributions(id)
914 ON DELETE CASCADE
915 ON UPDATE CASCADE,
916 serviceId STRING NOT NULL,
917
918 PRIMARY KEY (listId, serviceId)
919 );
920 CREATE TABLE uninstalled_sticker_packs (
921 id STRING NOT NULL PRIMARY KEY,
922 uninstalledAt NUMBER NOT NULL,
923 storageID STRING,
924 storageVersion NUMBER,
925 storageUnknownFields BLOB,
926 storageNeedsSync INTEGER NOT NULL
927 );
928 CREATE TABLE groupCallRingCancellations(
929 ringId INTEGER PRIMARY KEY,
930 createdAt INTEGER NOT NULL
931 );
932 CREATE TABLE IF NOT EXISTS &#39;messages_fts_data&#39;(id INTEGER PRIMARY KEY, block BLOB);
933 CREATE TABLE IF NOT EXISTS &#39;messages_fts_idx&#39;(segid, term, pgno, PRIMARY KEY(segid, term)) WITHOUT ROWID;
934 CREATE TABLE IF NOT EXISTS &#39;messages_fts_content&#39;(id INTEGER PRIMARY KEY, c0);
935 CREATE TABLE IF NOT EXISTS &#39;messages_fts_docsize&#39;(id INTEGER PRIMARY KEY, sz BLOB);
936 CREATE TABLE IF NOT EXISTS &#39;messages_fts_config&#39;(k PRIMARY KEY, v) WITHOUT ROWID;
937 CREATE TABLE edited_messages(
938 messageId STRING REFERENCES messages(id)
939 ON DELETE CASCADE,
940 sentAt INTEGER,
941 readStatus INTEGER
942 , conversationId STRING);
943 CREATE TABLE mentions (
944 messageId REFERENCES messages(id) ON DELETE CASCADE,
945 mentionAci STRING,
946 start INTEGER,
947 length INTEGER
948 );
949 CREATE TABLE kyberPreKeys(
950 id STRING PRIMARY KEY NOT NULL,
951 json TEXT NOT NULL, ourServiceId NUMBER
952 GENERATED ALWAYS AS (json_extract(json, &#39;$.ourServiceId&#39;)));
953 CREATE TABLE callsHistory (
954 callId TEXT PRIMARY KEY,
955 peerId TEXT NOT NULL, -- conversation id (legacy) | uuid | groupId | roomId
956 ringerId TEXT DEFAULT NULL, -- ringer uuid
957 mode TEXT NOT NULL, -- enum &quot;Direct&quot; | &quot;Group&quot;
958 type TEXT NOT NULL, -- enum &quot;Audio&quot; | &quot;Video&quot; | &quot;Group&quot;
959 direction TEXT NOT NULL, -- enum &quot;Incoming&quot; | &quot;Outgoing
960 -- Direct: enum &quot;Pending&quot; | &quot;Missed&quot; | &quot;Accepted&quot; | &quot;Deleted&quot;
961 -- Group: enum &quot;GenericGroupCall&quot; | &quot;OutgoingRing&quot; | &quot;Ringing&quot; | &quot;Joined&quot; | &quot;Missed&quot; | &quot;Declined&quot; | &quot;Accepted&quot; | &quot;Deleted&quot;
962 status TEXT NOT NULL,
963 timestamp INTEGER NOT NULL,
964 UNIQUE (callId, peerId) ON CONFLICT FAIL
965 );
966 [ dropped all indexes to save space in this blog post ]
967 CREATE TRIGGER messages_on_view_once_update AFTER UPDATE ON messages
968 WHEN
969 new.body IS NOT NULL AND new.isViewOnce = 1
970 BEGIN
971 DELETE FROM messages_fts WHERE rowid = old.rowid;
972 END;
973 CREATE TRIGGER messages_on_insert AFTER INSERT ON messages
974 WHEN new.isViewOnce IS NOT 1 AND new.storyId IS NULL
975 BEGIN
976 INSERT INTO messages_fts
977 (rowid, body)
978 VALUES
979 (new.rowid, new.body);
980 END;
981 CREATE TRIGGER messages_on_delete AFTER DELETE ON messages BEGIN
982 DELETE FROM messages_fts WHERE rowid = old.rowid;
983 DELETE FROM sendLogPayloads WHERE id IN (
984 SELECT payloadId FROM sendLogMessageIds
985 WHERE messageId = old.id
986 );
987 DELETE FROM reactions WHERE rowid IN (
988 SELECT rowid FROM reactions
989 WHERE messageId = old.id
990 );
991 DELETE FROM storyReads WHERE storyId = old.storyId;
992 END;
993 CREATE VIRTUAL TABLE messages_fts USING fts5(
994 body,
995 tokenize = &#39;signal_tokenizer&#39;
996 );
997 CREATE TRIGGER messages_on_update AFTER UPDATE ON messages
998 WHEN
999 (new.body IS NULL OR old.body IS NOT new.body) AND
1000 new.isViewOnce IS NOT 1 AND new.storyId IS NULL
1001 BEGIN
1002 DELETE FROM messages_fts WHERE rowid = old.rowid;
1003 INSERT INTO messages_fts
1004 (rowid, body)
1005 VALUES
1006 (new.rowid, new.body);
1007 END;
1008 CREATE TRIGGER messages_on_insert_insert_mentions AFTER INSERT ON messages
1009 BEGIN
1010 INSERT INTO mentions (messageId, mentionAci, start, length)
1011
1012 SELECT messages.id, bodyRanges.value -&gt;&gt; &#39;mentionAci&#39; as mentionAci,
1013 bodyRanges.value -&gt;&gt; &#39;start&#39; as start,
1014 bodyRanges.value -&gt;&gt; &#39;length&#39; as length
1015 FROM messages, json_each(messages.json -&gt;&gt; &#39;bodyRanges&#39;) as bodyRanges
1016 WHERE bodyRanges.value -&gt;&gt; &#39;mentionAci&#39; IS NOT NULL
1017
1018 AND messages.id = new.id;
1019 END;
1020 CREATE TRIGGER messages_on_update_update_mentions AFTER UPDATE ON messages
1021 BEGIN
1022 DELETE FROM mentions WHERE messageId = new.id;
1023 INSERT INTO mentions (messageId, mentionAci, start, length)
1024
1025 SELECT messages.id, bodyRanges.value -&gt;&gt; &#39;mentionAci&#39; as mentionAci,
1026 bodyRanges.value -&gt;&gt; &#39;start&#39; as start,
1027 bodyRanges.value -&gt;&gt; &#39;length&#39; as length
1028 FROM messages, json_each(messages.json -&gt;&gt; &#39;bodyRanges&#39;) as bodyRanges
1029 WHERE bodyRanges.value -&gt;&gt; &#39;mentionAci&#39; IS NOT NULL
1030
1031 AND messages.id = new.id;
1032 END;
1033 sqlite&gt;
1034 &lt;/pre&gt;
1035
1036 &lt;p&gt;Finally I have the tool needed to inspect and process Signal
1037 messages that I need, without using the vendor provided client. Now
1038 on to transforming it to a more useful format.&lt;/p&gt;
1039
1040 &lt;p&gt;As usual, if you use Bitcoin and want to show your support of my
1041 activities, please send Bitcoin donations to my address
1042 &lt;b&gt;&lt;a href=&quot;bitcoin:15oWEoG9dUPovwmUL9KWAnYRtNJEkP1u1b&quot;&gt;15oWEoG9dUPovwmUL9KWAnYRtNJEkP1u1b&lt;/a&gt;&lt;/b&gt;.&lt;/p&gt;
1043 </description>
1044 </item>
1045
1046 <item>
1047 <title>New chrpath release 0.17</title>
1048 <link>http://www.hungry.com/~pere/blog/New_chrpath_release_0_17.html</link>
1049 <guid isPermaLink="true">http://www.hungry.com/~pere/blog/New_chrpath_release_0_17.html</guid>
1050 <pubDate>Fri, 10 Nov 2023 07:30:00 +0100</pubDate>
1051 <description>&lt;p&gt;The chrpath package provide a simple command line tool to remove or
1052 modify the rpath or runpath of compiled ELF program. It is almost 10
1053 years since I updated the code base, but I stumbled over the tool
1054 today, and decided it was time to move the code base from Subversion
1055 to git and find a new home for it, as the previous one (Debian Alioth)
1056 has been shut down. I decided to go with
1057 &lt;a href=&quot;https://codeberg.org/&quot;&gt;Codeberg&lt;/a&gt; this time, as it is my git
1058 service of choice these days, did a quick and dirty migration to git
1059 and updated the code with a few patches I found in the Debian bug
1060 tracker. These are the release notes:&lt;/p&gt;
1061
1062 &lt;p&gt;New in 0.17 released 2023-11-10:&lt;/p&gt;
1063
1064 &lt;ul&gt;
1065 &lt;li&gt;Moved project to Codeberg, as Alioth is shut down.&lt;/li&gt;
1066 &lt;li&gt;Add Solaris support (use &amp;lt;sys/byteorder.h&gt; instead of &amp;lt;byteswap.h&gt;).
1067 Patch from Rainer Orth.&lt;/li&gt;
1068 &lt;li&gt;Added missing newline from printf() line. Patch from Frank Dana.&lt;/li&gt;
1069 &lt;li&gt;Corrected handling of multiple ELF sections. Patch from Frank Dana.&lt;/li&gt;
1070 &lt;li&gt;Updated build rules for .deb. Partly based on patch from djcj.&lt;/li&gt;
1071 &lt;/ul&gt;
1072
1073 &lt;p&gt;The latest edition is tagged and available from
1074 &lt;a href=&quot;https://codeberg.org/pere/chrpath&quot;&gt;https://codeberg.org/pere/chrpath&lt;/a&gt;.
1075
1076 &lt;p&gt;As usual, if you use Bitcoin and want to show your support of my
1077 activities, please send Bitcoin donations to my address
1078 &lt;b&gt;&lt;a href=&quot;bitcoin:15oWEoG9dUPovwmUL9KWAnYRtNJEkP1u1b&quot;&gt;15oWEoG9dUPovwmUL9KWAnYRtNJEkP1u1b&lt;/a&gt;&lt;/b&gt;.&lt;/p&gt;
1079 </description>
1080 </item>
1081
1082 <item>
1083 <title>Test framework for DocBook processors / formatters</title>
1084 <link>http://www.hungry.com/~pere/blog/Test_framework_for_DocBook_processors___formatters.html</link>
1085 <guid isPermaLink="true">http://www.hungry.com/~pere/blog/Test_framework_for_DocBook_processors___formatters.html</guid>
1086 <pubDate>Sun, 5 Nov 2023 13:00:00 +0100</pubDate>
1087 <description>&lt;p&gt;All the books I have published so far has been using
1088 &lt;a href=&quot;https://docbook.org/&quot;&gt;DocBook&lt;/a&gt; somewhere in the process.
1089 For the first book, the source format was DocBook, while for every
1090 later book it was an intermediate format used as the stepping stone to
1091 be able to present the same manuscript in several formats, on paper,
1092 as ebook in ePub format, as a HTML page and as a PDF file either for
1093 paper production or for Internet consumption. This is made possible
1094 with a wide variety of free software tools with DocBook support in
1095 Debian. The source format of later books have been docx via rst,
1096 Markdown, Filemaker and Asciidoc, and for all of these I was able to
1097 generate a suitable DocBook file for further processing using
1098 &lt;a href=&quot;https://tracker.debian.org/pkg/pandoc&quot;&gt;pandoc&lt;/a&gt;,
1099 &lt;a href=&quot;https://tracker.debian.org/pkg/asciidoc&quot;&gt;a2x&lt;/a&gt; and
1100 &lt;a href=&quot;https://tracker.debian.org/pkg/asciidoctor&quot;&gt;asciidoctor&lt;/a&gt;,
1101 as well as rendering using
1102 &lt;a href=&quot;https://tracker.debian.org/pkg/xmlto&quot;&gt;xmlto&lt;/a&gt;,
1103 &lt;a href=&quot;https://tracker.debian.org/pkg/dbtoepub&quot;&gt;dbtoepub&lt;/a&gt;,
1104 &lt;a href=&quot;https://tracker.debian.org/pkg/dblatex&quot;&gt;dblatex&lt;/a&gt;,
1105 &lt;a href=&quot;https://tracker.debian.org/pkg/docbook-xsl&quot;&gt;docbook-xsl&lt;/a&gt; and
1106 &lt;a href=&quot;https://tracker.debian.org/pkg/fop&quot;&gt;fop&lt;/a&gt;.&lt;/p&gt;
1107
1108 &lt;p&gt;Most of the &lt;a href=&quot;http://www.hungry.com/~pere/publisher/&quot;&gt;books I
1109 have published&lt;/a&gt; are translated books, with English as the source
1110 language. The use of
1111 &lt;a href=&quot;https://tracker.debian.org/pkg/po4a&quot;&gt;po4a&lt;/a&gt; to
1112 handle translations using the gettext PO format has been a blessing,
1113 but publishing translated books had triggered the need to ensure the
1114 DocBook tools handle relevant languages correctly. For every new
1115 language I have published, I had to submit patches dblatex, dbtoepub
1116 and docbook-xsl fixing incorrect language and country specific issues
1117 in the framework themselves. Typically this has been missing keywords
1118 like &#39;figure&#39; or sort ordering of index entries. After a while it
1119 became tiresome to only discover issues like this by accident, and I
1120 decided to write a DocBook &quot;test framework&quot; exercising various
1121 features of DocBook and allowing me to see all features exercised for
1122 a given language. It consist of a set of DocBook files, a version 4
1123 book, a version 5 book, a v4 book set, a v4 selection of problematic
1124 tables, one v4 testing sidefloat and finally one v4 testing a book of
1125 articles. The DocBook files are accompanied with a set of build rules
1126 for building PDF using dblatex and docbook-xsl/fop, HTML using xmlto
1127 or docbook-xsl and epub using dbtoepub. The result is a set of files
1128 visualizing footnotes, indexes, table of content list, figures,
1129 formulas and other DocBook features, allowing for a quick review on
1130 the completeness of the given locale settings. To build with a
1131 different language setting, all one need to do is edit the lang= value
1132 in the .xml file to pick a different ISO 639 code value and run
1133 &#39;make&#39;.&lt;/p&gt;
1134
1135 &lt;p&gt;The &lt;a href=&quot;https://codeberg.org/pere/docbook-example/&quot;&gt;test framework
1136 source code&lt;/a&gt; is available from Codeberg, and a generated set of
1137 presentations of the various examples is available as Codeberg static
1138 web pages at
1139 &lt;a href=&quot;https://pere.codeberg.page/docbook-example/&quot;&gt;https://pere.codeberg.page/docbook-example/&lt;/a&gt;.
1140 Using this test framework I have been able to discover and report
1141 several bugs and missing features in various tools, and got a lot of
1142 them fixed. For example I got Northern Sami keywords added to both
1143 docbook-xsl and dblatex, fixed several typos in Norwegian bokmål and
1144 Norwegian Nynorsk, support for non-ascii title IDs added to pandoc,
1145 Norwegian index sorting support fixed in xindy and initial Norwegian
1146 Bokmål support added to dblatex. Some issues still remains, though.
1147 Default index sorting rules are still broken in several tools, so the
1148 Norwegian letters æ, ø and å are more often than not sorted properly
1149 in the book index.&lt;/p&gt;
1150
1151 &lt;p&gt;The test framework recently received some more polish, as part of
1152 publishing my latest book. This book contained a lot of fairly
1153 complex tables, which exposed bugs in some of the tools. This made me
1154 add a new test file with various tables, as well as spend some time to
1155 brush up the build rules. My goal is for the test framework to
1156 exercise all DocBook features to make it easier to see which features
1157 work with different processors, and hopefully get them all to support
1158 the full set of DocBook features. Feel free to send patches to extend
1159 the test set, and test it with your favorite DocBook processor.
1160 Please visit these two URLs to learn more:&lt;/p&gt;
1161
1162 &lt;ul&gt;
1163 &lt;li&gt;&lt;a href=&quot;https://codeberg.org/pere/docbook-example/&quot;&gt;https://codeberg.org/pere/docbook-example/&lt;/a&gt;&lt;/li&gt;
1164 &lt;li&gt;&lt;a href=&quot;https://pere.codeberg.page/docbook-example/&quot;&gt;https://pere.codeberg.page/docbook-example/&lt;/a&gt;&lt;/li&gt;
1165 &lt;/ul&gt;
1166
1167 &lt;p&gt;If you want to learn more on Docbook and translations, I recommend
1168 having a look at the &lt;a href=&quot;https://docbook.org/&quot;&gt;the DocBook
1169 web site&lt;/a&gt;,
1170 &lt;a href=&quot;https://doccookbook.sourceforge.net/html/en/&quot;&gt;the DoCookBook
1171 site&lt;a/&gt; and my earlier blog post on
1172 &lt;a href=&quot;http://www.hungry.com/~pere/blog/From_English_wiki_to_translated_PDF_and_epub_via_Docbook.html&quot;&gt;how
1173 the Skolelinux project process and translate documentation&lt;/a&gt;, a talk I gave earlier this year on
1174 &lt;a href=&quot;https://www.nuug.no/aktiviteter/20230314-oversetting-og-publisering-av-b%c3%b8ker-med-fri-programvare/&quot;&gt;how
1175 to translate and publish books using free software&lt;/a&gt; (Norwegian
1176 only).&lt;/p&gt;
1177
1178 &lt;!--
1179
1180 https://github.com/docbook/xslt10-stylesheets/issues/205 (docbook-xsl: sme support)
1181 https://bugs.debian.org/968437 (xindy: index sorting rules for nb/nn)
1182 https://bugs.debian.org/856123 (pandoc: markdown to docbook with non-english titles)
1183 https://bugs.debian.org/864813 (dblatex: missing nb words)
1184 https://bugs.debian.org/756386 (dblatex: index sorting rules for nb/nn)
1185 https://bugs.debian.org/796871 (dbtoepub: index sorting rules for nb/nn)
1186 https://bugs.debian.org/792616 (dblatex: PDF metadata)
1187 https://bugs.debian.org/686908 (docbook-xsl: index sorting rules for nb/nn)
1188 https://sourceforge.net/tracker/?func=detail&amp;atid=373747&amp;aid=3556630&amp;group_id=21935 (docbook-xsl: nb/nn support)
1189 https://bugs.debian.org/684391 (dblatex: initial nb support)
1190
1191 --&gt;
1192
1193 &lt;p&gt;As usual, if you use Bitcoin and want to show your support of my
1194 activities, please send Bitcoin donations to my address
1195 &lt;b&gt;&lt;a href=&quot;bitcoin:15oWEoG9dUPovwmUL9KWAnYRtNJEkP1u1b&quot;&gt;15oWEoG9dUPovwmUL9KWAnYRtNJEkP1u1b&lt;/a&gt;&lt;/b&gt;.&lt;/p&gt;
1196 </description>
1197 </item>
1198
1199 </channel>
1200 </rss>