]> pere.pagekite.me Git - homepage.git/blob - blog/archive/2023/11/11.rss
Converted pages to actually temp site.
[homepage.git] / blog / archive / 2023 / 11 / 11.rss
1 <?xml version="1.0" encoding="ISO-8859-1"?>
2 <rss version='2.0' xmlns:lj='http://www.livejournal.org/rss/lj/1.0/'>
3 <channel>
4 <title>Petter Reinholdtsen - Entries from November 2023</title>
5 <description>Entries from November 2023</description>
6 <link>http://www.hungry.com/~pere/blog/</link>
7
8
9 <item>
10 <title>«Når «på» blir «pÃ¥»: Et reservoar av tegn sett fra depotet» i tidsskriftet Aksess</title>
11 <link>http://www.hungry.com/~pere/blog/_N_r__p___blir__p_____Et_reservoar_av_tegn_sett_fra_depotet__i_tidsskriftet_Aksess.html</link>
12 <guid isPermaLink="true">http://www.hungry.com/~pere/blog/_N_r__p___blir__p_____Et_reservoar_av_tegn_sett_fra_depotet__i_tidsskriftet_Aksess.html</guid>
13 <pubDate>Wed, 15 Nov 2023 09:20:00 +0100</pubDate>
14 <description>&lt;p&gt;For noen uker siden skrev en kamerat og meg
15 &lt;a href=&quot;https://www.aksess-tidsskrift.no/fordypning/175530&quot;&gt;en
16 artikkel om tegnsett&lt;/a&gt; i
17 &lt;a href=&quot;https://www.aksess-tidsskrift.no/&quot;&gt;arkivtidsskriftet
18 Aksess&lt;/a&gt; både på web og i papirutgave nr. 3 2023. Her er det som
19 nettopp ble publisert.&lt;/p&gt;
20
21 &lt;blockquote&gt;
22
23 &lt;p&gt;&lt;strong&gt;Når «på» blir «pÃ¥»: Et reservoar av tegn sett fra
24 depotet&lt;/strong&gt;&lt;/p&gt;
25
26 &lt;p&gt;av Thomas Sødring og Petter Reinholdtsen&lt;/p&gt;
27
28 &lt;p&gt;De færreste av oss tenker over hva som skjer dypere i datamaskinen
29 mens vi sitter der og skriver noe på tastaturet. Når du trykker på
30 tasten «Å», så vises bokstaven Å. Men noen ganger blir det
31 feil. Hvorfor det – og hva er viktig å være klar over i
32 arkivsammenheng?&lt;/p&gt;
33
34 &lt;p&gt;Dersom bokstaver tolkes forskjellig mellom systemer, blir det fort
35 rot, dette kalles mojibake blant kjennere, etter det japanske
36 uttrykket for tegnomforming. Det er en lang historie her som tidvis
37 har vært preget av rot. Noen husker kanskje tilbake til en tid der
38 bokstavene æ, ø og å ofte var ødelagt i e-poster – et klassisk
39 eksempel på tegnsettproblemstilling.&lt;/p&gt;
40
41 &lt;p id=&quot;tegnsett_access_nå_og_før&quot;&gt;&lt;strong&gt;«Nå» og «før»&lt;/strong&gt;&lt;/p&gt;
42
43 &lt;p&gt;Tid er et skjult problem for depot fordi vi danner dokumentasjon i
44 en kontekst som er preget av å være «nå». Vår forståelse av verden og
45 bruken av teknologi er utgangspunktet for denne konteksten. Tenk selv
46 hvordan verden har utviklet seg de siste 20 årene, hva samfunnet er
47 opptatt av, og hvordan vi bruker teknologi i hverdagen. Tid er et
48 skjult problem fordi når vi trekker dokumentasjon ut av systemer og
49 deponerer for langtidsbevaring, er konteksten til materialet «nå», men
50 verden går videre. Ettersom teknologien og måten vi bruker den på,
51 utvikler seg, blir «nå» til «før», og dokumentasjonen befinner seg
52 snart i en «før»-kontekst.&lt;/p&gt;
53
54 &lt;p&gt;Dette med «før» og «nå» i forhold til dokumentasjonens kontekst er
55 noe vi er veldig lite bevisste på, men det er en problemstilling
56 depotarkivene eier og forvalter. En av disse utfordringene er hvorfor
57 «Ø» ikke nødvendigvis er det samme som «Ø», og hvorfor det i det hele
58 tatt gir mening å si noe sånt. Vi snakker her om noe som heter
59 tegnsett, som er en avtalt måte å representere bokstaver, tall og
60 andre symboler på slik at vi på en feilfri måte kan utveksle tekst
61 mellom datasystemer.&lt;/p&gt;
62
63 &lt;p&gt;Tegnsettproblemstillingen er satt sammen av fire fasetter;
64 repertoar, representasjon, koding og uttegning.&lt;/p&gt;
65
66 &lt;p id=&quot;tegnsett_access_repertoarer&quot;&gt;&lt;strong&gt;Repertoarer&lt;/strong&gt;&lt;/p&gt;
67
68 &lt;p&gt;Repertoar er en samling med tegn og symboler som kan
69 representeres. Tenk norsk alfabet eller japanske piktogrammer, men
70 også matematiske og elektroniske symboler. Bokstaven «stor a» kan være
71 en oppføring i et slikt repertoar. For å kunne brukes i en datamaskin
72 trenger hver oppføring i et slikt repertoar en representasjon, hvilket
73 i datamaskinsammenheng betyr at det tilordnes et tall. Tallet kan
74 lagres på ulike vis i en eller flere kodingsformater. For eksempel kan
75 en skrive tallet ti som både 10, X og A, i henholdsvis
76 titallssystemet, romertallssystemet og sekstentallssystemet.&lt;/p&gt;
77
78 &lt;p&gt;Hvis en skal kunne lese inn filer og vite hvilket tall og hvilken
79 representasjon og instans i et repertoar det er snakk om, så må en
80 vite hvordan tallet er kodet. Sist, men ikke minst, for å kunne bruke
81 symbolet til noe må det kunne være kjent hvordan det skal se ut eller
82 tegnes på ark. Det finnes utallige skrifttyper med norske bokstaver,
83 alle litt forskjellige, og skal en kunne tegne en stor A på skjermen,
84 så må datamaskinen vite hva den skal tegne. Skrifttyper inneholder
85 informasjon om hvordan ulike tall skal tegnes. De inneholder ikke
86 alltid alle symbolene som er brukt i en tekst, hvilket gjør at ikke
87 alle forståtte tegn vil kunne vises på skjerm eller ark.&lt;/p&gt;
88
89 &lt;p&gt;Hver av disse fasettene må være avklart for å kunne ta vare på og vise
90 frem tekst med en datamaskin. Kombinasjon av repertoar, representasjon
91 og koding er det en kaller et tegnsett. Kombinasjonen av
92 representasjon og uttegning kalles en skrifttype. De fleste
93 skrifttyper har også informasjon om repertoar, men det finnes
94 skrifttyper som kun kobler mellom tallkode og uttegning, uten å
95 fortelle noe om hvordan tallkodene egentlig skal tolkes.&lt;/p&gt;
96
97 &lt;p id=&quot;tegnsett_access_fra_ascii_til_iso_8859&quot;&gt;&lt;strong&gt;Fra ASCII til ISO-8859&lt;/strong&gt;&lt;/p&gt;
98
99 &lt;p&gt;Vi begynner historien med ASCII (American Standard Code for
100 Information Interchange) som har en historie som spores tilbake til
101 1963. Utgangspunktet til ASCII var at det kunne kode opp til 128
102 forskjellige symboler i vanlig bruk i USA. De visuelle symbolene i
103 ASCII er de små og store bokstavene (a til z og A til Z), tall (0 til
104 9) og tegnsettingssymboler (for eksempel semikolon, komma og
105 punktum). ASCII har også noen usynlige symboler som ble brukt for
106 bl.a. kommunikasjon. Før ASCII var det for eksempel teleks-tegnsett
107 med plass til bare 32 tegn og EBCDIC med plass til 256 tegn, alle med
108 en helt annen rekkefølge på symbolene enn ASCII, men de har vært lite
109 brukt de siste femti årene. Et eksempel på noen utvalgte symboler i
110 repertoaret til ASCII vises i tabell 1.&lt;/p&gt;
111
112 &lt;table align=&quot;center&quot; width=&quot;50%&quot;&gt;
113
114 &lt;caption&gt;Tabell 1. Eksempel på utvalgte symboler hentet fra
115 ASCII-tegnsettet. Kolonnen «Binær» viser symbolets verdi i
116 totallssystemet (1 og 0 tall), mens kolonnen «Desimal» viser symbolets
117 verdi i titallssystemet.&lt;/caption&gt;
118
119 &lt;tbody&gt;
120 &lt;tr&gt;
121 &lt;th&gt;Grafisk&lt;/th&gt;
122 &lt;th&gt;Binær&lt;/th&gt;
123 &lt;th&gt;Desimal&lt;/th&gt;
124 &lt;/tr&gt;
125 &lt;tr&gt;
126 &lt;td&gt;A&lt;/td&gt;
127 &lt;td&gt;1000001&lt;/td&gt;
128 &lt;td align=&quot;right&quot;&gt;65&lt;/td&gt;
129 &lt;/tr&gt;
130 &lt;tr&gt;
131 &lt;td&gt;M&lt;/td&gt;
132 &lt;td&gt;1001101&lt;/td&gt;
133 &lt;td align=&quot;right&quot;&gt;77&lt;/td&gt;
134 &lt;/tr&gt;
135 &lt;tr&gt;
136 &lt;td&gt;Z&lt;/td&gt;
137 &lt;td&gt;1011010&lt;/td&gt;
138 &lt;td align=&quot;right&quot;&gt;90&lt;/td&gt;
139 &lt;/tr&gt;
140 &lt;tr&gt;
141 &lt;td&gt;a&lt;/td&gt;
142 &lt;td&gt;1100001&lt;/td&gt;
143 &lt;td align=&quot;right&quot;&gt;97&lt;/td&gt;
144 &lt;/tr&gt;
145 &lt;tr&gt;
146 &lt;td&gt;m&lt;/td&gt;
147 &lt;td&gt;1101101&lt;/td&gt;
148 &lt;td align=&quot;right&quot;&gt;109&lt;/td&gt;
149 &lt;/tr&gt;
150 &lt;tr&gt;
151 &lt;td&gt;z&lt;/td&gt;
152 &lt;td&gt;1111010&lt;/td&gt;
153 &lt;td align=&quot;right&quot;&gt;122&lt;/td&gt;
154 &lt;/tr&gt;
155 &lt;tr&gt;
156 &lt;td&gt;0&lt;/td&gt;
157 &lt;td&gt;0110000&lt;/td&gt;
158 &lt;td align=&quot;right&quot;&gt;48&lt;/td&gt;
159 &lt;/tr&gt;
160 &lt;tr&gt;
161 &lt;td&gt;9&lt;/td&gt;
162 &lt;td&gt;0111001&lt;/td&gt;
163 &lt;td align=&quot;right&quot;&gt;58&lt;/td&gt;
164 &lt;/tr&gt;
165 &lt;tr&gt;
166 &lt;td&gt;;&lt;/td&gt;
167 &lt;td&gt;0111011&lt;/td&gt;
168 &lt;td align=&quot;right&quot;&gt;59&lt;/td&gt;
169 &lt;/tr&gt;
170 &lt;/tbody&gt;
171 &lt;/table&gt;
172
173 &lt;p&gt;Det opprinnelige ASCII-tegnsettet ble også omtalt som ASCII-7 og
174 brukte 7 bits (0 og 1) for å representere symboler. Datamaskiner er
175 ofte konfigurert til å jobbe med enheter der bits er gruppert som 4
176 eller 8 bits . Det lå en mulighet i å ta i bruk bit åtte. En slik
177 endring ville gjøre det mulig for datamaskiner å øke antall symboler
178 de kunne representere, noe som ga en økning fra 128 forskjellige
179 symboler til 256 forskjellige symboler. Det ble åpnet for å innlemme
180 de nordiske bokstavene sammen med ASCII, og dette ble etter hvert
181 standardisert som ISO-8859-1. Tabell 2 viser deler av ISO-8859-1 som
182 støtter de norske bokstavene.&lt;/p&gt;
183
184 &lt;p&gt;Det sier seg selv at muligheten til å representere inntil 256 symboler
185 ikke holder når vi snakker om en global verden, og det ble gjort et
186 standardiseringsløp som tok utgangspunkt i ASCII-7 med en utvidelse
187 til å bruke den åttende biten for ulike språkgrupper. Denne standarden
188 heter ISO-8859 og er inndelt i opptil 16 varianter, altså fra
189 ISO-8859-1 til ISO-8859-16.&lt;/p&gt;
190
191 &lt;table align=&quot;center&quot; width=&quot;50%&quot;&gt;
192
193 &lt;caption&gt;Tabell 2. Koding av de norske symbolene slik de er definert i
194 ISO-8859-1 tegnsettet.&lt;/caption&gt;
195
196 &lt;tbody&gt;
197 &lt;tr&gt;
198 &lt;th&gt;Grafisk&lt;/th&gt;
199 &lt;th&gt;Binær&lt;/th&gt;
200 &lt;th&gt;Desimal&lt;/th&gt;
201 &lt;/tr&gt;
202 &lt;tr&gt;
203 &lt;td&gt;Æ&lt;/td&gt;
204 &lt;td&gt;11000110&lt;/td&gt;
205 &lt;td align=&quot;right&quot;&gt;198&lt;/td&gt;
206 &lt;/tr&gt;
207 &lt;tr&gt;
208 &lt;td&gt;Ø&lt;/td&gt;
209 &lt;td&gt;11011000&lt;/td&gt;
210 &lt;td align=&quot;right&quot;&gt;216&lt;/td&gt;
211 &lt;/tr&gt;
212 &lt;tr&gt;
213 &lt;td&gt;Å&lt;/td&gt;
214 &lt;td&gt;11000101&lt;/td&gt;
215 &lt;td align=&quot;right&quot;&gt;197&lt;/td&gt;
216 &lt;/tr&gt;
217 &lt;tr&gt;
218 &lt;td&gt;æ&lt;/td&gt;
219 &lt;td&gt;11100110&lt;/td&gt;
220 &lt;td align=&quot;right&quot;&gt;230&lt;/td&gt;
221 &lt;/tr&gt;
222 &lt;tr&gt;
223 &lt;td&gt;ø&lt;/td&gt;
224 &lt;td&gt;11111000&lt;/td&gt;
225 &lt;td align=&quot;right&quot;&gt;248&lt;/td&gt;
226 &lt;/tr&gt;
227 &lt;tr&gt;
228 &lt;td&gt;å&lt;/td&gt;
229 &lt;td&gt;11100101&lt;/td&gt;
230 &lt;td align=&quot;right&quot;&gt;229&lt;/td&gt;
231 &lt;/tr&gt;
232 &lt;/tbody&gt;
233 &lt;/table&gt;
234
235 &lt;p&gt;Norske tegn er definert i ISO-8859-1, som også omtales som Latin 1, de
236 fleste samiske tegn er definert i ISO-8859-4 (Latin 4) mens tilgang
237 til €-symbolet kom med ISO-8859-15 (Latin 9). ISO-8859-15 er en
238 revisjon av ISO-8859-1 som fjerner noen lite brukte symboler og
239 erstatter bokstaver som er mer brukt, og introduserer €-symbolet. Det
240 er viktig å merke at alle ISO-8859-variantene har overlapp med
241 ASCII-7, noe som ga samvirke med de engelskspråklige landene som ikke
242 trengte å gjøre noe. Det innebærer også at de første 128 verdiene i
243 ISO-8859-variantene representerer de samme symbolene. Det er først når
244 du kommer til tolkningen av de resterende 128 verdiene med nummer 128
245 til 255, at det oppsto tolkningsutfordringer mellom
246 ISO-8859-variantene.&lt;/p&gt;
247
248 &lt;p&gt;ISO-8859-verdenen fungerte godt så lenge tegnsettet som ble brukt når
249 innhold ble skapt, også ble brukt når innhold ble gjengitt og du ikke
250 trengte å kombinere innhold fra forskjellige tegnsett i samme
251 dokument. Utfordringen med bruken av ISO-8859-variantene ble raskt
252 tydelig i en mer globalisert verden med utveksling av tekst på tvers
253 av landegrenser der tekstlig innhold i dokumenter, e-poster og
254 websider kunne bli skrevet med ett tegnsett og gjengitt med et annet
255 tegnsett.&lt;/p&gt;
256
257 &lt;table align=&quot;center&quot; width=&quot;60%&quot;&gt;
258
259 &lt;caption&gt;Tabell 3. Viser tolkning av verdiene som er tilegnet de
260 norske symbolene i ISO-8859-1 i de andre ISO 8859-variatene. Merk
261 ISO-8859-12 ikke finnes da arbeidet ble avsluttet.&lt;sup&gt;[&lt;a id=&quot;tegnsett_access_footnoteref_1&quot; href=&quot;#tegnsett_access_footnotedef_1&quot; title=&quot;View footnote.&quot;&gt;1&lt;/a&gt;]&lt;/sup&gt;&lt;/caption&gt;
262
263 &lt;tbody&gt;
264 &lt;tr&gt;
265 &lt;th&gt;Binærverdi&lt;/th&gt;
266 &lt;th&gt;1&lt;/th&gt;
267 &lt;th&gt;2&lt;/th&gt;
268 &lt;th&gt;3&lt;/th&gt;
269 &lt;th&gt;4&lt;/th&gt;
270 &lt;th&gt;5&lt;/th&gt;
271 &lt;th&gt;6&lt;/th&gt;
272 &lt;th&gt;7&lt;/th&gt;
273 &lt;th&gt;8&lt;/th&gt;
274 &lt;th&gt;9&lt;/th&gt;
275 &lt;th&gt;10&lt;/th&gt;
276 &lt;th&gt;11&lt;/th&gt;
277 &lt;th&gt;13&lt;/th&gt;
278 &lt;th&gt;14&lt;/th&gt;
279 &lt;th&gt;15&lt;/th&gt;
280 &lt;th&gt;16&lt;/th&gt;
281 &lt;/tr&gt;
282 &lt;tr&gt;
283 &lt;td&gt;11000110&lt;/td&gt;
284 &lt;td&gt;Æ&lt;/td&gt;
285 &lt;td&gt;Ć&lt;/td&gt;
286 &lt;td&gt;Ĉ&lt;/td&gt;
287 &lt;td&gt;Æ&lt;/td&gt;
288 &lt;td&gt;Ц&lt;/td&gt;
289 &lt;td&gt;ئ&lt;/td&gt;
290 &lt;td&gt;Ζ&lt;/td&gt;
291 &lt;td&gt;&lt;/td&gt;
292 &lt;td&gt;Æ&lt;/td&gt;
293 &lt;td&gt;Æ&lt;/td&gt;
294 &lt;td&gt;&lt;/td&gt;
295 &lt;td&gt;Ę&lt;/td&gt;
296 &lt;td&gt;Æ&lt;/td&gt;
297 &lt;td&gt;Æ&lt;/td&gt;
298 &lt;td&gt;Æ&lt;/td&gt;
299 &lt;/tr&gt;
300 &lt;tr&gt;
301 &lt;td&gt;11011000&lt;/td&gt;
302 &lt;td&gt;Ø&lt;/td&gt;
303 &lt;td&gt;Ř&lt;/td&gt;
304 &lt;td&gt;Ĝ&lt;/td&gt;
305 &lt;td&gt;Ø&lt;/td&gt;
306 &lt;td&gt;и&lt;/td&gt;
307 &lt;td&gt;ظ&lt;/td&gt;
308 &lt;td&gt;Ψ&lt;/td&gt;
309 &lt;td&gt;&lt;/td&gt;
310 &lt;td&gt;Ø&lt;/td&gt;
311 &lt;td&gt;Ø&lt;/td&gt;
312 &lt;td&gt;&lt;/td&gt;
313 &lt;td&gt;Ų&lt;/td&gt;
314 &lt;td&gt;Ø&lt;/td&gt;
315 &lt;td&gt;Ø&lt;/td&gt;
316 &lt;td&gt;Ű&lt;/td&gt;
317 &lt;/tr&gt;
318 &lt;tr&gt;
319 &lt;td&gt;11000101&lt;/td&gt;
320 &lt;td&gt;Å&lt;/td&gt;
321 &lt;td&gt;Ĺ&lt;/td&gt;
322 &lt;td&gt;Ċ&lt;/td&gt;
323 &lt;td&gt;Å&lt;/td&gt;
324 &lt;td&gt;Х&lt;/td&gt;
325 &lt;td&gt;إ&lt;/td&gt;
326 &lt;td&gt;Ε&lt;/td&gt;
327 &lt;td&gt;&lt;/td&gt;
328 &lt;td&gt;Å&lt;/td&gt;
329 &lt;td&gt;Å&lt;/td&gt;
330 &lt;td&gt;&lt;/td&gt;
331 &lt;td&gt;Å&lt;/td&gt;
332 &lt;td&gt;Å&lt;/td&gt;
333 &lt;td&gt;Å&lt;/td&gt;
334 &lt;td&gt;Ć&lt;/td&gt;
335 &lt;/tr&gt;
336 &lt;tr&gt;
337 &lt;td&gt;11100110&lt;/td&gt;
338 &lt;td&gt;æ&lt;/td&gt;
339 &lt;td&gt;ć&lt;/td&gt;
340 &lt;td&gt;ĉ&lt;/td&gt;
341 &lt;td&gt;æ&lt;/td&gt;
342 &lt;td&gt;ц&lt;/td&gt;
343 &lt;td&gt;ن&lt;/td&gt;
344 &lt;td&gt;ζ&lt;/td&gt;
345 &lt;td&gt;ז&lt;/td&gt;
346 &lt;td&gt;æ&lt;/td&gt;
347 &lt;td&gt;æ&lt;/td&gt;
348 &lt;td&gt;&lt;/td&gt;
349 &lt;td&gt;ę&lt;/td&gt;
350 &lt;td&gt;æ&lt;/td&gt;
351 &lt;td&gt;æ&lt;/td&gt;
352 &lt;td&gt;v&lt;/td&gt;
353 &lt;/tr&gt;
354 &lt;tr&gt;
355 &lt;td&gt;11111000&lt;/td&gt;
356 &lt;td&gt;ø&lt;/td&gt;
357 &lt;td&gt;ř&lt;/td&gt;
358 &lt;td&gt;ĝ&lt;/td&gt;
359 &lt;td&gt;ø&lt;/td&gt;
360 &lt;td&gt;ј&lt;/td&gt;
361 &lt;td&gt;&lt;/td&gt;
362 &lt;td&gt;ψ&lt;/td&gt;
363 &lt;td&gt;ר&lt;/td&gt;
364 &lt;td&gt;ø&lt;/td&gt;
365 &lt;td&gt;ø&lt;/td&gt;
366 &lt;td&gt;&lt;/td&gt;
367 &lt;td&gt;ų&lt;/td&gt;
368 &lt;td&gt;ø&lt;/td&gt;
369 &lt;td&gt;ø&lt;/td&gt;
370 &lt;td&gt;ű&lt;/td&gt;
371 &lt;/tr&gt;
372 &lt;tr&gt;
373 &lt;td&gt;11100101&lt;/td&gt;
374 &lt;td&gt;å&lt;/td&gt;
375 &lt;td&gt;ĺ&lt;/td&gt;
376 &lt;td&gt;ċ&lt;/td&gt;
377 &lt;td&gt;å&lt;/td&gt;
378 &lt;td&gt;х&lt;/td&gt;
379 &lt;td&gt;م&lt;/td&gt;
380 &lt;td&gt;ε&lt;/td&gt;
381 &lt;td&gt;ו&lt;/td&gt;
382 &lt;td&gt;å&lt;/td&gt;
383 &lt;td&gt;å&lt;/td&gt;
384 &lt;td&gt;&lt;/td&gt;
385 &lt;td&gt;å&lt;/td&gt;
386 &lt;td&gt;å&lt;/td&gt;
387 &lt;td&gt;å&lt;/td&gt;
388 &lt;td&gt;ć&lt;/td&gt;
389 &lt;/tr&gt;
390 &lt;/tbody&gt;
391 &lt;/table&gt;
392
393 &lt;p&gt;Denne problemstillingen er illustrert i tabell 3, der vi ser verdiene
394 tilegnet de norske symbolene i ISO-8859-1 i kolonne «1». I de øvrige
395 kolonnene ser vi hvilket symbol verdien får i de andre
396 ISO-8859-variantene. Tar vi utgangspunkt i tabell 3, kan vi se at
397 ordet lærlingspørsmål gjengitt med ISO-8859-2 (kolonne 2) blir
398 lćrlingspřrsmĺl, mens det blir lζrlingspψrsmεl med ISO- 8859-7
399 (kolonne 7). Med ISO-8859-2 blir «æ» til «ć», «ø» til «ř» og «å» til
400 «ĺ». I ISO-8859-7 blir «æ» til «ζ», «ø» til «ψ», mens «å» blir «ε».&lt;/p&gt;
401
402 &lt;p&gt;Det er egentlig ingen utfordring med dette så lenge du vet hvilket
403 tegnsett innholdet ditt er representert med, og det ikke har skjedd
404 omforminger som du ikke er klar over. Det er det siste som er
405 problematisk, spesielt de datasystemene som har vært i bruk de siste
406 20 årene, som ikke har noe innebygd funksjonalitet for å forvalte
407 tegnsettproblematikken. Et godt eksempel på dette er
408 Microsoft-tegnsettet Windows-1252, som ble forvekslet som 100 %
409 kompatibel med ISO-8859-1, men hadde byttet ut plassene fra 127 til
410 159. Historisk vil det finnes en del variasjon i hvilket tegnsett som
411 har vært i bruk, og hvor vellykket konvertering mellom tegnsett har
412 vært.&lt;/p&gt;
413
414 &lt;p id=&quot;tegnsett_access_unicode_som_løsning&quot;&gt;&lt;strong&gt;Unicode som løsning&lt;/strong&gt;&lt;/p&gt;
415
416 &lt;p&gt;Tegnsettforvirring ble etter hvert et irritasjonsmoment og
417 samvirkeproblem. Ofte fikk man en e-post der æøå var erstattet av rare
418 symboler fordi e-posten hadde vært innom et eller annet datasystem som
419 ikke brukte samme tegnsett.&lt;/p&gt;
420
421 &lt;p&gt;For å løse dette samvirkeproblemet for tegnsett ble det startet et
422 arbeid og en ny standard så dagens lys etter hvert. Denne standarden
423 fikk navnet Unicode (ISO/ IEC 10646) og skulle resultere i et tegnsett
424 som alle skulle være enige om. Unicode er et repertoar og en
425 representasjon, dvs. navngivning og tilordning av tallverdi til alle
426 symboler i bruk i verden i dag. Oppføringer i Unicode skrives gjerne
427 U+XXXX der XXXX er tallkoden i sekstentallssystemet som oppføringen
428 har i Unicode-katalogen. Her finner vi tegn brukt av både levende og
429 døde språk, konstruerte språk, tekniske symboler, morsomme tegninger
430 (såkalte emojier) og tegn ingen vet hva betyr eller skal brukes
431 til. Et morsomt eksempel er i nettartikkelen: U+237C ⍼ RIGHT ANGLE
432 WITH DOWNWARDS ZIGZAG ARROW, av Jonathan Chan.&lt;sup&gt;[&lt;a id=&quot;tegnsett_access_footnoteref_2&quot; href=&quot;#tegnsett_access_footnotedef_2&quot; title=&quot;View footnote.&quot;&gt;2&lt;/a&gt;]&lt;/sup&gt;&lt;/p&gt;
433
434 &lt;p&gt;Sammen med Unicode kom det tre måter å kode disse tallene på; UTF-8,
435 UTF-16 og UTF-32. Av datatekniske årsaker er UTF-8 mye brukt, spesielt
436 når det gjelder utveksling av tekst over Internett, mens UTF-16 er
437 brukt en del til tekstfiler lagret på Windows. En utfordring med
438 Unicode og UTF-variantene er at disse gir flere måter å kode samme
439 symbol på med en kombinasjonsmekanisme. Dette kan gi utfordringer ved
440 søk, hvis en skal søke etter et ord som har ett eller flere symboler
441 som kan skrives på ulikt vis, så er det ikke sikkert at søkesystemet
442 vil finne alle forekomster. For eksempel kan bokstaven U+00F8 «Latin
443 Small Letter O with Stroke» kodes som den tradisjonelle norske tegnet
444 ø, men også som o kombinert med skråstrek U+0338. Begge deler er
445 gyldig bruk av Unicode, selv om det er tradisjon for å foretrekke å
446 «normalisere» kombinasjoner som enkelttegn der det er mulig, nettopp
447 for å forenkle søk.&lt;/p&gt;
448
449 &lt;p id=&quot;tegnsett_access_bare_unicode_fremover&quot;&gt;&lt;strong&gt;Bare Unicode fremover&lt;/strong&gt;&lt;/p&gt;
450
451 &lt;p&gt;Forvaltningens bruk av tegnsett er regulert i Forskrift om
452 IT-standarder i offentlig forvaltning&lt;sup&gt;[&lt;a id=&quot;tegnsett_access_footnoteref_3&quot; href=&quot;#tegnsett_access_footnotedef_3&quot; title=&quot;View footnote.&quot;&gt;3&lt;/a&gt;]&lt;/sup&gt;. Her står det: «Ved all
453 utveksling av informasjon mellom forvaltningsorganer og fra
454 forvaltningsorgan til innbyggere og næringsliv skal tegnsettstandarden
455 ISO/IEC 10646 representert ved UTF8 benyttes.» Det er forskjellige
456 bruksområder til UTF-8, UTF-16 og UTF-32, men UTF-8 er kodingen vi
457 kjenner mest til. Det er flere grunner at UTF-8 «vant» konkurransen
458 til å bli den utvalgte. Den kanskje viktigste er at UTF-8 er fullt
459 samvirkende med ASCII-7, slik at den engelskspråklige delen av verden
460 kunne rulle ut UTF-8 uten å merke noe forskjell. En tekstfil med kun
461 ASCII-tekst vil være identisk på disken hvis den lagres som UTF-8 og
462 ASCII. UTF-16 og UTF-32 byr på noen optimaliseringer som gjør dem
463 relevant for spesifikke problemområder, men for det meste vil vi aldri
464 oppleve disse standardene på nært hold i hverdagen. Det er uansett kun
465 bruken av UTF-8 som er lovregulert i Norge.&lt;/p&gt;
466
467 &lt;p&gt;Det er ikke slik at hele verden bruker ISO/IEC 10646 og UTF-8. Kina
468 har egne standarder for tegnsett, mye brukt er GB 18030, som er
469 Unicode med en annen koding enn UTF-8, mens Taiwan og andre asiatiske
470 land gjerne bruker Big5 eller andre tegnsett.&lt;/p&gt;
471
472 &lt;p&gt;UTF-8 er dominerende i Norge, men det er tidsperioder der forskjellige
473 datasystemer utvekslet data i henhold til ISO-8859-1, ISO-8859-15,
474 Windows-1252, Codepage 865 og ISO-646-60 / Codepage 1016 mens
475 overgangen til UTF-8 pågikk. Det er ikke slik at et datasystem enkelt
476 kan tvinges til å bruke et tegnsett, da det er flere lag i et
477 datasystem som må settes opp til å bruke riktig tegnsett, og
478 tegnsettproblemet fort oppstår når det er et eller annet i
479 datasystemet som bruker feil tegnsett.&lt;/p&gt;
480
481 &lt;p&gt;Et klassisk eksempel på problemet er en utveksling av tekst mellom to
482 systemer der teksten i utgangspunktet er kodet i UTF-8, men går
483 gjennom noe som er ISO-8859-1 underveis. Dette kan vises med at ordet
484 «på» i et slik scenario ender opp som «pÃ¥». Det er mulig å spore
485 dette tilbake til verdiene symbolene er tilordnet i tegnsettene. «på»
486 blir til «pÃ¥» fordi «å» i UTF-8 er representert med U+C3AF, og dersom
487 vi ser på hva disse verdiene representerer, ser vi at
488 sekstentallssystemverdien C3 er 1100 0011 i totallssystemet og
489 symbolet med dette tallet i ISO-8859-1 er Ã.&lt;/p&gt;
490
491 &lt;p&gt;Vi ser det samme med sekstentallssystemverdien A5, som er 1010 0101 i
492 totallssystemet, og tilsvarende symbol i ISO-8859-1 er ¥. Slik
493 mojibake kan lett skje hvis «på» i utgangspunktet var representert med
494 UTF-8, men ble behandlet med et system som bruker ISO-8859-1. Det er
495 ingen automatikk i å fange opp slike ødeleggelser mens tekstlig
496 innhold utveksles mellom datasystemer.&lt;/p&gt;
497
498 &lt;p&gt;En utfordring for depotarkivene er at bruken av tegnsett ikke alltid
499 har vært regulert, og at det kan finnes flere dokumentasjonssamlinger
500 som er opprettet med varierende tegnsett før gjeldende forskrift
501 inntraff – uten at det er mulig å avlede fra filene hvilket tegnsett
502 som ble brukt. Et eksempel på dette er €-symbolet, som kom først etter
503 at ISO-8859-1 var tatt i bruk. Det kan bli en utfordring for et
504 depotarkiv, men så lenge det er kjent hvilket tegnsett var i bruk, så
505 bør det gå bra. Riksarkivarens
506 forskrift&lt;sup&gt;[&lt;a id=&quot;tegnsett_access_footnoteref_4&quot; href=&quot;#tegnsett_access_footnotedef_4&quot; title=&quot;View footnote.&quot;&gt;4&lt;/a&gt;]&lt;/sup&gt;
507 formaliserer dette ved å kreve følgende:&lt;/p&gt;
508
509 &lt;blockquote&gt;
510 &lt;p&gt;§ 5-11. Tegnsett i arkivuttrekk&lt;/p&gt;
511
512 &lt;ol&gt;
513 &lt;li&gt;Arkivuttrekk og medfølgende struktur- og innholdsbeskrivelser skal
514 overføres som ren tekst i ukryptert form, og benytte godkjent
515 tegnsett.&lt;/li&gt;
516
517 &lt;li&gt;Godkjente tegnsett er:
518 &lt;ol&gt;
519 &lt;li&gt;Unicode UTF-8&lt;br&gt;
520 (ISO/IEC 10646-1:2000 Annex D)&lt;/li&gt;
521 &lt;li&gt;ISO 8859-1:1998, Latin 1&lt;/li&gt;
522 &lt;li&gt;ISO 8859-4:1998, Latin 4 for samiske tegn.&lt;/li&gt;
523 &lt;/ol&gt;&lt;/li&gt;
524
525 &lt;li&gt;Andre tegnsett aksepteres bare etter avtale med Arkivverket.&lt;/li&gt;
526 &lt;/ol&gt;
527 &lt;/blockquote&gt;
528
529 &lt;p id=&quot;tegnsett_access_ditt_ansvar&quot;&gt;&lt;strong&gt;Ditt ansvar&lt;/strong&gt;&lt;/p&gt;
530
531 &lt;p&gt;På mange måter burde ikke tegnsett være et problem i 2023, men sånn er
532 det nok ikke. Land som har oppgradert til UTF-8 som primærtegnsett for
533 utveksling av tekstlig innhold, begrenser problematikken betraktelig,
534 men globalt sett så er tegnsettutfordringen ikke løst fordi ikke alle
535 er enige om å bruke samme tegnsett. Det kan være geopolitiske eller
536 kulturelle hensyn som ligger til grunn for dette.&lt;/p&gt;
537
538 &lt;p&gt;Det er uansett verdt å merke at selv om bruken av UTF-8 skulle bli
539 100% utbredt, så er det et historisk perspektiv (ASCII-7,
540 ISO-8859-variantene, UTF-8) her som gjør tegnsett til et problemområde
541 arkivarene må forstå og håndtere. Som danningsarkivar har du et
542 ansvar for å vite hvilket tegnsett systemene og databasene dere
543 forvalter, er i samsvar med. Det er noe IT-avdelingen din eller
544 programvareleverandørene enkelt skal kunne svare på, og svaret skal
545 være UTF-8 for alle nye systemer.&lt;/p&gt;
546
547 &lt;hr&gt;
548
549 &lt;p id=&quot;tegnsett_access_footnotedef_1&quot;&gt;&lt;a href=&quot;#tegnsett_access_footnoteref_1&quot;&gt;1&lt;/a&gt;. Tegnsettkilde &lt;a href=&quot;https://en.wikipedia.org/wiki/ISO/IEC_8859&quot;&gt;https://en.wikipedia.org/wiki/ISO/IEC_8859&lt;/a&gt;&lt;/p&gt;
550
551 &lt;p id=&quot;tegnsett_access_footnotedef_2&quot;&gt;&lt;a href=&quot;#tegnsett_access_footnoteref_2&quot;&gt;2&lt;/a&gt;. &lt;a href=&quot;https://ionathan.ch/2022/04/09/angzarr.html&quot;&gt;https://ionathan.ch/2022/04/09/angzarr.html&lt;/a&gt;&lt;/p&gt;
552
553 &lt;p id=&quot;tegnsett_access_footnotedef_3&quot;&gt;&lt;a href=&quot;#tegnsett_access_footnoteref_3&quot;&gt;3&lt;/a&gt;. &lt;a href=&quot;https://lovdata.no/dokument/SF/forskrift/2013-04-05-959/%C2%A78#%C2%A78&quot;&gt;https://lovdata.no/dokument/SF/forskrift/2013-04-05-959/%C2%A78#%C2%A78&lt;/a&gt;&lt;/p&gt;
554
555 &lt;p id=&quot;tegnsett_access_footnotedef_4&quot;&gt;&lt;a href=&quot;#tegnsett_access_footnoteref_4&quot;&gt;4&lt;/a&gt;. &lt;a href=&quot;https://lovdata.no/forskrift/2017-12-19-22865-11&quot;&gt;https://lovdata.no/forskrift/2017-12-19-22865-11&lt;/a&gt;&lt;/p&gt;
556
557 &lt;/blockquote&gt;
558
559 &lt;p&gt;For øvrig burde varsleren Edward Snowden få politisk asyl i Norge.&lt;/p&gt;
560
561 &lt;p&gt;Som vanlig, hvis du bruker Bitcoin og ønsker å vise din støtte til
562 det jeg driver med, setter jeg pris på om du sender Bitcoin-donasjoner
563 til min adresse
564 &lt;b&gt;&lt;a href=&quot;bitcoin:15oWEoG9dUPovwmUL9KWAnYRtNJEkP1u1b&quot;&gt;15oWEoG9dUPovwmUL9KWAnYRtNJEkP1u1b&lt;/a&gt;&lt;/b&gt;. Merk,
565 betaling med bitcoin er ikke anonymt. :)&lt;/p&gt;
566 </description>
567 </item>
568
569 <item>
570 <title>New and improved sqlcipher in Debian for accessing Signal database</title>
571 <link>http://www.hungry.com/~pere/blog/New_and_improved_sqlcipher_in_Debian_for_accessing_Signal_database.html</link>
572 <guid isPermaLink="true">http://www.hungry.com/~pere/blog/New_and_improved_sqlcipher_in_Debian_for_accessing_Signal_database.html</guid>
573 <pubDate>Sun, 12 Nov 2023 12:00:00 +0100</pubDate>
574 <description>&lt;p&gt;For a while now I wanted to have direct access to the
575 &lt;a href=&quot;https://signal.org/&quot;&gt;Signal&lt;/a&gt; database of messages and
576 channels of my Desktop edition of Signal. I prefer the enforced end
577 to end encryption of Signal these days for my communication with
578 friends and family, to increase the level of safety and privacy as
579 well as raising the cost of the mass surveillance government and
580 non-government entities practice these days. In August I came across
581 a nice
582 &lt;a href=&quot;https://www.yoranbrondsema.com/post/the-guide-to-extracting-statistics-from-your-signal-conversations/&quot;&gt;recipe
583 on how to use sqlcipher to extract statistics from the Signal
584 database&lt;/a&gt; explaining how to do this. Unfortunately this did not
585 work with the version of sqlcipher in Debian. The
586 &lt;a href=&quot;http://tracker.debian.org/sqlcipher/&quot;&gt;sqlcipher&lt;/a&gt;
587 package is a &quot;fork&quot; of the sqlite package with added support for
588 encrypted databases. Sadly the current Debian maintainer
589 &lt;a href=&quot;https://bugs.debian.org/961598&quot;&gt;announced more than three
590 years ago that he did not have time to maintain sqlcipher&lt;/a&gt;, so it
591 seemed unlikely to be upgraded by the maintainer. I was reluctant to
592 take on the job myself, as I have very limited experience maintaining
593 shared libraries in Debian. After waiting and hoping for a few
594 months, I gave up the last week, and set out to update the package. In
595 the process I orphaned it to make it more obvious for the next person
596 looking at it that the package need proper maintenance.&lt;/p&gt;
597
598 &lt;p&gt;The version in Debian was around five years old, and quite a lot of
599 changes had taken place upstream into the Debian maintenance git
600 repository. After spending a few days importing the new upstream
601 versions, realising that upstream did not care much for SONAME
602 versioning as I saw library symbols being both added and removed with
603 minor version number changes to the project, I concluded that I had to
604 do a SONAME bump of the library package to avoid surprising the
605 reverse dependencies. I even added a simple
606 autopkgtest script to ensure the package work as intended. Dug deep
607 into the hole of learning shared library maintenance, I set out a few
608 days ago to upload the new version to Debian experimental to see what
609 the quality assurance framework in Debian had to say about the result.
610 The feedback told me the pacakge was not too shabby, and yesterday I
611 uploaded the latest version to Debian unstable. It should enter
612 testing today or tomorrow, perhaps delayed by
613 &lt;a href=&quot;https://bugs.debian.org/1055812&quot;&gt;a small library
614 transition&lt;/a&gt;.&lt;/p&gt;
615
616 &lt;p&gt;Armed with a new version of sqlcipher, I can now have a look at the
617 SQL database in ~/.config/Signal/sql/db.sqlite. First, one need to
618 fetch the encryption key from the Signal configuration using this
619 simple JSON extraction command:&lt;/p&gt;
620
621 &lt;pre&gt;/usr/bin/jq -r &#39;.&quot;key&quot;&#39; ~/.config/Signal/config.json&lt;/pre&gt;
622
623 &lt;p&gt;Assuming the result from that command is &#39;secretkey&#39;, which is a
624 hexadecimal number representing the key used to encrypt the database.
625 Next, one can now connect to the database and inject the encryption
626 key for access via SQL to fetch information from the database. Here
627 is an example dumping the database structure:&lt;/p&gt;
628
629 &lt;pre&gt;
630 % sqlcipher ~/.config/Signal/sql/db.sqlite
631 sqlite&gt; PRAGMA key = &quot;x&#39;secretkey&#39;&quot;;
632 sqlite&gt; .schema
633 CREATE TABLE sqlite_stat1(tbl,idx,stat);
634 CREATE TABLE conversations(
635 id STRING PRIMARY KEY ASC,
636 json TEXT,
637
638 active_at INTEGER,
639 type STRING,
640 members TEXT,
641 name TEXT,
642 profileName TEXT
643 , profileFamilyName TEXT, profileFullName TEXT, e164 TEXT, serviceId TEXT, groupId TEXT, profileLastFetchedAt INTEGER);
644 CREATE TABLE identityKeys(
645 id STRING PRIMARY KEY ASC,
646 json TEXT
647 );
648 CREATE TABLE items(
649 id STRING PRIMARY KEY ASC,
650 json TEXT
651 );
652 CREATE TABLE sessions(
653 id TEXT PRIMARY KEY,
654 conversationId TEXT,
655 json TEXT
656 , ourServiceId STRING, serviceId STRING);
657 CREATE TABLE attachment_downloads(
658 id STRING primary key,
659 timestamp INTEGER,
660 pending INTEGER,
661 json TEXT
662 );
663 CREATE TABLE sticker_packs(
664 id TEXT PRIMARY KEY,
665 key TEXT NOT NULL,
666
667 author STRING,
668 coverStickerId INTEGER,
669 createdAt INTEGER,
670 downloadAttempts INTEGER,
671 installedAt INTEGER,
672 lastUsed INTEGER,
673 status STRING,
674 stickerCount INTEGER,
675 title STRING
676 , attemptedStatus STRING, position INTEGER DEFAULT 0 NOT NULL, storageID STRING, storageVersion INTEGER, storageUnknownFields BLOB, storageNeedsSync
677 INTEGER DEFAULT 0 NOT NULL);
678 CREATE TABLE stickers(
679 id INTEGER NOT NULL,
680 packId TEXT NOT NULL,
681
682 emoji STRING,
683 height INTEGER,
684 isCoverOnly INTEGER,
685 lastUsed INTEGER,
686 path STRING,
687 width INTEGER,
688
689 PRIMARY KEY (id, packId),
690 CONSTRAINT stickers_fk
691 FOREIGN KEY (packId)
692 REFERENCES sticker_packs(id)
693 ON DELETE CASCADE
694 );
695 CREATE TABLE sticker_references(
696 messageId STRING,
697 packId TEXT,
698 CONSTRAINT sticker_references_fk
699 FOREIGN KEY(packId)
700 REFERENCES sticker_packs(id)
701 ON DELETE CASCADE
702 );
703 CREATE TABLE emojis(
704 shortName TEXT PRIMARY KEY,
705 lastUsage INTEGER
706 );
707 CREATE TABLE messages(
708 rowid INTEGER PRIMARY KEY ASC,
709 id STRING UNIQUE,
710 json TEXT,
711 readStatus INTEGER,
712 expires_at INTEGER,
713 sent_at INTEGER,
714 schemaVersion INTEGER,
715 conversationId STRING,
716 received_at INTEGER,
717 source STRING,
718 hasAttachments INTEGER,
719 hasFileAttachments INTEGER,
720 hasVisualMediaAttachments INTEGER,
721 expireTimer INTEGER,
722 expirationStartTimestamp INTEGER,
723 type STRING,
724 body TEXT,
725 messageTimer INTEGER,
726 messageTimerStart INTEGER,
727 messageTimerExpiresAt INTEGER,
728 isErased INTEGER,
729 isViewOnce INTEGER,
730 sourceServiceId TEXT, serverGuid STRING NULL, sourceDevice INTEGER, storyId STRING, isStory INTEGER
731 GENERATED ALWAYS AS (type IS &#39;story&#39;), isChangeCreatedByUs INTEGER NOT NULL DEFAULT 0, isTimerChangeFromSync INTEGER
732 GENERATED ALWAYS AS (
733 json_extract(json, &#39;$.expirationTimerUpdate.fromSync&#39;) IS 1
734 ), seenStatus NUMBER default 0, storyDistributionListId STRING, expiresAt INT
735 GENERATED ALWAYS
736 AS (ifnull(
737 expirationStartTimestamp + (expireTimer * 1000),
738 9007199254740991
739 )), shouldAffectActivity INTEGER
740 GENERATED ALWAYS AS (
741 type IS NULL
742 OR
743 type NOT IN (
744 &#39;change-number-notification&#39;,
745 &#39;contact-removed-notification&#39;,
746 &#39;conversation-merge&#39;,
747 &#39;group-v1-migration&#39;,
748 &#39;keychange&#39;,
749 &#39;message-history-unsynced&#39;,
750 &#39;profile-change&#39;,
751 &#39;story&#39;,
752 &#39;universal-timer-notification&#39;,
753 &#39;verified-change&#39;
754 )
755 ), shouldAffectPreview INTEGER
756 GENERATED ALWAYS AS (
757 type IS NULL
758 OR
759 type NOT IN (
760 &#39;change-number-notification&#39;,
761 &#39;contact-removed-notification&#39;,
762 &#39;conversation-merge&#39;,
763 &#39;group-v1-migration&#39;,
764 &#39;keychange&#39;,
765 &#39;message-history-unsynced&#39;,
766 &#39;profile-change&#39;,
767 &#39;story&#39;,
768 &#39;universal-timer-notification&#39;,
769 &#39;verified-change&#39;
770 )
771 ), isUserInitiatedMessage INTEGER
772 GENERATED ALWAYS AS (
773 type IS NULL
774 OR
775 type NOT IN (
776 &#39;change-number-notification&#39;,
777 &#39;contact-removed-notification&#39;,
778 &#39;conversation-merge&#39;,
779 &#39;group-v1-migration&#39;,
780 &#39;group-v2-change&#39;,
781 &#39;keychange&#39;,
782 &#39;message-history-unsynced&#39;,
783 &#39;profile-change&#39;,
784 &#39;story&#39;,
785 &#39;universal-timer-notification&#39;,
786 &#39;verified-change&#39;
787 )
788 ), mentionsMe INTEGER NOT NULL DEFAULT 0, isGroupLeaveEvent INTEGER
789 GENERATED ALWAYS AS (
790 type IS &#39;group-v2-change&#39; AND
791 json_array_length(json_extract(json, &#39;$.groupV2Change.details&#39;)) IS 1 AND
792 json_extract(json, &#39;$.groupV2Change.details[0].type&#39;) IS &#39;member-remove&#39; AND
793 json_extract(json, &#39;$.groupV2Change.from&#39;) IS NOT NULL AND
794 json_extract(json, &#39;$.groupV2Change.from&#39;) IS json_extract(json, &#39;$.groupV2Change.details[0].aci&#39;)
795 ), isGroupLeaveEventFromOther INTEGER
796 GENERATED ALWAYS AS (
797 isGroupLeaveEvent IS 1
798 AND
799 isChangeCreatedByUs IS 0
800 ), callId TEXT
801 GENERATED ALWAYS AS (
802 json_extract(json, &#39;$.callId&#39;)
803 ));
804 CREATE TABLE sqlite_stat4(tbl,idx,neq,nlt,ndlt,sample);
805 CREATE TABLE jobs(
806 id TEXT PRIMARY KEY,
807 queueType TEXT STRING NOT NULL,
808 timestamp INTEGER NOT NULL,
809 data STRING TEXT
810 );
811 CREATE TABLE reactions(
812 conversationId STRING,
813 emoji STRING,
814 fromId STRING,
815 messageReceivedAt INTEGER,
816 targetAuthorAci STRING,
817 targetTimestamp INTEGER,
818 unread INTEGER
819 , messageId STRING);
820 CREATE TABLE senderKeys(
821 id TEXT PRIMARY KEY NOT NULL,
822 senderId TEXT NOT NULL,
823 distributionId TEXT NOT NULL,
824 data BLOB NOT NULL,
825 lastUpdatedDate NUMBER NOT NULL
826 );
827 CREATE TABLE unprocessed(
828 id STRING PRIMARY KEY ASC,
829 timestamp INTEGER,
830 version INTEGER,
831 attempts INTEGER,
832 envelope TEXT,
833 decrypted TEXT,
834 source TEXT,
835 serverTimestamp INTEGER,
836 sourceServiceId STRING
837 , serverGuid STRING NULL, sourceDevice INTEGER, receivedAtCounter INTEGER, urgent INTEGER, story INTEGER);
838 CREATE TABLE sendLogPayloads(
839 id INTEGER PRIMARY KEY ASC,
840
841 timestamp INTEGER NOT NULL,
842 contentHint INTEGER NOT NULL,
843 proto BLOB NOT NULL
844 , urgent INTEGER, hasPniSignatureMessage INTEGER DEFAULT 0 NOT NULL);
845 CREATE TABLE sendLogRecipients(
846 payloadId INTEGER NOT NULL,
847
848 recipientServiceId STRING NOT NULL,
849 deviceId INTEGER NOT NULL,
850
851 PRIMARY KEY (payloadId, recipientServiceId, deviceId),
852
853 CONSTRAINT sendLogRecipientsForeignKey
854 FOREIGN KEY (payloadId)
855 REFERENCES sendLogPayloads(id)
856 ON DELETE CASCADE
857 );
858 CREATE TABLE sendLogMessageIds(
859 payloadId INTEGER NOT NULL,
860
861 messageId STRING NOT NULL,
862
863 PRIMARY KEY (payloadId, messageId),
864
865 CONSTRAINT sendLogMessageIdsForeignKey
866 FOREIGN KEY (payloadId)
867 REFERENCES sendLogPayloads(id)
868 ON DELETE CASCADE
869 );
870 CREATE TABLE preKeys(
871 id STRING PRIMARY KEY ASC,
872 json TEXT
873 , ourServiceId NUMBER
874 GENERATED ALWAYS AS (json_extract(json, &#39;$.ourServiceId&#39;)));
875 CREATE TABLE signedPreKeys(
876 id STRING PRIMARY KEY ASC,
877 json TEXT
878 , ourServiceId NUMBER
879 GENERATED ALWAYS AS (json_extract(json, &#39;$.ourServiceId&#39;)));
880 CREATE TABLE badges(
881 id TEXT PRIMARY KEY,
882 category TEXT NOT NULL,
883 name TEXT NOT NULL,
884 descriptionTemplate TEXT NOT NULL
885 );
886 CREATE TABLE badgeImageFiles(
887 badgeId TEXT REFERENCES badges(id)
888 ON DELETE CASCADE
889 ON UPDATE CASCADE,
890 &#39;order&#39; INTEGER NOT NULL,
891 url TEXT NOT NULL,
892 localPath TEXT,
893 theme TEXT NOT NULL
894 );
895 CREATE TABLE storyReads (
896 authorId STRING NOT NULL,
897 conversationId STRING NOT NULL,
898 storyId STRING NOT NULL,
899 storyReadDate NUMBER NOT NULL,
900
901 PRIMARY KEY (authorId, storyId)
902 );
903 CREATE TABLE storyDistributions(
904 id STRING PRIMARY KEY NOT NULL,
905 name TEXT,
906
907 senderKeyInfoJson STRING
908 , deletedAtTimestamp INTEGER, allowsReplies INTEGER, isBlockList INTEGER, storageID STRING, storageVersion INTEGER, storageUnknownFields BLOB, storageNeedsSync INTEGER);
909 CREATE TABLE storyDistributionMembers(
910 listId STRING NOT NULL REFERENCES storyDistributions(id)
911 ON DELETE CASCADE
912 ON UPDATE CASCADE,
913 serviceId STRING NOT NULL,
914
915 PRIMARY KEY (listId, serviceId)
916 );
917 CREATE TABLE uninstalled_sticker_packs (
918 id STRING NOT NULL PRIMARY KEY,
919 uninstalledAt NUMBER NOT NULL,
920 storageID STRING,
921 storageVersion NUMBER,
922 storageUnknownFields BLOB,
923 storageNeedsSync INTEGER NOT NULL
924 );
925 CREATE TABLE groupCallRingCancellations(
926 ringId INTEGER PRIMARY KEY,
927 createdAt INTEGER NOT NULL
928 );
929 CREATE TABLE IF NOT EXISTS &#39;messages_fts_data&#39;(id INTEGER PRIMARY KEY, block BLOB);
930 CREATE TABLE IF NOT EXISTS &#39;messages_fts_idx&#39;(segid, term, pgno, PRIMARY KEY(segid, term)) WITHOUT ROWID;
931 CREATE TABLE IF NOT EXISTS &#39;messages_fts_content&#39;(id INTEGER PRIMARY KEY, c0);
932 CREATE TABLE IF NOT EXISTS &#39;messages_fts_docsize&#39;(id INTEGER PRIMARY KEY, sz BLOB);
933 CREATE TABLE IF NOT EXISTS &#39;messages_fts_config&#39;(k PRIMARY KEY, v) WITHOUT ROWID;
934 CREATE TABLE edited_messages(
935 messageId STRING REFERENCES messages(id)
936 ON DELETE CASCADE,
937 sentAt INTEGER,
938 readStatus INTEGER
939 , conversationId STRING);
940 CREATE TABLE mentions (
941 messageId REFERENCES messages(id) ON DELETE CASCADE,
942 mentionAci STRING,
943 start INTEGER,
944 length INTEGER
945 );
946 CREATE TABLE kyberPreKeys(
947 id STRING PRIMARY KEY NOT NULL,
948 json TEXT NOT NULL, ourServiceId NUMBER
949 GENERATED ALWAYS AS (json_extract(json, &#39;$.ourServiceId&#39;)));
950 CREATE TABLE callsHistory (
951 callId TEXT PRIMARY KEY,
952 peerId TEXT NOT NULL, -- conversation id (legacy) | uuid | groupId | roomId
953 ringerId TEXT DEFAULT NULL, -- ringer uuid
954 mode TEXT NOT NULL, -- enum &quot;Direct&quot; | &quot;Group&quot;
955 type TEXT NOT NULL, -- enum &quot;Audio&quot; | &quot;Video&quot; | &quot;Group&quot;
956 direction TEXT NOT NULL, -- enum &quot;Incoming&quot; | &quot;Outgoing
957 -- Direct: enum &quot;Pending&quot; | &quot;Missed&quot; | &quot;Accepted&quot; | &quot;Deleted&quot;
958 -- Group: enum &quot;GenericGroupCall&quot; | &quot;OutgoingRing&quot; | &quot;Ringing&quot; | &quot;Joined&quot; | &quot;Missed&quot; | &quot;Declined&quot; | &quot;Accepted&quot; | &quot;Deleted&quot;
959 status TEXT NOT NULL,
960 timestamp INTEGER NOT NULL,
961 UNIQUE (callId, peerId) ON CONFLICT FAIL
962 );
963 [ dropped all indexes to save space in this blog post ]
964 CREATE TRIGGER messages_on_view_once_update AFTER UPDATE ON messages
965 WHEN
966 new.body IS NOT NULL AND new.isViewOnce = 1
967 BEGIN
968 DELETE FROM messages_fts WHERE rowid = old.rowid;
969 END;
970 CREATE TRIGGER messages_on_insert AFTER INSERT ON messages
971 WHEN new.isViewOnce IS NOT 1 AND new.storyId IS NULL
972 BEGIN
973 INSERT INTO messages_fts
974 (rowid, body)
975 VALUES
976 (new.rowid, new.body);
977 END;
978 CREATE TRIGGER messages_on_delete AFTER DELETE ON messages BEGIN
979 DELETE FROM messages_fts WHERE rowid = old.rowid;
980 DELETE FROM sendLogPayloads WHERE id IN (
981 SELECT payloadId FROM sendLogMessageIds
982 WHERE messageId = old.id
983 );
984 DELETE FROM reactions WHERE rowid IN (
985 SELECT rowid FROM reactions
986 WHERE messageId = old.id
987 );
988 DELETE FROM storyReads WHERE storyId = old.storyId;
989 END;
990 CREATE VIRTUAL TABLE messages_fts USING fts5(
991 body,
992 tokenize = &#39;signal_tokenizer&#39;
993 );
994 CREATE TRIGGER messages_on_update AFTER UPDATE ON messages
995 WHEN
996 (new.body IS NULL OR old.body IS NOT new.body) AND
997 new.isViewOnce IS NOT 1 AND new.storyId IS NULL
998 BEGIN
999 DELETE FROM messages_fts WHERE rowid = old.rowid;
1000 INSERT INTO messages_fts
1001 (rowid, body)
1002 VALUES
1003 (new.rowid, new.body);
1004 END;
1005 CREATE TRIGGER messages_on_insert_insert_mentions AFTER INSERT ON messages
1006 BEGIN
1007 INSERT INTO mentions (messageId, mentionAci, start, length)
1008
1009 SELECT messages.id, bodyRanges.value -&gt;&gt; &#39;mentionAci&#39; as mentionAci,
1010 bodyRanges.value -&gt;&gt; &#39;start&#39; as start,
1011 bodyRanges.value -&gt;&gt; &#39;length&#39; as length
1012 FROM messages, json_each(messages.json -&gt;&gt; &#39;bodyRanges&#39;) as bodyRanges
1013 WHERE bodyRanges.value -&gt;&gt; &#39;mentionAci&#39; IS NOT NULL
1014
1015 AND messages.id = new.id;
1016 END;
1017 CREATE TRIGGER messages_on_update_update_mentions AFTER UPDATE ON messages
1018 BEGIN
1019 DELETE FROM mentions WHERE messageId = new.id;
1020 INSERT INTO mentions (messageId, mentionAci, start, length)
1021
1022 SELECT messages.id, bodyRanges.value -&gt;&gt; &#39;mentionAci&#39; as mentionAci,
1023 bodyRanges.value -&gt;&gt; &#39;start&#39; as start,
1024 bodyRanges.value -&gt;&gt; &#39;length&#39; as length
1025 FROM messages, json_each(messages.json -&gt;&gt; &#39;bodyRanges&#39;) as bodyRanges
1026 WHERE bodyRanges.value -&gt;&gt; &#39;mentionAci&#39; IS NOT NULL
1027
1028 AND messages.id = new.id;
1029 END;
1030 sqlite&gt;
1031 &lt;/pre&gt;
1032
1033 &lt;p&gt;Finally I have the tool needed to inspect and process Signal
1034 messages that I need, without using the vendor provided client. Now
1035 on to transforming it to a more useful format.&lt;/p&gt;
1036
1037 &lt;p&gt;As usual, if you use Bitcoin and want to show your support of my
1038 activities, please send Bitcoin donations to my address
1039 &lt;b&gt;&lt;a href=&quot;bitcoin:15oWEoG9dUPovwmUL9KWAnYRtNJEkP1u1b&quot;&gt;15oWEoG9dUPovwmUL9KWAnYRtNJEkP1u1b&lt;/a&gt;&lt;/b&gt;.&lt;/p&gt;
1040 </description>
1041 </item>
1042
1043 <item>
1044 <title>New chrpath release 0.17</title>
1045 <link>http://www.hungry.com/~pere/blog/New_chrpath_release_0_17.html</link>
1046 <guid isPermaLink="true">http://www.hungry.com/~pere/blog/New_chrpath_release_0_17.html</guid>
1047 <pubDate>Fri, 10 Nov 2023 07:30:00 +0100</pubDate>
1048 <description>&lt;p&gt;The chrpath package provide a simple command line tool to remove or
1049 modify the rpath or runpath of compiled ELF program. It is almost 10
1050 years since I updated the code base, but I stumbled over the tool
1051 today, and decided it was time to move the code base from Subversion
1052 to git and find a new home for it, as the previous one (Debian Alioth)
1053 has been shut down. I decided to go with
1054 &lt;a href=&quot;https://codeberg.org/&quot;&gt;Codeberg&lt;/a&gt; this time, as it is my git
1055 service of choice these days, did a quick and dirty migration to git
1056 and updated the code with a few patches I found in the Debian bug
1057 tracker. These are the release notes:&lt;/p&gt;
1058
1059 &lt;p&gt;New in 0.17 released 2023-11-10:&lt;/p&gt;
1060
1061 &lt;ul&gt;
1062 &lt;li&gt;Moved project to Codeberg, as Alioth is shut down.&lt;/li&gt;
1063 &lt;li&gt;Add Solaris support (use &amp;lt;sys/byteorder.h&gt; instead of &amp;lt;byteswap.h&gt;).
1064 Patch from Rainer Orth.&lt;/li&gt;
1065 &lt;li&gt;Added missing newline from printf() line. Patch from Frank Dana.&lt;/li&gt;
1066 &lt;li&gt;Corrected handling of multiple ELF sections. Patch from Frank Dana.&lt;/li&gt;
1067 &lt;li&gt;Updated build rules for .deb. Partly based on patch from djcj.&lt;/li&gt;
1068 &lt;/ul&gt;
1069
1070 &lt;p&gt;The latest edition is tagged and available from
1071 &lt;a href=&quot;https://codeberg.org/pere/chrpath&quot;&gt;https://codeberg.org/pere/chrpath&lt;/a&gt;.
1072
1073 &lt;p&gt;As usual, if you use Bitcoin and want to show your support of my
1074 activities, please send Bitcoin donations to my address
1075 &lt;b&gt;&lt;a href=&quot;bitcoin:15oWEoG9dUPovwmUL9KWAnYRtNJEkP1u1b&quot;&gt;15oWEoG9dUPovwmUL9KWAnYRtNJEkP1u1b&lt;/a&gt;&lt;/b&gt;.&lt;/p&gt;
1076 </description>
1077 </item>
1078
1079 <item>
1080 <title>Test framework for DocBook processors / formatters</title>
1081 <link>http://www.hungry.com/~pere/blog/Test_framework_for_DocBook_processors___formatters.html</link>
1082 <guid isPermaLink="true">http://www.hungry.com/~pere/blog/Test_framework_for_DocBook_processors___formatters.html</guid>
1083 <pubDate>Sun, 5 Nov 2023 13:00:00 +0100</pubDate>
1084 <description>&lt;p&gt;All the books I have published so far has been using
1085 &lt;a href=&quot;https://docbook.org/&quot;&gt;DocBook&lt;/a&gt; somewhere in the process.
1086 For the first book, the source format was DocBook, while for every
1087 later book it was an intermediate format used as the stepping stone to
1088 be able to present the same manuscript in several formats, on paper,
1089 as ebook in ePub format, as a HTML page and as a PDF file either for
1090 paper production or for Internet consumption. This is made possible
1091 with a wide variety of free software tools with DocBook support in
1092 Debian. The source format of later books have been docx via rst,
1093 Markdown, Filemaker and Asciidoc, and for all of these I was able to
1094 generate a suitable DocBook file for further processing using
1095 &lt;a href=&quot;https://tracker.debian.org/pkg/pandoc&quot;&gt;pandoc&lt;/a&gt;,
1096 &lt;a href=&quot;https://tracker.debian.org/pkg/asciidoc&quot;&gt;a2x&lt;/a&gt; and
1097 &lt;a href=&quot;https://tracker.debian.org/pkg/asciidoctor&quot;&gt;asciidoctor&lt;/a&gt;,
1098 as well as rendering using
1099 &lt;a href=&quot;https://tracker.debian.org/pkg/xmlto&quot;&gt;xmlto&lt;/a&gt;,
1100 &lt;a href=&quot;https://tracker.debian.org/pkg/dbtoepub&quot;&gt;dbtoepub&lt;/a&gt;,
1101 &lt;a href=&quot;https://tracker.debian.org/pkg/dblatex&quot;&gt;dblatex&lt;/a&gt;,
1102 &lt;a href=&quot;https://tracker.debian.org/pkg/docbook-xsl&quot;&gt;docbook-xsl&lt;/a&gt; and
1103 &lt;a href=&quot;https://tracker.debian.org/pkg/fop&quot;&gt;fop&lt;/a&gt;.&lt;/p&gt;
1104
1105 &lt;p&gt;Most of the &lt;a href=&quot;http://www.hungry.com/~pere/publisher/&quot;&gt;books I
1106 have published&lt;/a&gt; are translated books, with English as the source
1107 language. The use of
1108 &lt;a href=&quot;https://tracker.debian.org/pkg/po4a&quot;&gt;po4a&lt;/a&gt; to
1109 handle translations using the gettext PO format has been a blessing,
1110 but publishing translated books had triggered the need to ensure the
1111 DocBook tools handle relevant languages correctly. For every new
1112 language I have published, I had to submit patches dblatex, dbtoepub
1113 and docbook-xsl fixing incorrect language and country specific issues
1114 in the framework themselves. Typically this has been missing keywords
1115 like &#39;figure&#39; or sort ordering of index entries. After a while it
1116 became tiresome to only discover issues like this by accident, and I
1117 decided to write a DocBook &quot;test framework&quot; exercising various
1118 features of DocBook and allowing me to see all features exercised for
1119 a given language. It consist of a set of DocBook files, a version 4
1120 book, a version 5 book, a v4 book set, a v4 selection of problematic
1121 tables, one v4 testing sidefloat and finally one v4 testing a book of
1122 articles. The DocBook files are accompanied with a set of build rules
1123 for building PDF using dblatex and docbook-xsl/fop, HTML using xmlto
1124 or docbook-xsl and epub using dbtoepub. The result is a set of files
1125 visualizing footnotes, indexes, table of content list, figures,
1126 formulas and other DocBook features, allowing for a quick review on
1127 the completeness of the given locale settings. To build with a
1128 different language setting, all one need to do is edit the lang= value
1129 in the .xml file to pick a different ISO 639 code value and run
1130 &#39;make&#39;.&lt;/p&gt;
1131
1132 &lt;p&gt;The &lt;a href=&quot;https://codeberg.org/pere/docbook-example/&quot;&gt;test framework
1133 source code&lt;/a&gt; is available from Codeberg, and a generated set of
1134 presentations of the various examples is available as Codeberg static
1135 web pages at
1136 &lt;a href=&quot;https://pere.codeberg.page/docbook-example/&quot;&gt;https://pere.codeberg.page/docbook-example/&lt;/a&gt;.
1137 Using this test framework I have been able to discover and report
1138 several bugs and missing features in various tools, and got a lot of
1139 them fixed. For example I got Northern Sami keywords added to both
1140 docbook-xsl and dblatex, fixed several typos in Norwegian bokmål and
1141 Norwegian Nynorsk, support for non-ascii title IDs added to pandoc,
1142 Norwegian index sorting support fixed in xindy and initial Norwegian
1143 Bokmål support added to dblatex. Some issues still remains, though.
1144 Default index sorting rules are still broken in several tools, so the
1145 Norwegian letters æ, ø and å are more often than not sorted properly
1146 in the book index.&lt;/p&gt;
1147
1148 &lt;p&gt;The test framework recently received some more polish, as part of
1149 publishing my latest book. This book contained a lot of fairly
1150 complex tables, which exposed bugs in some of the tools. This made me
1151 add a new test file with various tables, as well as spend some time to
1152 brush up the build rules. My goal is for the test framework to
1153 exercise all DocBook features to make it easier to see which features
1154 work with different processors, and hopefully get them all to support
1155 the full set of DocBook features. Feel free to send patches to extend
1156 the test set, and test it with your favorite DocBook processor.
1157 Please visit these two URLs to learn more:&lt;/p&gt;
1158
1159 &lt;ul&gt;
1160 &lt;li&gt;&lt;a href=&quot;https://codeberg.org/pere/docbook-example/&quot;&gt;https://codeberg.org/pere/docbook-example/&lt;/a&gt;&lt;/li&gt;
1161 &lt;li&gt;&lt;a href=&quot;https://pere.codeberg.page/docbook-example/&quot;&gt;https://pere.codeberg.page/docbook-example/&lt;/a&gt;&lt;/li&gt;
1162 &lt;/ul&gt;
1163
1164 &lt;p&gt;If you want to learn more on Docbook and translations, I recommend
1165 having a look at the &lt;a href=&quot;https://docbook.org/&quot;&gt;the DocBook
1166 web site&lt;/a&gt;,
1167 &lt;a href=&quot;https://doccookbook.sourceforge.net/html/en/&quot;&gt;the DoCookBook
1168 site&lt;a/&gt; and my earlier blog post on
1169 &lt;a href=&quot;https://people.skolelinux.org/pere/blog/From_English_wiki_to_translated_PDF_and_epub_via_Docbook.html&quot;&gt;how
1170 the Skolelinux project process and translate documentation&lt;/a&gt;, a talk I gave earlier this year on
1171 &lt;a href=&quot;https://www.nuug.no/aktiviteter/20230314-oversetting-og-publisering-av-b%c3%b8ker-med-fri-programvare/&quot;&gt;how
1172 to translate and publish books using free software&lt;/a&gt; (Norwegian
1173 only).&lt;/p&gt;
1174
1175 &lt;!--
1176
1177 https://github.com/docbook/xslt10-stylesheets/issues/205 (docbook-xsl: sme support)
1178 https://bugs.debian.org/968437 (xindy: index sorting rules for nb/nn)
1179 https://bugs.debian.org/856123 (pandoc: markdown to docbook with non-english titles)
1180 https://bugs.debian.org/864813 (dblatex: missing nb words)
1181 https://bugs.debian.org/756386 (dblatex: index sorting rules for nb/nn)
1182 https://bugs.debian.org/796871 (dbtoepub: index sorting rules for nb/nn)
1183 https://bugs.debian.org/792616 (dblatex: PDF metadata)
1184 https://bugs.debian.org/686908 (docbook-xsl: index sorting rules for nb/nn)
1185 https://sourceforge.net/tracker/?func=detail&amp;atid=373747&amp;aid=3556630&amp;group_id=21935 (docbook-xsl: nb/nn support)
1186 https://bugs.debian.org/684391 (dblatex: initial nb support)
1187
1188 --&gt;
1189
1190 &lt;p&gt;As usual, if you use Bitcoin and want to show your support of my
1191 activities, please send Bitcoin donations to my address
1192 &lt;b&gt;&lt;a href=&quot;bitcoin:15oWEoG9dUPovwmUL9KWAnYRtNJEkP1u1b&quot;&gt;15oWEoG9dUPovwmUL9KWAnYRtNJEkP1u1b&lt;/a&gt;&lt;/b&gt;.&lt;/p&gt;
1193 </description>
1194 </item>
1195
1196 </channel>
1197 </rss>