]> pere.pagekite.me Git - homepage.git/blob - histform.html
Generated.
[homepage.git] / histform.html
1 <HTML>
2 <HEAD>
3 <TITLE>Kommentar til HISTFORM</TITLE>
4 <LINK REV="made" HREF="mailto:petterr@cs.uit.no">
5 </HEAD>
6 <BODY>
7 <H1>Kommentar til HISTFORM</H1>
8
9 <H2>Kommentar til "Felles registrerings-instrukser for folketellingene
10 1865-1910"</H2>
11
12 Ang. markering av utydeligheter, 1)a). <P>
13
14 Både uklarheter i slutten av ordet og usikkerhet på hele ordet
15 markeres som "bokstaver??". Det er ikke enkelt mulig å skille disse
16 tilfellene. Jeg foreslår at man markerer usikkerhet i hele ordet som
17 "bokstaver ??" mens uklarheter i slutten av ordet som "bokstaver??",
18 dvs. mellomrom før ??.
19
20 <H2>Kommentar til teknisk spec. av utvekslingsformat</H2>
21
22 <H3>Punkt 2</H3>
23
24 Tegnet '&lt;' brukes som skilletegn. "Dette medfører at
25 tegnet '&lt;' ikke må forekomme i dataverdiene." <P>
26
27 Det er for dumt å nekte å akseptere et bestemt tegn fordi det brukes
28 som feltseperator. Det må istedet velges en brukbar koding av dette
29 tegnet. Aktuelle kodingsmetoder er '\&lt;' (slik som unix. '\' kodes
30 med '\\') Annet alternativ er '&amp;lt;' slik HTML bruker. &amp; blir
31 da kodet &amp;amp; <P>
32
33 <H3>Punkt 4</H3>
34
35 Ang. CR + LF som linjeskille. Det kunne være en ide å standardisere
36 bruk av CR + LF men også akseptere bruk av bare LF (som unix) eller
37 bare CR (som Mac.) slik at mye brukte metoder for linjeslutt er
38 akseptert. Programmene skal da kunne håndtere alle variantene.
39
40 <H3>Punkt 6</H3>
41
42 <B>Man bør ikke legge seg på et utvekslingsformat med tegnsett som
43 ikke følger internasjonale konvensjoner for tegnsett! </B> <P>
44
45 ISO 8859/1 er i dag det tegnsettet som er spesifisert av
46 internasjonale standardiseringsorganer for bruk i Norge.
47
48 MS-DOS' tegnkoder gir en risiko ved transport over linker med
49 stripping til 7-bits. De norske tegnene for æ, ø og å ender opp som
50 kontrollkoder. Dette oppstår ikke ved ISO 8859/1. I tillegg har ISO
51 spesifisert andre tegnsett som gir mulighet for russisk, hebraisk og
52 det meste i sine standarder ISO 8895/[1-15]. Jeg ber om at man legger
53 seg på den første som standard utvekslingsformat. Dette er også det
54 MS-Windows har som standard tegnsett under navnet ANSI, og som danner
55 utgangpunktet for UNICODE - 16-bits tegnsett. <P>
56
57 <B>Man bør heller ikke kreve at alle filene følger et spesiellt
58 tegnsett.</B> <P>
59
60 Det bør legges inn informasjon i formatet som forteller hvilket
61 tegnsett som benyttes. Det kan oppstå tilfeller da denne standarden
62 brukes for å registrere data med tegn som ikke finnes i
63 standard-tegnsettet, og det bør da være mulig å spesifisere
64 alternativ. <P>
65
66 <H3>Punkt 7</H3>
67
68 Det er ingen tungtveiende argumenter for å la utvekslingsformatet
69 bestå av flere filer. Det er mye enklere å håndere en fil
70 pr. registrering. Ved å legge dokumentasjonsfila først i
71 utvekslingsfila kan alt sendes som en fil. Et dertil egnet skilletegn
72 for start på datafeltene kan være '--- Data starts here ---' eller noe
73 slikt. <P>
74
75 <HR>
76 <ADDRESS>Petter Reinholdtsen -
77 <A HREF="mailto:petterr@stud.cs.uit.no">petterr@stud.cs.uit.no</A></ADDRESS>
78
79 </BODY>
80 </HTML>
81