3 <TITLE>Kommentar til HISTFORM
</TITLE> 
   4 <LINK REV=
"made" HREF=
"mailto:petterr@cs.uit.no"> 
   7 <H1>Kommentar til HISTFORM
</H1> 
   9 <H2>Kommentar til "Felles registrerings-instrukser for folketellingene
 
  12 Ang. markering av utydeligheter, 
1)a). 
<P> 
  14 Både uklarheter i slutten av ordet og usikkerhet på hele ordet
 
  15 markeres som "bokstaver??".  Det er ikke enkelt mulig å skille disse
 
  16 tilfellene.  Jeg foreslår at man markerer usikkerhet i hele ordet som
 
  17 "bokstaver ??" mens uklarheter i slutten av ordet som "bokstaver??",
 
  18 dvs. mellomrom før ??.
 
  20 <H2>Kommentar til teknisk spec. av utvekslingsformat
</H2> 
  24 Tegnet '
<' brukes som skilletegn. "Dette medfører at
 
  25 tegnet '
<' ikke må forekomme i dataverdiene." 
<P> 
  27 Det er for dumt å nekte å akseptere et bestemt tegn fordi det brukes
 
  28 som feltseperator.  Det må istedet velges en brukbar koding av dette
 
  29 tegnet.  Aktuelle kodingsmetoder er '\
<' (slik som unix. '\' kodes
 
  30 med '\\') Annet alternativ er '
&lt;' slik HTML bruker. 
& blir
 
  31 da kodet 
&amp; 
<P> 
  35 Ang. CR + LF som linjeskille.  Det kunne være en ide å standardisere
 
  36 bruk av CR + LF men også akseptere bruk av bare LF (som unix) eller
 
  37 bare CR (som Mac.) slik at mye brukte metoder for linjeslutt er
 
  38 akseptert.  Programmene skal da kunne håndtere alle variantene.
 
  42 <B>Man bør ikke legge seg på et utvekslingsformat med tegnsett som
 
  43 ikke følger internasjonale konvensjoner for tegnsett!  
</B> <P> 
  45 ISO 
8859/
1 er i dag det tegnsettet som er spesifisert av
 
  46 internasjonale standardiseringsorganer for bruk i Norge.
 
  48 MS-DOS' tegnkoder gir en risiko ved transport over linker med
 
  49 stripping til 
7-bits.  De norske tegnene for æ, ø og å ender opp som
 
  50 kontrollkoder.  Dette oppstår ikke ved ISO 
8859/
1.  I tillegg har ISO
 
  51 spesifisert andre tegnsett som gir mulighet for russisk, hebraisk og
 
  52 det meste i sine standarder ISO 
8895/[
1-
15].  Jeg ber om at man legger
 
  53 seg på den første som standard utvekslingsformat.  Dette er også det
 
  54 MS-Windows har som standard tegnsett under navnet ANSI, og som danner
 
  55 utgangpunktet for UNICODE - 
16-bits tegnsett. 
<P> 
  57 <B>Man bør heller ikke kreve at alle filene følger et spesiellt
 
  60 Det bør legges inn informasjon i formatet som forteller hvilket
 
  61 tegnsett som benyttes.  Det kan oppstå tilfeller da denne standarden
 
  62 brukes for å registrere data med tegn som ikke finnes i
 
  63 standard-tegnsettet, og det bør da være mulig å spesifisere
 
  68 Det er ingen tungtveiende argumenter for å la utvekslingsformatet
 
  69 bestå av flere filer.  Det er mye enklere å håndere en fil
 
  70 pr. registrering.  Ved å legge dokumentasjonsfila først i
 
  71 utvekslingsfila kan alt sendes som en fil.  Et dertil egnet skilletegn
 
  72 for start på datafeltene kan være '--- Data starts here ---' eller noe
 
  76 <ADDRESS>Petter Reinholdtsen -
 
  77 <A HREF=
"mailto:petterr@stud.cs.uit.no">petterr@stud.cs.uit.no
</A></ADDRESS>