Juster README-formulering for å klargjøre Sveins rolle.

[text-mekanikerord.git] / make-glossary
diff --git a/make-glossary b/make-glossary

index 9e8f89fb067f53bc86cc914e46341b7c9041ead7..bc353f8196d70768817cf7b768b03b32c245f40b 100755 (executable)
--- a/make-glossary
+++ b/make-glossary
@@ -1,8 +1,12 @@
  #!/usr/bin/python3
  
+import locale
+
  from lxml import etree
  from lxml.etree import tostring
  
+list_topic = False
+
  filemakerxml = 'meksme-utf8.xml'
  
  tree = etree.parse(filemakerxml)
@@ -15,6 +19,27 @@ cols = (
      'topic', 'sme', 'desc-sme', 'desc-nb', 'nb', 'sv', 'fi', 'en', 'is',
  )
  
+topicmap = {
+    'nb' : {
+        'fáddá': 'tema',
+        'ávnnas': 'emne',
+        'eanan': 'land',
+        'biras': 'miljø',
+        'huksen': 'bygg',
+        'bohcci': 'rør',
+        'data': 'data',
+        'hydr': 'hydraulikk',
+        'fys': 'fysikk',
+        'sveis': 'sveising',
+        'mihttu': 'måling',
+        'elektro': 'elektro',
+        'neavvu': 'verktøy',
+        'mohtor': 'motor',
+        'mašiidna': 'maskin',
+        'fuolahas': 'bearbeiding',
+    }
+}
+
  resultset = root.find("{http://www.filemaker.com/fmpxmlresult}RESULTSET")
  
  words = []
@@ -32,11 +57,11 @@ for row in resultset.getchildren():
      words.append(d)
  def langsort(lang, e):
      if lang in e:
-        return e[lang]
+        return locale.strxfrm(e[lang])
      else:
-        return e['sme']
+        return locale.strxfrm(e['sme'])
  
-def make_glossary_docbook(lang):
+def make_glossary_docbook(lang, desccodes, langcodes, output='glossary.xml'):
      import lxml.builder
      E = lxml.builder.ElementMaker(
          nsmap={
@@ -44,22 +69,26 @@ def make_glossary_docbook(lang):
          }
      )
  
-    langcodes = ('en', 'nb', 'sme', 'sv', 'fi',)
-
      def indexit(entry, wlist, lang=None):
          for w in wlist.split(","):
              if "" != w:
-                if lang:
+                if lang and '[' not in w:
                      w += "[%s]" % lang
                  entry.append(E.indexterm(E.primary(w)))
-    glossary = E.glosslist()
+    glossary = E.glossary()
      for e in sorted(words, key=lambda x: langsort(lang, x)):
-        if 'topic' not in e:
-            e['topic'] = 'n/a'
-        if lang in e and 'desc-%s' % lang in e:
-            entry = E.glossentry(
-                E.glossterm('%s [%s]' % (e[lang], e['topic'])),
-            )
+        ldesc = 'desc-%s' % lang
+        if 'topic' in e and lang in topicmap:
+            e['topic'] = topicmap[lang][e['topic']]
+        if lang in e:
+            if ldesc not in e:
+                print("warning: %s missing %s description" % (e[lang], lang))
+                continue
+            entry = E.glossentry()
+            if list_topic and 'topic' in e:
+                entry.append(E.glossterm('%s [%s]' % (e[lang], e['topic'])))
+            else:
+                entry.append(E.glossterm(e[lang]))
              indexit(entry, e[lang])
              lstr = ""
              for l in langcodes:
@@ -67,32 +96,54 @@ def make_glossary_docbook(lang):
                      lstr += "%s (%s) " % (e[l], l)
                      # Add foreign words to index, split on comma
                      indexit(entry, e[l], l)
-            entry.append(E.glossdef(E.para(e['desc-%s' % lang])))
              if "" != lstr:
                  entry.append(E.glossdef(E.para(lstr)))
+            for desccode in desccodes:
+                codestr = 'desc-%s' % desccode
+                if codestr in e:
+                    entry.append(E.glossdef(E.para("%s: %s" % (desccode,
+                                                               e[codestr]))))
              glossary.append(entry)
  
+    if False: # failed to set docbook glossary like xmlto and lint want it...
+      glossary =\
+        E.glossary(E.title("x"),
+                   E.glossdiv(E.title("y"),
+                              glossary))
+
      content = lxml.etree.tostring(glossary,
                                    pretty_print=True,
                                    xml_declaration=True,
                                    encoding='UTF-8')
  #    print(content)
-    with open('glossary.xml', 'wb') as f:
+    with open(output, 'wb') as f:
          f.write(content)
  
-def make_glossary(lang):
-    make_glossary_docbook(lang)
+import argparse
+parser = argparse.ArgumentParser()
+parser.add_argument("langcode", help="language code to generate glossary for")
+parser.add_argument("--output", help="where to store the glossary")
+args = parser.parse_args()
  
-if True:
+locale.setlocale(locale.LC_ALL, '')
+
+if 'nb' == args.langcode:
      print("Norsk/bokmål")
      print()
-    make_glossary(lang='nb')
-else:
+    make_glossary_docbook(lang='nb', desccodes=('nb',),
+                          langcodes=('en', 'sme', 'sv', 'da', 'fi', 'is',),
+                          output=args.output)
+elif 'sme' == args.langcode:
      print("Nordsamisk")
      print()
-    make_glossary(lang='sme')
-
-#print("Engelsk")
-#print("=====")
-#print()
-#make_glossary(lang='en')
+    make_glossary_docbook(lang='sme', desccodes=('sme', 'nb'),
+                          langcodes=('nb', 'en', 'sv', 'da', 'fi', 'is',),
+                          output=args.output)
+elif 'en' == args.langcode:
+    print("Engelsk")
+    print()
+    make_glossary_docbook(lang='en', desccodes=('en', 'nb'),
+                          langcodes=('en', 'nb', 'sme', 'sv', 'da', 'fi', 'is',),
+                          output=args.output)
+else:
+    print("error: Unknown language code %s" % args.langcode)