make-glossary

   1 #!/usr/bin/python3
   2
   3 import locale
   4
   5 from lxml import etree
   6 from lxml.etree import tostring
   7
   8 list_topic = False
   9
  10 filemakerxml = 'meksme-utf8.xml'
  11
  12 tree = etree.parse(filemakerxml)
  13 root = tree.getroot()
  14
  15 #print(root)
  16 #print(tostring(tree))
  17
  18 cols = (
  19     'topic', 'sme', 'desc-sme', 'desc-nb', 'nb', 'sv', 'fi', 'en', 'is',
  20 )
  21
  22 topicmap = {
  23     'nb' : {
  24         'fáddá': 'tema',
  25         'ávnnas': 'emne',
  26         'eanan': 'land',
  27         'biras': 'miljø',
  28         'huksen': 'bygg',
  29         'bohcci': 'rør',
  30         'data': 'data',
  31         'hydr': 'hydraulikk',
  32         'fys': 'fysikk',
  33         'sveis': 'sveising',
  34         'mihttu': 'måling',
  35         'elektro': 'elektro',
  36         'neavvu': 'verktøy',
  37         'mohtor': 'motor',
  38         'mašiidna': 'maskin',
  39         'fuolahas': 'bearbeiding',
  40     }
  41 }
  42
  43 resultset = root.find("{http://www.filemaker.com/fmpxmlresult}RESULTSET")
  44
  45 words = []
  46 for row in resultset.getchildren():
  47     d = {}
  48     index = 0
  49     for col in row.findall("{http://www.filemaker.com/fmpxmlresult}COL"):
  50         t = col.getchildren()[0].text
  51         if t:
  52             import re
  53             t = re.sub(r'\s+', ' ', t)
  54             d[cols[index]] = t
  55         index += 1
  56     #print(d)
  57     words.append(d)
  58 def langsort(lang, e):
  59     if lang in e:
  60         return locale.strxfrm(e[lang])
  61     else:
  62         return locale.strxfrm(e['sme'])
  63
  64 def make_glossary_docbook(lang, langcodes, output='glossary.xml'):
  65     import lxml.builder
  66     E = lxml.builder.ElementMaker(
  67         nsmap={
  68 #            'xi': "http://www.w3.org/2001/XInclude",
  69         }
  70     )
  71
  72     def indexit(entry, wlist, lang=None):
  73         for w in wlist.split(","):
  74             if "" != w:
  75                 if lang and '[' not in w:
  76                     w += "[%s]" % lang
  77                 entry.append(E.indexterm(E.primary(w)))
  78     glossary = E.glossary()
  79     for e in sorted(words, key=lambda x: langsort(lang, x)):
  80         ldesc = 'desc-%s' % lang
  81         if 'topic' in e and lang in topicmap:
  82             e['topic'] = topicmap[lang][e['topic']]
  83         if lang in e:
  84             if ldesc not in e:
  85                 print("warning: %s missing %s description" % (e[lang], lang))
  86                 continue
  87             entry = E.glossentry()
  88             if list_topic and 'topic' in e:
  89                 entry.append(E.glossterm('%s [%s]' % (e[lang], e['topic'])))
  90             else:
  91                 entry.append(E.glossterm(e[lang]))
  92             indexit(entry, e[lang])
  93             lstr = ""
  94             for l in langcodes:
  95                 if l != lang and l in e:
  96                     lstr += "%s (%s) " % (e[l], l)
  97                     # Add foreign words to index, split on comma
  98                     indexit(entry, e[l], l)
  99             if "" != lstr:
 100                 entry.append(E.glossdef(E.para(lstr)))
 101             if ldesc in e:
 102                 entry.append(E.glossdef(E.para(e[ldesc])))
 103             glossary.append(entry)
 104
 105     if False: # failed to set docbook glossary like xmlto and lint want it...
 106       glossary =\
 107         E.glossary(E.title("x"),
 108                    E.glossdiv(E.title("y"),
 109                               glossary))
 110
 111     content = lxml.etree.tostring(glossary,
 112                                   pretty_print=True,
 113                                   xml_declaration=True,
 114                                   encoding='UTF-8')
 115 #    print(content)
 116     with open(output, 'wb') as f:
 117         f.write(content)
 118
 119 import argparse
 120 parser = argparse.ArgumentParser()
 121 parser.add_argument("langcode", help="language code to generate glossary for")
 122 parser.add_argument("--output", help="where to store the glossary")
 123 args = parser.parse_args()
 124
 125 locale.setlocale(locale.LC_ALL, '')
 126
 127 if 'nb' == args.langcode:
 128     print("Norsk/bokmål")
 129     print()
 130     make_glossary_docbook(lang='nb', langcodes=('en', 'sme', 'sv', 'da', 'fi', 'is',), output=args.output)
 131 elif 'sme' == args.langcode:
 132     print("Nordsamisk")
 133     print()
 134     make_glossary_docbook(lang='sme', langcodes=('nb', 'en', 'sv', 'da', 'fi', 'is',), output=args.output)
 135 elif 'en' == args.langcode:
 136     print("Engelsk")
 137     print()
 138     make_glossary_docbook(lang='en',  langcodes=('en', 'nb', 'sme', 'sv', 'da', 'fi', 'is',), output=args.output)
 139 else:
 140     print("error: Unknown language code %s" % args.langcode)