make-glossary

   1 #!/usr/bin/python3
   2
   3 from lxml import etree
   4 from lxml.etree import tostring
   5
   6 list_topic = False
   7
   8 filemakerxml = 'meksme-utf8.xml'
   9
  10 tree = etree.parse(filemakerxml)
  11 root = tree.getroot()
  12
  13 #print(root)
  14 #print(tostring(tree))
  15
  16 cols = (
  17     'topic', 'sme', 'desc-sme', 'desc-nb', 'nb', 'sv', 'fi', 'en', 'is',
  18 )
  19
  20 topicmap = {
  21     'nb' : {
  22         'fáddá': 'tema',
  23         'ávnnas': 'emne',
  24         'eanan': 'land',
  25         'biras': 'miljø',
  26         'huksen': 'bygg',
  27         'bohcci': 'rør',
  28         'data': 'data',
  29         'hydr': 'hydraulikk',
  30         'fys': 'fysikk',
  31         'sveis': 'sveising',
  32         'mihttu': 'måling',
  33         'elektro': 'elektro',
  34         'neavvu': 'verktøy',
  35         'mohtor': 'motor',
  36         'mašiidna': 'maskin',
  37         'fuolahas': 'bearbeiding',
  38     }
  39 }
  40
  41 resultset = root.find("{http://www.filemaker.com/fmpxmlresult}RESULTSET")
  42
  43 words = []
  44 for row in resultset.getchildren():
  45     d = {}
  46     index = 0
  47     for col in row.findall("{http://www.filemaker.com/fmpxmlresult}COL"):
  48         t = col.getchildren()[0].text
  49         if t:
  50             import re
  51             t = re.sub(r'\s+', ' ', t)
  52             d[cols[index]] = t
  53         index += 1
  54     #print(d)
  55     words.append(d)
  56 def langsort(lang, e):
  57     if lang in e:
  58         return e[lang]
  59     else:
  60         return e['sme']
  61
  62 def make_glossary_docbook(lang, langcodes):
  63     import lxml.builder
  64     E = lxml.builder.ElementMaker(
  65         nsmap={
  66 #            'xi': "http://www.w3.org/2001/XInclude",
  67         }
  68     )
  69
  70     def indexit(entry, wlist, lang=None):
  71         for w in wlist.split(","):
  72             if "" != w:
  73                 if lang and '[' not in w:
  74                     w += "[%s]" % lang
  75                 entry.append(E.indexterm(E.primary(w)))
  76     glossary = E.glossary()
  77     for e in sorted(words, key=lambda x: langsort(lang, x)):
  78         ldesc = 'desc-%s' % lang
  79         if 'topic' in e and lang in topicmap:
  80             e['topic'] = topicmap[lang][e['topic']]
  81         if lang in e:
  82             entry = E.glossentry()
  83             if list_topic and 'topic' in e:
  84                 entry.append(E.glossterm('%s [%s]' % (e[lang], e['topic'])))
  85             else:
  86                 entry.append(E.glossterm(e[lang]))
  87             indexit(entry, e[lang])
  88             lstr = ""
  89             for l in langcodes:
  90                 if l != lang and l in e:
  91                     lstr += "%s (%s) " % (e[l], l)
  92                     # Add foreign words to index, split on comma
  93                     indexit(entry, e[l], l)
  94             if "" != lstr:
  95                 entry.append(E.glossdef(E.para(lstr)))
  96             if ldesc in e:
  97                 entry.append(E.glossdef(E.para(e[ldesc])))
  98             glossary.append(entry)
  99
 100     if False: # failed to set docbook glossary like xmlto and lint want it...
 101       glossary =\
 102         E.glossary(E.title("x"),
 103                    E.glossdiv(E.title("y"),
 104                               glossary))
 105
 106     content = lxml.etree.tostring(glossary,
 107                                   pretty_print=True,
 108                                   xml_declaration=True,
 109                                   encoding='UTF-8')
 110 #    print(content)
 111     with open('glossary.xml', 'wb') as f:
 112         f.write(content)
 113
 114 focus = 'nb'
 115 #focus = 'sme'
 116 #focus = 'sv'
 117 #focus = 'en'
 118
 119 if 'nb' == focus:
 120     print("Norsk/bokmål")
 121     print()
 122     make_glossary_docbook(lang='nb', langcodes=('en', 'sme', 'sv', 'da', 'fi', 'is',))
 123 elif 'sme' == focus:
 124     print("Nordsamisk")
 125     print()
 126     make_glossary_docbook(lang='sme', langcodes=('nb', 'en', 'sv', 'da', 'fi', 'is',))
 127 elif 'en' == focus:
 128     print("Engelsk")
 129     print()
 130     make_glossary_docbook(lang='en',  langcodes=('en', 'nb', 'sme', 'sv', 'da', 'fi', 'is',))