X-Git-Url: https://pere.pagekite.me/gitweb/homepage.git/blobdiff_plain/f5ef4a6d1f8266f22f65706f4554138b98e6826a..0f48df8106ad866e7572f0f0961dd7735c80766b:/blog/archive/2013/11/index.html diff --git a/blog/archive/2013/11/index.html b/blog/archive/2013/11/index.html index 7a98fc8b98..e65ebb4c71 100644 --- a/blog/archive/2013/11/index.html +++ b/blog/archive/2013/11/index.html @@ -21,6 +21,78 @@

Entries from November 2013.

+
+
+ RSS-kilde for fritekstsøk i offentlige anbud hos Doffin +
+
+ 22nd November 2013 +
+
+

I fjor sommer lagde jeg en +offentlig +tilgjengelig SQL-database over offentlig anbud basert på skraping +av HTML-data fra Doffin. Den har stått og gått siden da, og har nå +ca. 28000 oppføringer. Jeg oppdaget da jeg tittet innom at noen +oppføringer var ikke blitt med, antagelig på grunn av at de fikk +tildelt sekvensnummer i Doffin en godt stund før de ble publisert, +slik at min nettsideskraper som fortsatte skrapingen der den slapp +sist ikke fikk dem med seg. Jeg har fikset litt slik at skraperen nå +ser litt tilbake i tid for å se om den har gått glipp av noen +oppføringer, og har skrapet på nytt fra midten av september 2013 og +fremover. Det bør dermed bli en mer komplett database for kommende +måneder. Hvis jeg får tid skal jeg forsøke å skrape "glemte" data fra +før midten av september 2013, men tør ikke garantere at det blir +prioritert med det første.

+ +

Men målet med denne bloggposten er å vise hvordan denne +Doffin-databasen kan brukes og integreres med en RSS-leser, slik at en +kan la datamaskinen holde et øye med Doffin-annonseringer etter +nøkkelord. En kan lage sitt eget søk ved å besøke +API-et +hos Scraperwiki, velge format rss2 og så legge inn noe ala dette i +"query in SQL":

+ +

+select title, scrapedurl as link, abstract as description,
+       publishdate as pubDate from 'swdata'
+   where abstract like '%linux%' or title like '%linux%'
+   order by seq desc limit 20
+

+ +

Dette vil søke opp alle anbud med ordet linux i oppsummering eller +tittel. En kan lage mer avanserte søk hvis en ønsker det. URL-en som +dukker opp nederst på siden kan en så gi til sin RSS-leser (jeg bruker +akregator selv), og så automatisk få beskjed hvis det dukker opp anbud +med det aktuelle nøkkelordet i teksten. Merk at kapasiteten hos +Scraperwiki er begrenset, så be RSS-leseren kun hente ned en gang hver +dag eller noe slikt.

+ +

Du lurer kanskje på hva slags informasjon en kan få ut fra denne +databasen. Her er to RSS-kilder, med søkeordet +"linux", +søkeordet +"fri +programvare" +og søkeordet +"odf". +Det er bare å søke på det en er interessert i. Kopier gjerne +datasettet og sett opp din egen tjeneste hvis du vil gjøre mer +avanserte søk. SQLite-filen med Doffin-oppføringer kan lastes med fra +Scraperwiki for de som vil grave dypere.

+ + +
+
+ + + Tags: norsk, nuug, offentlig innsyn. + + +
+
+
+
All drones should be radio marked with what they do and who they belong to @@ -532,7 +604,7 @@ NEW. I hope it will be available in Debian in a few days.

  • October (7)
  • -
  • November (5)
  • +
  • November (6)
  • @@ -720,11 +792,11 @@ NEW. I hope it will be available in Debian in a few days.

  • multimedia (25)
  • -
  • norsk (236)
  • +
  • norsk (237)
  • -
  • nuug (158)
  • +
  • nuug (159)
  • -
  • offentlig innsyn (8)
  • +
  • offentlig innsyn (9)
  • open311 (2)