]> pere.pagekite.me Git - homepage.git/blob - blog/data/2013-11-22-doffin-fritekstsok.txt
New post.
[homepage.git] / blog / data / 2013-11-22-doffin-fritekstsok.txt
1 Title: RSS-kilde for fritekstsøk i offentlige anbud hos Doffin
2 Tags: norsk, nuug, offentlig innsyn
3 Date: 2013-11-22 13:40
4
5 <p>I fjor sommer lagde jeg en
6 <a href="http://people.skolelinux.org/pere/blog/SQL_database_med_anbud_publisert_p__Doffin.html">offentlig
7 tilgjengelig SQL-database over offentlig anbud</a> basert på skraping
8 av HTML-data fra Doffin. Den har stått og gått siden da, og har nå
9 ca. 28000 oppføringer. Jeg oppdaget da jeg tittet innom at noen
10 oppføringer var ikke blitt med, antagelig på grunn av at de fikk
11 tildelt sekvensnummer i Doffin en godt stund før de ble publisert,
12 slik at min nettsideskraper som fortsatte skrapingen der den slapp
13 sist ikke fikk dem med seg. Jeg har fikset litt slik at skraperen nå
14 ser litt tilbake i tid for å se om den har gått glipp av noen
15 oppføringer, og har skrapet på nytt fra midten av september 2013 og
16 fremover. Det bør dermed bli en mer komplett database for kommende
17 måneder. Hvis jeg får tid skal jeg forsøke å skrape "glemte" data fra
18 før midten av september 2013, men tør ikke garantere at det blir
19 prioritert med det første. </p>
20
21 <p>Men målet med denne bloggposten er å vise hvordan denne
22 Doffin-databasen kan brukes og integreres med en RSS-leser, slik at en
23 kan la datamaskinen holde et øye med Doffin-annonseringer etter
24 nøkkelord. En kan lage sitt eget søk ved å besøke
25 <ahref="https://classic.scraperwiki.com/docs/api?name=norwegian-doffin#sqlite">API-et
26 hos Scraperwiki</a>, velge format rss2 og så legge inn noe ala dette i
27 "query in SQL":</p>
28
29 <p><pre>
30 select title, scrapedurl as link, abstract as description,
31 publishdate as pubDate from 'swdata'
32 where abstract like '%linux%' or title like '%linux%'
33 order by seq desc limit 20
34 </pre></p>
35
36 <p>Dette vil søke opp alle anbud med ordet linux i oppsummering eller
37 tittel. En kan lage mer avanserte søk hvis en ønsker det. URL-en som
38 dukker opp nederst på siden kan en så gi til sin RSS-leser (jeg bruker
39 akregator selv), og så automatisk få beskjed hvis det dukker opp anbud
40 med det aktuelle nøkkelordet i teksten. Merk at kapasiteten og
41 ytelsen hos Scraperwiki er begrenset, så ikke be RSS-leseren hente ned
42 oftere enn en gang hver dag.</p>
43
44 <p>Du lurer kanskje på hva slags informasjon en kan få ut fra denne
45 databasen. Her er to RSS-kilder, med søkeordet
46 "<a href="https://api.scraperwiki.com/api/1.0/datastore/sqlite?format=rss2&name=norwegian-doffin&query=select%20title%2C%20scrapedurl%20as%20link%2C%20abstract%20as%20description%2C%0A%20%20%20%20%20%20%20publishdate%20as%20pubDate%20from%20'swdata'%0A%20%20%20where%20abstract%20like%20'%25linux%25'%20or%20title%20like%20'%25linux%25'%0A%20%20%20order%20by%20seq%20desc%20limit%2020">linux</a>",
47 søkeordet
48 "<a href="https://api.scraperwiki.com/api/1.0/datastore/sqlite?format=rss2&name=norwegian-doffin&query=select%20title%2C%20scrapedurl%20as%20link%2C%20abstract%20as%20description%2C%0A%20%20%20%20%20%20%20publishdate%20as%20pubDate%20from%20'swdata'%0A%20%20%20where%20abstract%20like%20'%25fri%20programvare%25'%20or%20title%20like%20'%25fri%20programvare%25'%0A%20%20%20order%20by%20seq%20desc%20limit%2020">fri
49 programvare</a>"
50 og søkeordet
51 "<a href="https://api.scraperwiki.com/api/1.0/datastore/sqlite?format=rss2&name=norwegian-doffin&query=select%20title%2C%20scrapedurl%20as%20link%2C%20abstract%20as%20description%2C%0A%20%20%20%20%20%20%20publishdate%20as%20pubDate%20from%20'swdata'%0A%20%20%20where%20abstract%20like%20'%25odf%25'%20or%20title%20like%20'%25odf%25'%0A%20%20%20order%20by%20seq%20desc%20limit%2020">odf</a>".
52 Det er bare å søke på det en er interessert i. Kopier gjerne
53 datasettet og sett opp din egen tjeneste hvis du vil gjøre mer
54 avanserte søk. SQLite-filen med Doffin-oppføringer kan lastes med fra
55 Scraperwiki for de som vil grave dypere.</p>