Funktion för att generera HTML från DCAT-AP

År:

Taggar: , , , , , ,

Foto: "crayons and coding" av Aleksandar Cocek

Projektet ska ta fram kod som genererar HTML-kod som beskriver metadata för dataset beskrivna enligt specifikationen DCAT-AP. Detta kompletterar det arbete som görs för att skapa standardiserade metadataposter för öppna data och innebär att mänskligt läsbara och aktuella beskrivningar automatiskt skapas av alla de som beskriver sitt öppna data enligt DCAT-AP. Då tanken är att alla publika data som stater, regioner, kommuner i Europa, inklusive Sverige, publicerar som öppna data ska följa denna specifikation kommer många olika aktörer att ha nytta av den funktion som tas fram.

Den kod som tas fram gör öppna data än mer tillgängligt och stimulerar återanvändande i form av nya tjänster och nya tillämpningar. Fler medborgare får i praktiken tillgång till data som kan användas för att bygga upp kunskap om olika samhällsföreteelser, fler ideella och kommersiella innovatörer får tillgång till data som utgör råvaran som används i nya innovativa IT-lösningar.

Då internet och webben är den arena på vilken både maskiner och människor finner öppna data innebär varje förbättring av möjligheten att finna och förstå detta data en förbättring av internets förmåga att tillhandahålla detta data en förbättring av internets grundläggande syfte – att förbättra värden genom koppla samman information.

Projektet drivs av Thomas Kvist från IT-enheten vid Umeå kommun.

Blogguppdatering: Metadata gör data användbart på allvar

Detta är ett blogginlägg författat av Thomas Kvist som varit ansvarig för ”Funktion för att generera HTML från DCAT-AP”.

Det är och har varit ett stort fokus på att publicera data. Vi ska publicera mer öppen data från främst offentlig sektor för att främja transparens och

Frågan är om detta räcker. Jag tror personligen inte det. Jag tror att få, om ens någon, orkar skapa sig en förståelse över vad otydligt definerade data egentligen betyder så att man vågar använda den i en säljbar icke-trival produkt eller tjänst.

Jag tror att en förutsättning för att dataråvarans fulla potential ska tas tillvara är att data är försett med metadata som kan tolkas både maskinellt och av mänskliga ögon. Både de som publicerar data och de som återanvänder data måste kunna förlita sig på semantiskt taggade data och ett så utbrett användande av bra och så väl spridda vokabulärer som möjligt när man taggar sina data. 

För om det finns oklarheter av något slag i metadatat  kommer risken för missförstånd som orsakar affärsrisker eller irritation hos medborgaren som vill veta vad kommunen håller på med att vara stor och bromsa både kommersiell och icke-kommersiell återanvändning. Visst kan man lösa detta när problemen uppstår men i de flesta fall tar det för lång tid att reda ut vad som egentligen är det korrekta metadatat även om det är mänskligt möjligt. Och tid är ju som bekant också pengar. 

Som ett litet steg på vägen mot bättre metadata har vi med Internetfondens hjälp tagit fram kod som genererar en mänskligt läsbar HTML-version av metadata som följer DCAT AP-specifikationen. Om man använder sig av denna kod har man alltid en maskinellt läsbar version och en mänskligt läsbar version av metadatat som är synkroniserade med varandra. En källa till oklarheter som kan uppstå om man glömmer bort eller inte hinner uppdatera den mänskligt läsbara versionen av metadatat med ändringarna man gör i DCAT AP-filen försvinner därmed. 

All kod + dokumentation finns på https://github.com/openumea/RDFtoHTML. En distribution har även skapats och skickats till Pypi för att underlätta för utvecklare som använder Python.

Koden är driftsatt på vår egen site, www.opennorth.se, och skapar automatiskt en HTML-fil från DCAT AP-filen. HTML-filen finns på http://opennorth.se/datasets/dcat och filen den skapats från finns på http://opennorth.se/datasets/dcat.rdf. Detta är vår demonstrator för detta.

Projektet har utgått från denna kod och även skapat en extension till den version av portalprogramvaran CKAN som vi använder. All kod + dokumentation finns på https://github.com/openumea/ckanext-rdf-to-html. Exempel på hur det blir finns på http://ckan.openumea.se/dataset/recreational-facilities Detta är vår demonstrator för detta.