Het Ministerie van BZK en PDOK heeft Geonovum gevraagd om een verkenning uit te voeren naar toekomstige ontwikkelingen rondom metadata. Vervolg op deze verkenning is om te bepalen welke invloed deze ontwikkelingen hebben op het Nationaal Georegister.
De eerste stap van deze verkenning is om een beeld te schetsen van de rol van Metadata in de toekomst. Dit is gedaan door het uitvoeren van desktop research en interviews. In de 2e stap wordt gekeken in hoeverre het huidige NGR al voldoet aan dit beeld, en in stap 3 zal een handelingsperspectief geschreven worden voor de opdrachtgever. Dit document dat ter consultatie ligt beschrijft de opgehaalde beelden van stap 1.
De focus ligt primair op metadata voor geodata. Gekeken is m.n naar ontwikkelingen op de onderwerpen: standaarden, granulariteit, datacatalogi en vindbaarheid.
In hoofdstuk 2 wordt het belang en enkele concepten rondom metadata toegelicht. Vervolgens wordt in hoofdstuk 3 de huidige stand van zaken en ontwikkelingen rondom beleid, standaarden en catalogi beschreven. Hoofdstuk 4 beschrijft de beelden zoals die zijn opgehaald in het werkveld. Tot slot beschrijft hoofdstuk 5 het toekomst perspectief van metadata in hoofdlijnen.
De Nederlands overheid is een grote speler in het produceren, verzamelen, verwerken en beschikbaar stellen van data. Het belang van deze rol wordt onderstreept in de Nederlandse Digitaliseringsstrategie (NDS) en o.a. uitgewerkt in de NL DIGITAAL: data agenda overheid. Deze agenda zet in op:
‘het oplossen van maatschappelijke problemen met data, het stimuleren van datagedreven werken door overheidsorganisaties, het beschikbaar stellen van overheidsdata (data delen) en het verbeteren van de kwaliteit van overheidsdata. Aandacht voor wetgeving en publieke waarden als transparantie rond datagebruik is daarbij van belang.’
Het belang om data beter te benutten voor oplossen van maatschappelijke vraagstukken wordt verder vorm gegeven in o.a de Interbestuurlijke Datastrategie, de Datastrategie Rijksoverheid, de Datastrategie van de verschillende provincies en gemeenten, en eerder al in het Open Data Beleid. Zo spreekt de Interbestuurlijke Datastrategie over’ willen we als overheden voortbouwen op elkaars oplossingen en gedeelde uitdagingen samen aanpakken. Zo moet data beter uitwisselbaar worden en moeten zorgvuldige afwegingen gemaakt worden tussen wat er kan, wat er mag en wat wenselijk is bij datagebruik voor maatschappelijke opgaven’ . Tevens wordt gesproken over het belang van goed vindbare en herbruikbare data. Het betreft hier zowel de interne data die overheden zelf produceren, de data die ze gebruiken van anderen als ook de data die ze als open data beschikbaar stellen voor publiek hergebruik. Meer datagedreven werken wordt gestimuleerd.
Deze beelden zijn ook terug te vinden in de digitale- en data strategie die door de Europese commissie ontwikkeld is. In de Europese datastrategie benadrukt de Europese Commissie o.a. het belang van datadelen tussen sectoren. Het doel is dat data binnen de hele Europese Unie en binnen/tussen alle sectoren vrij kan bewegen. Deze strategie in combinatie met de ambities van de GreenDeal worden concreet vorm gegeven in de ontwikkeling naar de zgn ‘Green Deal data space’.
Voor het behalen van bovengenoemde ambities speelt metadata een belangrijke rol. Als je immers niet weet dat bepaalde data überhaupt bestaan, zullen anderen ze nooit kunnen gebruiken. Vindbaarheid van data is dus van essentieel. Als je de data dan éénmaal gevonden heeft, wil je zo snel mogelijk weten of je geschikt zijn voor het beoogde doel of de mate waarin gegevens relevant voor de gebruikerscontext (begrijpelijkheid / mate antwoord geeft op vraag / betekenisvol) . Daarvoor wil je weten wat de data betekenen. En tot slot wil je de data gaan gebruiken, en wil je toegang krijgen tot de data. Al deze stappen worden gefacilieerd door het gestructureerd opslaan en aanbieden van metadata.
Meta-informatie is een breed begrip dat door Wikipedia als volgt wordt omschreven: "Meta-informatie bevat alle informatie die ertoe bijdraagt gegevens tot informatie te verheffen. Anders gezegd: omdat meta-informatie gegevens in een bepaalde context zet, is meta-informatie de factor die gegevens tot informatie verheft.
Onder meta-informatie kan zowel de expliciet beschrijvende als de impliciet aanwezige informatie van datasets, dataset series, services / API’s en objecten over structuur, betekenis, onderlinge relaties, locatie, status, eigenaarschap, enz. van gegevens worden verstaan. Ook alle informatie over de applicaties en processen die de gegevens manipuleren, valt onder de noemer meta-informatie.
Waarom metadata zo belangrijk zijn, wat je er allemaal me kunt, waar je metadata vindt, en welke standaarden in het geo-domein gebruikt worden staat goed beschreven in de ‘Handreiking Nederlandse metadata profielen’. In het hoofdstuk ‘Wat-is-metadata’. Graag verwijzen we daarnaar.
Metadata kan je ontsluiten via een register of catalogus. Dit kan binnen een organisatie, maar ook nationaal of internationaal. Zo maak je het mogelijk om de metadata doorzoekbaar te maken en de data eventueel te tonen in een portaal. Een voorbeeld van een register is het Nationaal Georegister. Hierin is metadata van verschillende organisaties in Nederland opgenomen. Via het Nationaal Georegister kan iemand data zoeken, raadplegen en in een de meeste gevallen ook direct verkrijgen.
In deze verkenning richten we ons op metadata van locatie gebonden data. Daarbij wordt gekeken naar de bijhorende standaarden, de granulariteit, datacatalogi en de vindbaarheid.
De Europese Commissie heeft meerdere wetsvoorstellen m.b.t. digitalisering en data gedaan die de komende jaren vorm krijgen. De uitgangspunten hiervan zijn vastgelegd in de Europese digitale strategie en een Europese datastrategie (Data Governance ACT, de Open Data Directive met daarin opgenomen de High Value Data lijst, en het concept van European Data Spaces). Zie ook de Handreiking EU Informatie m.b.t. digitale en data-strategie In de paragraaf over ‘Europese data strategie’.
Deze strategische positionering van Europe heeft zeker invloed op hoe we in NL onze data infra structuren verder willen vormgeven. Zo zijn de Europese ambities meegenomen in de Interbestuurlijke Datastrategie Nederland. Daarnaast zal de Nederlandse Open Datastrategie verder uitgewerkt moeten worden aan de hand van de Open Data Directive met de High Value Data lijst.
Het Nederlands beleid rondom data is gebaseerd op een groot aantal documenten en ontwikkelingen, zoals de EU-datastrategie, het Actieplan voor AI, Open Data Beleid, de doorontwikkeling en vernieuwing van de Generieke Digitale Infrastructuur (GDI), de Nederlandse Digitaliseringsstrategie (NDS) en de uitwerking daarvan in de Agenda Digitale Overheid en de Data Agenda Overheid.
Het is relevant om te kijken naar de recent verschenen Interbestuurlijke datastrategie (IDS). Deze is immers vooral gebaseerd op de hierboven genoemde documenten. Daarbij zijn o.a. onderstaande onderwerpen en ambities terug te vinden die (indirect) een relatie hebben met metadata.
Beter vindbaar maken van data. Zowel de Data Governance Act als Interbestuurlijke datastrategie duiden op het belang van goed vindbare en herbruikbare data. Hoe meer potentiële gebruikers weten dat ontsloten data bestaat en waar toegang kan worden verkregen, hoe meer ontsloten data daadwerkelijk kan worden (her)gebruikt. De IDS streeft bijv. naar gedeelde datacatalogus om data beter vindbaar te maken. ‘De metadata van, en relaties tussen databronnen wordt consequent vastgelegd en deze wordt ontsloten via een centraal publicatiepunt, zodat voor iedereen duidelijk is welke data beschikbaar is en hoe deze samenhangt’. Heel concreet wordt genoemd het aansluiten catalogi Gemeenten, CBS, stelselcatalogus op publicatiepunt data.overheid.nl.
Toewerken naar een groeiend federatief datastelsel dat voortbouwt op de basisregistraties, waarin data over silo’s en organisaties heen toegankelijk, legitiem en begrijpelijk wordt ontsloten middels collectieve, verplichtende afspraken
Bij de ontwikkeling van het federatieve datastelsel draagt een interbestuurlijke dataorganisatie zorg voor gegevensmanagement, de herbruikbaarheid van dataontsluitingen, semantiek, API-strategie, architectuur voor ‘regie op gegevens’, en onderhoud en curatie van het centrale publicatiepunt voor datakennis.
Daarnaast beschrijft de i-strategie van het Rijk enkele ontwikkelingen die gaande zijn om overheidsdata kwalitief te verbeteren en beter te benutten. Ter ondersteuning van de deze ontwikkelingen, zijn metadata van belang.
Steeds vaker willen overheidsorganisaties overheidsdata hergebruiken voor data-analyses, om beter inzicht te krijgen of om dienstverlening te verbeteren.
Als we de kansen van datagedreven werken willen benutten bij de aanpak van de maatschappelijke opgaven, is een essentiële randvoorwaarde dat data van voldoende kwaliteit is, kan worden gedeeld en hergebruikt.
Vaak zien we dat de kwaliteitseisen die gesteld worden aan data voor hergebruik hoger zijn dan nodig is voor het oorspronkelijke doel.
De hoeveelheid data, de diversiteit in vormen en de verspreiding ervan over de vele informatiesystemen van de overheid blijft bovendien toenemen.
Tegelijkertijd worden de wettelijke kwaliteitseisen aan openbaarheid, informatiebeveiliging, bescherming van persoonsgegevens, duurzame toegankelijkheid, regie op gegevens en hergebruik in snel tempo opgeschroefd.
Bovenstaande ontwikkelingen benadrukken alleen maar het groeiende de belang van beschikbare en kwalitatief goede metadata.
Er zijn verschillende soorten catalogi te onderscheiden. Zo zijn er catalogi voor datasets en voor services (NGR, data.overheid.nl) of API’s (developer.overheid.nl), en voor begrippen (Aquolex , INSPIRE register, etc). Een ‘stelselcatalogus’ maakt het digitale stelsel van data, metadata, en betekenis en hun samenhang inzichtelijk. De stelselcatalogus Basisregistraties en de stelselcatalogus Omgevingswet zijn daar voorbeelden van. Daarnaast ontstaan ook catalogi gedreven door technologische ontwikkelingen (linkeddata.overheid.nl) dan wel door bepaalde communicaties (FAIR datapoint).
In principe zijn er aantal technologieën om metadata vindbaar en toegankelijk te maken.
De eerste technologie is de data catalogus. Een data catalogus is een metadata managementtool voor het gestructureerd documenteren en organiseren van data in een systeem. En dergelijk catalogus wordt gebruikt binnen een organisatie, per domein, nationaal of internationaal. De metadata in de catalogus kunnen vervolgens worden gepubliceerd in data portalen. Voorbeelden zijn het Nationaal Georegister, data.overheid.nl en data.eindhoven.nl. Naast deze meer (open)data catalogi kennen we in Nederland ook de stelselcatalogus voor de basisregistraties, en de stelselcatalogus voor de omgevingswet. Ook catalogi, maar de nadruk ligt daar meer op het beschrijven van begrippen en hun onderlinge relaties.
“A data catalog maintains an inventory of data assets through the discovery, description, and organization of datasets. The catalog provides context to enable data analysts, data scientists, data stewards, and other data consumers to find and understand a relevant dataset for the purpose of extracting business value.” (– Data Catalogs are the New Black in Data Management and Analytics (Gartner, 2018)
Daarnaast hebben we de reguliere search engines, zoals google. Deze search engines zijn vooral geoptimaliseerd voor de ‘bedrijfsprocessen’, denk daarbij bijvoorbeeld aan de e-commerce diensten van Amazon of Bol. Waarbij er geen invloed kan worden uitgeoefend op de manier en frequentie van het indexeren van de data. Metadata uit data catalogi en de daarbij behorende datasets zijn daardoor niet zomaar, goed vindbaar in deze searchengines, ook al zijn de datasets beschreven met schema.org en is er search optimalisation toegepast.
Met de Linked Data benadering voor het publiceren van data, waarbij voor de gegevens representatie gebruik wordt gemaakt van identificeren en koppelen van objecten met een URL, kunnen de ruimtelijke dingen net zo beschreven worden als webpagina's. Door die links te volgen kan er meer informatie gevonden worden. Door metadata ook als Linked Data aan te bieden zal de vindbaarheid in de standaard searchengines verbeterd worden
Tot slot zijn er ook technologische ontwikkelingen o.a. op het vlak van ‘machine learning’. De verwachting is dat machine learning zal helpen bij het automatiseren en verbeteren van de vindbaarheid, categoriseren, verrijken en identificeren van relaties tussen datasets in data catalogi. Gartner spreekt in dat kader over een zgn. ‘augmented‘ data catalogus.
De metadata-standaarden in het geo domein bestaan al relatief lang hebben hun oorsprong in ISO. Voor metadata betreft dat de ISO 19115 (geografie) en 19119 (services) standaarden met de bijbehorende ISO 19139 voor de encoding. Daarnaast worden er met ISO 19110 ook feautures beschreven en gepubliceerd in de catalogus. Voor de Catalogus zelf wordt de OGC: CSW standaard gebruikt. De INSPIRE technische specificaties voor metadata zijn ook op deze standaarden gebaseerd. In Nederland zijn de metadata profielen (Het NL profiel op ISO 19115 en Het NL profiel op ISO 19119) op deze standaarden ontwikkeld waarmee ook aan de INSPIRE vereisten kan worden voldaan. Deze standaarden vorm de basis van het NGR.
De meest gebruikte standaard in open data catalogi is de Data Catalogus Vocabulary (DCAT), ontwikkeld door W3C. DCAT is een RDF-vocabulaire die is ontworpen om de interoperabiliteit tussen op het web gepubliceerde catalogi te vergemakkelijken. Daarmee kan metadata uit verschillende domeinen, worden geaggregeerd en uitgewisseld. Op deze W3C standaard is ook een Europees applicatie profiel ontwikkeld. Met DCAT wordt de data catalogus zelf, en ook de inhoud, de metadata van datasets en API's / services beschreven. Door de mogelijkheid in DCAT 2.0 om ook API's/services te beschrijven maakt de standaard breed toepasbaar.
Specifiek voor het data.overheid.nl open data portaal, werkt KOOP momenteel aan een nieuwe versie van DCAT-AP-DO gebaseerd op DCAT 2.0 en houdt daarbij de mogelijkheid open om het data overheid profiel door te ontwikkelen naar toepassingsproefiel voor Nederland (DCAT-AP-NL-2). Naast nationale profielen, zijn er ook meer domein specifieke profielen. Zoals GeoDCAT-AP of StatDCAT-AP.
GeoDCAT-AP is een uitbreiding van het DCAT-toepassingsprofiel voor dataportalen in Europa (DCAT-AP) voor het beschrijven van geo datasets, datasetseries en services. GeoDCAT-AP is op Europees niveau ontwikkeld om metadata uit het geodomein en specifiek de INSPIRE metadata beter te kunnen ontsluiten voor een bredere doelgroep/andere domeien in algemene dataportalen. Voor dit doel biedt GeoDCAT-AP een RDF-vocabulaire en de bijbehorende RDF-syntaxisbinding voor de metadata-elementen van ISO 19115:2003 die voor INSPIRE vereist zijn.
Voor het ontsluiten van de catalogi is OGC API - Records in ontwikkeling, als opvolger van OGC:CSW. Een record geeft een beschrijving (d.w.z. metadata) over een bron (bijv. datasets, services, modellen, enz.) die de aanbieder van de bron vindbaar wil maken. OGC API - Records geeft toegang tot de metadata en biedt de mogelijkheid om die metadata te doorzoeken. De vindbaarheid door reguliere zoekmachines wordt hiermee sterkt verbeterd. Nadat een record is gevonden dat een bron beschrijft, geeft de informatie die daarin is opgenomen toegang tot de bron. OGC API records is één van de OGC modulaire API-bouwstenen om web-API's op een consistente manier te maken. OpenAPI wordt gebruikt om de herbruikbare API-bouwstenen te definiëren. De specificatie verplicht geen specifieke codering voor een record, maar conformiteitsklassen zijn gedefinieerd voor het coderen van records als GeoJSON-functie en HTML.
Schema.org is een vocabulaire die het mogelijk maakt om data gestructureerd op internet aan te bieden, via een uitgebreid gegevensmodel van objecten die vaak op internet worden geadverteerd. Schema.org-vocabulaire kan worden gebruikt met veel verschillende coderingen, waaronder RDFa, Microdata en JSON-LD. Deze vocabulaires hebben betrekking op entiteiten, relaties tussen entiteiten en acties. Niet alle OGC-functietypen en -eigenschappen kunnen worden getransformeerd zonder verlies van informatie naar schema.org.
ISO 19135 specificeert procedures die moeten worden gevolgd bij het opzetten, onderhouden en publiceren van registers van unieke, ondubbelzinnige en permanente identificatiegegevens en betekenissen die worden toegewezen aan items met geografische informatie. Om dit doel te bereiken, specificeert ISO 19135-1:2015 elementen die nodig zijn om de registratie van deze items te beheren. Het INSPIRE register past deze standaard toe.
SKOS is een W3C- standaard voor thesauri. SKOS wordt gebruikt om kennis over de betekenissen en samenhang van de onderliggende begrippen te ordenen en toegankelijk te maken voor het semantisch web. SKOS is gebouwd op RDF en RDFS. SKOS wordt gebruikt voor de geo basisregistraties.
ISO 19157 is de standaard die de data kwaliteitseigenschappen van geo-data beschrijft, uitgaande van datasetniveau maar kan ook op informatieobjecten worden toegepast. De kwaliteitseigenschappen zijn compleetheid, logische consistentie, positionele nauwkeurigheid, thematische nauwkeurigheid, en temporele kwaliteit. Enkele van deze kwaliteitsaspecten zijn in het NL profiel op 19115 opgenomen.
Data quality vocabulary (DQV ) is een RDF vocabulaire voor het beschrijven van datakwaliteit. Komt voort uit het werk van de Data on the web Best Practices. Het is geen geo-data specifieke standaard. De vocabulaire geeft elementen voor het beschrijven van kwaliteitsaspecten. Je kunt zelf definiëren welke metrics dit zijn en hoe je de kwaliteit daarvan uitdrukt. Ook bevat het elementen om aan te geven aan welke standaard of policy de data voldoet, om te linken naar certificaten, om kwaliteits feedback op te nemen, etc.
NEN 3610 geeft regels voor het eenduidig beschrijven, uitwisselen en op het web publiceren van geo-informatie. Een geo-informatie-infrastructuur is hierbij het grotere concept van aan elkaar gekoppelde, vindbare en bevraagbare informatiebronnen. NEN 3610 bekijkt deze infrastructuur vanuit het informatieperspectief door middel van informatiemodellen.
Het doel daarbij is het vergroten van interoperabiliteit in de uitwisseling en het gebruik van geo-informatie. Bij deze norm ligt de focus op semantisch interoperabiliteit. Semantische interoperabiliteit wordt gerealiseerd door het harmoniseren van termen en definities gehanteerd door verschillende sectoren en door een gemeenschappelijke reeks van regels, concepten en modelleerpatronen voor het modelleren van de geografische werkelijkheid. NEN 3610 biedt een basis voor verdere uitwerking in sectorale modellen waardoor interoperabiliteit mogelijk wordt voor uitwisseling van geo-informatie binnen en tussen sectoren.
In het Metamodel voor informatiemodellering (MIM) staan metadata aspecten voor de elementen uit informatiemodellen gespecificeerd. Met deze specificatie is er een gemeenschappelijk vertrekpunt voor het opstellen van informatiemodellen. Het voorziet enerzijds in duidelijke afspraken die over meerdere bestuurslagen heen gaan over het vastleggen van gegevensspecificaties en biedt anderzijds ruimte aan de verschillende niveaus van modellering.
Versie 1.1 van MIM biedt naast het al bestaande uitdrukken van het metamodel in UML ook de mogelijkheid om het metamodel uit te drukken in Linked Data.
ISO-normen ondersteunen de totstandkoming van de pan-Europese data-infrastructuur zoals gedefinieerd door de INSPIRE-richtlijn. Ze worden op grote schaal gebruikt als basis voor de INSPIRE Technische documenten, voornamelijk op het gebied van data en metadata.
Daarnaast worden voor de pan-Europese data-infrastructuur de OGC standaarden gebruikt voor de specificatie van services. Daarbij is in deze context de OGS:CSW van belang voor de metadata catalogi.
De Technische documenten waar deze standaarden worden toegepast zijn weliswaar niet juridisch bindend, maar de implementatie van de juridisch bindende regels met andere standaarden is lastig.
In Nederland is het Nationaal Georegister (NGR) aangewezen als toegangspunt voor INSPIRE. Het NGR moet daarmee voldoen aan de juridisch bindende vereisten voor discovery services en de mogelijkheid moeten bieden aan alle aangemerkte INSPIRE organisaties, om daarmee INSPIRE conforme metadata te publiceren.
In de Open Data Directive, die onderdeel is van het Europese databeleid, is het geregeld dat data die is opgenomen op de 'EU High Value Data' lijst, aan alle Lidstaten een verplichting tot publiceren van data oplegt. De data zal als open data worden en ontsloten via APIs. In de High Value Data lijst (nog niet gepubliceerd) wordt DCAT genoemd als standaard voor het uitwisselen van metadata.
De verplichtingen voor geo-data en aardobservatie/milieu voegen naar verwachting een open data verplichting ( en dus ook metadata conform DCAT) toe aan een reeks INSPIRE thema's. zie de paragraaf ‘Inspire richtlijn’.
MDTO is een nieuwe norm voor het vastleggen en uitwisselen van eenduidige metagegevens om de duurzame toegankelijkheid (archivering) van overheidsinformatie mogelijk te maken. Daarbij vallen domein specifieke toepassingen buiten de scope. Bij het archiveren van data kan zoveel mogelijk gebruik gemaakt worden van de metadata die al eerder is vastgelegd. Daarvoor is een eenduidige mapping naar deze standaard nodig.
In het kader van deze verkenning zijn zo’n 20 - 25 open gesprekken gevoerd met personen die op een af andere manier betrokken zijn bij het onderwerp metadata. Onder de geïnterviewde personen zijn aanbieders en gebruikers van data en API’s / services, beheerders en productowners van dataportalen, beheerders van de metadata standaarden en profielen, beleidsmedewerkers, leveranciers van diensten rondom metadata, metadata experts, en onderzoekers. Ook is gekeken naar de ontwikkelingen in Vlaanderen. Uit deze gesprekken komen onderstaande beelden naar voren. Daarbij komen eerst enkele algemene beelden aan bod, daarna beelden omtrent de standaarden, catalogi, granulariteit en vindbaarheid.
Geen duidelijke regie vanuit beleid. De sturing vanuit beleid is versnipperd en wordt niet als gecoördineerd ervaren. Beeld is dat er veel verschillende initiatieven gaande zijn, echter weinig samenhang, het overkoepelende beeld ontbreekt. Er is bijv. geen sprake van een integrale sturing op de positionering en samenhang tussen data-catalogi en bijhorende standaarden, zoals dat in Vlaanderen wel lijkt te gebeuren. Ontwikkelingen worden in principe overgelaten aan de verschillende uitvoeringsorganisaties. Sommigen verwachten dat een dergelijk versnipperde aanpak op termijn niet meer houdbaar is, al is het maar vanuit een kostenperspectief.
Verschil in volwassenheid organisatie. Er is een groot verschil in volwassenheid op het vlak van metadata bij organisaties. Respecteer dat, en geef eenieder de ruimte.
Datagedreven werken . Een enkele organisatie geeft aan meer datagedreven te willen werken. En daarvoor o.a. intern hun metadata beter te willen organiseren en vindbaar te maken. Zodra dat op orde is voorziet men – voor zover mogelijk- de metadata ook publiekelijk te willen publiceren.
Eenvoudiger. Metadata zouden ‘simpeler’ moeten. Dat geldt zowel voor het aantal in te vullen kenmerken van de metadata als voor de standaarden. En zowel voor de aanbieder als de gebruikers.
Van simpel naar gedetailleerd. Metadata moeten in principe simpel, laagdrempelig en begrijpelijk zijn. Voor bepaalde doelgroepen staat er soms te veel informatie in. Biedt in principe eerst metadata aan waar de meeste behoefte aan is en het makkelijkst aan te maken is. Geef daarna pas details. Bouw het modulair op.
Kost veel tijd en complex. De aanbieder moet veel metadata invullen en de standaarden (de ISO standaarden, maar ook DCAT) worden vaak als complex ervaren. Het invullen van metadata wordt vaak als een last ervaren en kost veel tijd. Voor het goed invullen van metadata is enige training noodzakelijk. Voor personen / organisaties die slechts sporadisch (meta)data publiceren, is het publiceren van metadata te complex. Metadata bij voorkeur zoveel mogelijk automatisch invullen, ook de trefwoorden (In NGR gebeurt dat nu handmatig)
Biedt metadata aan via verschillende kanalen, de verschillende doelgroepen zoeken anders en hebben een andere informatie behoefte.
Ontwikkelaars. Zo eenvoudig mogelijk en breed gebruikte technische standaarden. Software ontwikkelaars willen nog eenvoudiger. Geen complexe formaten zoals XML maar liefst bijv. JSON, en goed beschreven API’s.
Verschil in informatiebehoefte metadata. Aan de ene kant heb je toepassingen waar de kwalitatieve aspecten van data belangrijk zijn, zoals herleidbaarheid en voor bepaalde registraties ook de (juridische) bestendigheid van gegevens. Hier worden bepaalde ETL processen ingericht om de bedrijfsprocessen te ondersteunen. Standaarden zijn juist hier van belang. Denk aan basis- of andere landelijk registraties, of aan datasets t.b.v. van Europese verplichtingen (INSPIRE, Milieu rapportages, ect. Aan de andere kant heb je toepassingen waarvoor de beschikbaarheid van data het belangrijkste is. De afnemer is dan vooral op zoek naar data die bruikbaar zijn voor zijn toepassingsdoel.
In de standaarden rekening houden met verschillende gebruiksgroepen en informatie behoefte. Dit opvangen door conditionele/optionele elementen.
Kwaliteit van data Er is in een aantal gevallen behoefte om meer informatie over de kwaliteit van de data in de metadata op te nemen. Het belang van kwaliteit is afhankelijk van het type datasets. De kwaliteitseisen die gesteld worden aan een basis- of landelijke registratie is anders dan aan een eenmalige dataset die als open data beschikbaar wordt gesteld. Het opnemen van extra kwaliteitskenmerken levert een spanningsveld op met de wens om eenvoudigere metadata.
Kwaliteit van metadata. Is belangrijk, het moet goed, vanuit gebruikers perspectief ingevuld zijn. Bepaalde organisatie willen meer aandacht / controle op de kwaliteit van de metagegevens.
Gebruikersvriendelijkheid van tooling. Metadata moet makkelijk ingevuld en beheerd kunnen worden door databeheerders. De beschikbaarheid van goede tools blijft nog wel achter op de wens om data te kunnen zoeken en invoeren.
Populariteit dataset. Het gebruik bepaald mede hoeveel energie er wordt gestoken in het volledig beschrijven van een dataset. Focus op wat bruikbaar is voor anderen en doe dat goed.
Aanbod vs. vraag gericht. Huidige insteek is bij metadata is vooral aanbodgericht, o.a. ingegeven door beleid (INSPIRE, Open Data, etc..). Wie de afnemers van de data is on veel niet bekend. Hier zou meer aandacht voor moeten zijn.
Doelgroep. Het blijkt lastig om te achterhalen wie nu de afnemers zijn van metadata. De afnemers zijn immers anoniem. Het is daarom ook lastig te achterhalen welke metadata behoefte er is bij de deze afnemers. Globaal worden volgende groepen onderscheiden (bewuste) burgers, Geo-specialisten, developers. Daarnaast worden bepaalde datasets (INSPIRE) nu eenmaal aangeboden omdat het NGR de rol vervult van INSPIRE Discovery Service voor Nederland.
Luister naar de gebruiker. Zorg voor een goede gebruikerservaring en een hoge adaptiegraad. Dat kan door uitwerken van de customer journey die de gebruiker (verschillende typen gebruikers) doorloopt, en te onderzoeken welke behoeften daarbij. Wat betekent dat voor de functionaliteit van de applicatie, en wat voor de onderliggende standaarden en het gebruik daarvan. Een beleidsmedewerker of burger wil vooral basisinformatie zoals: wie is de eigenaar van de dataset, en wat zijn de contactgegevens; wat mag ik met de dataset (gebruikerslicenties); is de dataset betrouwbaar? Een dergelijk customer journey juist NIET laten uitvoeren door het geodomein. Doel is immers te achterhalen wat de behoefte is van een niet-geoprofessional.
Moeten vs. willen. Veelal is het beschikbaar stellen van metadata een ‘moetje’ geworden, een doel op zicht, het moet nu eenmaal voldoen aan de standaard. Zou mooi zijn als data aanbieders terug gaan naar 'willen’ i.p.v. ‘moeten’. Metadata worden gepubliceerd, omdat we data willen delen, hergebruik willen stimuleren, datagedreven willen werken, en vooral maatschappelijke vraagstukken willen oplossen. Een dergelijk insteek vraagt om continue aandacht van de organisatie, processen en leidinggevenden.
In de organisatie
Onderscheid rollen en ondersteun de verschillende rollen bij het invullen metadata. Inhoud / technisch. Ondersteun in de tooling een proces dat meerdere mensen de metadata kunnen invullen, nu is dat vaak één persoon. Terwijl de kennis over de inhoudelijke aspecten van een dataset en de technische aspecten van een dataset veelal bij verschillende personen ligt.
Kopieën van data en vertrouwen. Bij sommige organisaties worden datasets gekopieerd om te gebruiken voor andere toepassingen. Inhoudelijke eigenaren voelen zich verantwoordelijk voor de kwaliteit van de data, maar weten niet altijd precies wat er met ‘hun’ data gebeurt. De inhoudelijke data eigenaren willen het liefst zelf bepalen wat er met hun data gebeurt.
Binnen organisaties is metadata vaak versnipperd; meerdere tools; meerdere werelden; meerdere definities metadata.
Creëer en beheer metadata zo dicht mogelijk bij de data.
Maak het beheren van metadata onderdeel van de reguliere processen.
Genereer metadata zoveel mogelijk automatisch uit de data.
Data bij de bron, begrippen bij de bron, API / Services bij de bron
Meer relatie tussen metadata, data, API’s / services, begrippen, informatiemodellen.
Begrippen opnemen in de metadata ten behoeve van de doorzoekbaarheid
Vanuit dezelfde metadata zowel de geo als de linked data wereld bedienen.
Samenwerken. Probeer het wiel niet opnieuw uit te vinden. Werk samen met anderen en deel kennis en ervaring. Ook vanuit een kostenoogpunt kan het aantrekkelijk zijn om samen ontwikkelingen op te pakken. Voor het NGR en DONL wordt specifiek Informatie Vlaanderen genoemd. Vlaanderen wordt gezien als één van de voorlopers binnen Europa. Informatie Vlaanderen deelt zijn opgedane kennis nu al, en staat open voor samenwerking met Nederland.
Samenhang. Trend is richting meer samenhang data en metadata, over catalogi heen, en over domeinen heen kijken
ISO, OGC en W3C. Het is positieve ontwikkeling dat OGC en W3C standaarden steeds meer naar elkaar toegroeien. Uit de interviews komt steeds terug dat er al heel veel standaarden zijn. En je bij het ontwikkelen van een nieuws standaarden altijd eerst moet kijken wat er al is, niet het wiel opnieuw moet uitvinden, en vooral samenwerken, voor zover dat kan.
Aansluiten op veel gebruikte (W3C) standaarden (DCAT) en die uitbreiden met geo-profielen / extensies.
De DCAT standaard wordt veel genoemd. Het is een generiek standaard. De gebruikersgroep is groot, er zijn veel ontwikkelingen, en er wordt veel energie ervaren. Het gebruik van DCAT (rdfa) bevorderd ook de vindbaarheid in search engines, is flexibel, en te gebruiken in een Linkeddata context. Ook Europa / INSPIRE denk voorzichtig die kant op.
DQV, voor het vastleggen van datakwaliteit wordt enkele keren genoemd in combinatie met DCAT, als generieke opvolger van ISO 19157.
SKOS is voor begrippen bruikbaar. Nadeel is wel dat er veel ruimte voor interpretatie is m.n. bij het vocabulaire.
De ISO standaarden hebben een lange historie, worden als een ‘rijke’ maar ook als complexe standaard ervaren. De ISO standaarden spelen een belangrijke rol in het geo-domein en de opgebouwde kennis, ervaring, rijkdom aan metadata die bewaart moet blijven.
De ISO standaarden hoeven ook niet te verdwijnen. Ze zijn vooral bruikbaar voor specifieke gebruikers, de geo-professional / specialist. Sommigen vinden de ISO standaarden wel een beetje achterhaalden te veel gericht op de eigen geo-community. De INSPIRE technische specificaties zijn nog op de ISO standaarden gebaseerd, deze zal dus nog blijven bestaan.
Mochten in de toekomst meerdere soortgelijke / overlappende standaarden (moeten) blijven bestaan, is het in ieder geval van belang dat ze goed naar elkaar te vertalen / op elkaar te mappen zijn. Sommigen vinden dat je voor metadata in de toekomst helemaal kunt overstappen op DCAT.
OGC API – records wordt genoemd als mogelijke opvolger van OGC:CSW heeft als groot voordeel dat de vindbaarheid door zoekmachines verbeterd. Op dit moment (de standaard is in ontwikkeling) is het echter nog niet goed mogelijk om de service binding goed te maken. Dit is essentieel voor het gebruik. Daarnaast word er voor het vastleggen van de metadata (nog) niet van een bestaande standaard, bijvoorbeeld DCAT uitgegaan.
Samenhang tussen Catalogi. Er zijn veel verschillende catalogi voor zowel data, API’s en begrippen. Weinigen hebben het overzicht. Ontwikkelingen lijken gefragmenteerd, alleen voor een beperkte doelgroep te gebeuren, zowel binnen als tussen organisaties.
Eén centraal punt voor alle metadata van overheid ’s data. Velen zien dat als een optimaal beeld. De metadata die je daar vind zijn simpel en eenvoudig te begrijpen, data zijn direct inzichtelijk (niet alleen beschrijving, maar ook voorbeelden), en dit centrale punt zorgt voor optimale vindbaarheid in search engines. Dit punt is vooral voor de niet geo-professional, domein specifieke geo metadata is hier niet beschikbaar.
Wel versus geen NGR. Door de meesten wordt het NGR, voor het zoeken naar geo specifieke data als toegevoegde waarde ervaren naast het generieke (open) data portaal. Daar zou dan wel alle geodata in moeten zitten. In het NGR zitten zoekingangen die voor de geo-community meerwaarde hebben. De geo-wereld is ook meer gestandaardiseerd dan daarbuiten. Het ontsluiten van metadata in NGR kan ook als een soort kwaliteitskenmerk worden gezien. Doorzoekbaarheid en getoonde informatie zijn echter niet optimaal. Sommigen geven aan dat in een de toekomst het NGR mogelijk geen eigen user interface meer nodig heeft, en dat metadata over alle domeinen heen in één gebruiksvriendelijke dataportaal te vinden is.
Het zoeken op - en gebruiken van metadata in catalogi levert veel management informatie op. Deze informatie zou gedeeld moeten worden met de aanleverende partijen.
Wel vs. geen eigen catalogus. Sommige, vooral grotere organisaties willen graag hun eigen Catalogus. Primair doel is dan vooral data binnen de eigen organisatie vindbaar te maken en daarna relevante metadata publiekelijk beschikbaar te stellen.
Sommige organisaties vinden het gebruik van duidelijke en persistente URI naamgeving conventies, die terug te leiden zijn naar hun eigen organisatie (Point of Origin), belangrijk. Voor anderen geldt dit minder.
Zij zouden liever gebruik willen maken van een ‘Catalogus-as-a-Service’. Het beheren en up-to-date houden van de Catalogus software (incl. ondersteuning standaarden) vergt immers specifieke kennis en middelen die vaak niet voorhanden zijn. Deze organisaties kunnen hun metadata direct in NGR aanmaken via een centrale edit modus en via NGR aanbieden, anderen gebruiken hiervoor producten van commerciële dienstverleners.
Zoekmachines vs. Catalogi:
Catalogi blijven nog wel even bestaan. Intern in een organisatie is Google geen oplossing.
Internet is gestandaardiseerd Met Schema.org en RDFa, maar dit is vooral geoptimaliseerd voor e-commerce. Nog niet echt voor datasets (mensen zoeken er niet of onvoldoende naar). Schema.org heeft wel element voor datasets, echter nog niet geharmoniseerd met DCAT
Multi-channels aanbieden. De data op verschillende manieren vindbaar maken voor de verschillende doelgroepen. Naast catalogi ook via google vindbaar zijn. Alleen in zoekmachines data vinden is te beperkt, data op meerder manieren vindbaar maken op basis van zelfde metadata. Daarmee ook de (geo) API en linked data wereld bedienen.
Federatief stelsel catalogi. Zorg voor standaarden die de verschillende catalogi informatie kunnen uitwisselen.
Van gegevens naar kennis. In één van de interviews wordt aangegeven dat we in toekomst meer gaan bewegen van gegevens naar informatie, en dan naar kennis. Knowledge Graphs worden dan belangrijker.
Machine learning. Op het gebied van technologische ontwikkeling wordt de verwachting geuit dat Machine Learning en Artificial Intelligence zal helpen bij het automatiseren en verbeteren van de vindbaarheid, categoriseren, verrijken en identificeren van relaties tussen datasets in data catalogi. Gartner spreek in één van zijn rapporten in dit geval over een zgn. ‘augmented data catalog’.
Dataset. Gedeeld beeld is dat er vooral op dataset niveau metadata vastgelegd moet worden.
Datasetserie wordt soms gebruikt om meerdere samenhangende datasets voor de vindbaarheid van gebruikers samen te ontsluiten.
Objectinformatie. Metadata over objecten is alleen zinvol als er op dat niveau echt verschillende info is. Dit is afhankelijk van de dataset.
Objectinformatie opnemen in DCAT zou wel erg veel inspanning vergen. Informatie over objecten staat voor een deel beschreven in het Informatiemodel en uitgewerkt in een objectencatalogus of gegevenscatalogus.
Bij basisregistraties of andere landelijke of domein specifieke registraties is een goede beschrijving van het object nodig, het is bijvoorbeeld voor sommige (juridische) toepassingen van belang te weten op welke datum een object gewijzigd is.
Basisregistraties staan niet op zich, en worden ook gebruikt om relatie te leggen met andere basis- of landelijke registraties. Dan wil je weten welke definitie gehanteerd wordt voor bepaalde objecten, zoals bijvoorbeeld een weg. Voor kleinere datasets is dat veel minder van belang.
Services en API’s. De overheid is volop bezig om meer API’s aan te bieden. API management wordt steeds belangrijker.
Het belang van metadata over services en API’s wordt onder ondersteund, mits dit extra informatie zoals over het gebruik, de eigenaar/verstrekker en herzieningsfrequentie van de API/service bevat. Als dat niet het geval is voldoet het opnemen als distributie van een dataset.
Technische info mist soms in de service metadata.
Datasets vs. object gericht werken. Datasets blijven bestaan.
Linked data. Mogelijk meer linked werken. Maar dan eerder op begrippen en objecten.
Bij het zoeken naar gegevens zijn de volgende stappen van belang:
Vindbaarheid voor burger. Vergroot de vindbaarheid van de burger. Veelal is die niet bekend met specifieke catalogi en zoekt via de reguliere zoekmachines. Verbeter dus de vindbaarheid in zoekmachines.
Vindbaarheid over datacatalogi heen. Er zijn inmiddels meer catalogi. Veelal per domein. Maatschappelijk vraagstukken zijn veelal domein overstijgende vraagstukken, waarbij gegevens uit diverse domeinen nodig zijn om tot oplossingen te komen.
Vindbaarheid binnen datacatalogi. De vindbaarheid binnen catalogi is nog sub-optimaal. Denk aan verbeteren doorzoekbaarheid van de data door een meer search engine achtige aanpak. Ook de begrippen en informatiemodellen zouden doorzoekbaar moeten zijn.
Vindbaarheid van API’s / Services. Ontwikkelaars van toepassingen hebben behoefte aan goed beschreven en vindbare API’s. In het NGR zijn de services al terug te vinden. Voor de hele overheid is nu Developer Overheid in ontwikkeling.
Metadata wordt steeds belangrijker. Het vormt de basis voor goed vindbare en herbruikbare data en daarmee ook voor meer datagedreven werken.
Verbeter de vindbaarheid van datasets, bijhorend informatiemodel, begrippen en services / API’s. Niet alleen binnen een specifiek domein, maar bij voorkeur ook over domeinen heen.
Verbinden van werelden. Door aansluiten bij generieke standaarden wordt het steeds beter mogelijk de geo-wereld en de web-wereld (W3C) met elkaar te verbinden en geodata beter vindbaar te maken
Toegroeien naar één uitwisselstandaard voor datacatalogi. Beeld is dat DCAT als uitwisselstandaard tussen de verschillende domein overstijgende datacatalogi te gebruiken is.
DCAT is als generieke standaard zeer geschikt, maakt geo data toegankelijker buiten het geo werkveld en wordt breed gesteund. DCAT heeft een hoge acceptatie graad en is breed toepasbaar. In het GeoDCAT-AP kun je het grootse deel van specifieke geo- metadata kwijt. Voor het uitwisselen in GeoDCAT is het noodzakelijk dat de ISO metadata standaarden vertaald (gemapt) worden. GeoDCAT fungeert in eerste instantie als een uitwisselstandaard naar andere datacatalogi. ISO standaarden spelen een belangrijke rol in het geo-domein en de opgebouwde kennis, ervaring, rijkdom aan metadata die op dit moment nog bewaart moet blijven. DCAT heeft ook zijn beperkingen. Op termijn zal blijken of er met één metadata standaard de vereisten en wensen zijn in te vullen.
Er is een vraag naar vereenvoudiging van metadata maar tegelijkertijd wordt ook aangegeven dat datakwaliteit belangrijker wordt en informatie daarover in de metadata opgenomen moet worden. Daarnaast ook behoefte aan meer relaties tussen data, modellen en begrippen. Dit maakt het metadateren niet eenvoudiger. Er is verschil in informatiebehoefte. Standaarden zullen daarop moeten anticiperen.
Er zijn verschillende soorten catalogi onderscheiden zijn. Catalogi voor datasets, services en API’s , en begrippen. Meer diepgang kan worden verkregen door samenhang (en een stap verder, integratie) te bewerkstelligen tussen metadata, API’s, data, datamodellen en begrippen door het leggen van relaties daartussen en het opnemen van die begrippen in de metadata.
Voor het in samenhang kunnen representeren van metadata uit diverse catalogi en verschillende domeinen is een federatief stelsel van datacatalogi nodig.
NGR heeft naast data overheid bestaansrecht. Het heeft toegevoegde waarde voor de geo- community, met meer domein specifieke metadata en specifieke zoekingangen. Daarnaast vervult het NGR de rol van INSPIRE Discovery Service voor Nederland.
Relevante andere standaarden: Voor begrippen wordt vooral SKOS als standaard gehanteerd. Daarnaast kan de catalogus verbreed worden door ook het informatiemodel van de dataset te beschrijven. Het MIM (Metamodel voor Informatie Modellen) is hiervoor een goede basis.
Integrale sturing. Zorg voor meer samenhang en integratie bij de ontwikkelingen rondom standaarden en portalen. Borg die samenhang vanaf het begin. Stuur hierop vanuit beleid. Geef bijv. duidelijke ambities en kaders mee, en toets daar ook op. Heel concreet. Zorg voor meer samenhang en integratie bij de doorontwikkeling van open data portalen, diverse catalogi, developers portalen (API’s)
Verbinden van data aanbieder en gebruiker, om vanuit gebruikersperspectief te kunnen werken. Luister naar de gebruiker. Zorg voor een goede gebruikerservaring en een hoge adaptiegraad. Focus op wat bruikbaar is voor anderen en doe dat goed. Maak onderscheid tussen aanbod- en vraaggericht.
Er is behoefte aan slimme tooling , voor het beheren van metadata, leggen van relaties met begrippen, datamodelllen en API’s. Bij voorkeur gebeurt dit zoveel mogelijk automatisch.
Lijst van geïnterviewden
Danny Greefhorst (ArchiXL); Marten Middeldorp (Atlas research); Haye Hazenberg en Tim Faber (BZK); Richard Zuijdam en Bas Vanmeulebrouk (Civity); Heidi vd Vloet en Celine Jansen (Gemeente Eindhoven); Paul van Genuchten (Geocat); Linda ten Brink (Geonovum); Geraldine Nolf (Informatie Vlaanderen); Jasper Roes, Marcel Reuvers, Nicoline Jongerius, Lexi Rowland, en Erwin Folmer (Kadaster); Jelle Verburg, Jan Meijer en Hans Overbeek (KOOP); Marco Brattinga (Ordina); Cor Melse en Harm van Wijnen (RIVM); Theo Heijn, Margot van Dorst en Mette van Essen (Rijkswaterstaat); Jan Willem van Aalst (Spot-Info); Lia de Zoete en Robert Melkens (VNG).