Waar moet mijn dataset aan voldoen?

From Geonovum Wiki
Jump to: navigation, search


Aan de slag met INSPIRE

Doelgroep
Processtappen
Deadlines
Bronnen
Over deze wiki

Aanmerking en Namespaces

Aanmerkingsregister
Namespace register

Inrichten organisatie

1. Dataharmonisatie

Documentatie dataharmonisatie
Principes dataharmonisatie
As-is versus geharmoniseerd
Prioritaire datasets (e-reporting)
Generic Conceptual Model
INSPIRE ID
Codelijsten
Portrayal
Geometrie
Data-validatie
Checklist dataharmonisatie
Control panel
Extensies
Thematic Clusters
FAQ Dataharmonisatie

2. Metadata

Metadata aanmaken
Waar moet mijn metadata aan voldoen?
Invulinstructie voor datasets
Voorbeeld XML voor INSPIRE dataset metadata
Prioritaire datasets
Metadata en Taal
Metadata-validatie
Geharmoniseerde Gebruiksvoorwaarden
FAQ Metadata

3a. Network Services

Informatie Network Services
Vereisten Services
Quality of Services
Rights Management Layer
Agree operation
RM en GeoGedeeld
View service maken
Recente wijzigingen specificaties
INSPIRE vereisten opnemen in een Capabilities document
Category Layers
Meertaligheid in een Capabilities document
Voorbeeld XML voor Capabilities
Portrayal
FAQ View Services
Download service maken
Recente wijzigingen specificaties Download Services
Download Service via Atom feed
Automatisch genereren van OpenSearch description
Download Service Pre-defined Datasets via WFS
Download Service Direct Access via WFS
Download service via WCS
Download service via SOS
FAQ Download Services
Metadata Services
Scenario's voor het aanmaken van service metadata
Invulinstructie voor services
Voorbeeld XML voor INSPIRE service metadata
Valideren Metadata Services
Valideren Services

3b. Spatial Data Services

Wat is een Spatial Data Service
Categorieën van Spatial Data Service
Bepalen categorie Spatial Data Service
Invocable Spatial Data Service
Interoperable Spatial Data Service
Harmonised Spatial Data Service
Metadata templates voor Spatial Data Service

4. Publiceren

Publiceren Inspire aanduiding

5. Validatie

6. INSPIRE vervolg

Monitoring en Rapportage

Veelvoorkomende vragen

FAQ Metadata
FAQ View Services
FAQ Download Services
FAQ Data Harmonisatie

Extra informatie

Terminologie
Normatief Kader TC 211
UML notatie


 


INSPIRE geeft richtljinen uit die dataproviders moeten volgen om conform INSPIRE te kunnen werken.


Een van de voorwaarden voor het kunnen uitwisselen van ruimtelijke data is dat alle datasets bepaalde kenmerken delen. Oa. de opbouw van ruimtelijke objecten, definities van objecten en verplichte attributen moeten over alle lidstaten coherent en vergelijkbaar zijn om via services uitgewisseld te kunnen worden en onderling vergeleken te kunnen worden. Dit wordt ‘interoperabiliteit’ genoemd en de handelingen die ondernomen worden om ‘interoperabiliteit’ te bereiken ‘data-harmonisatie’. INSPIRE zorgt voor een hoge mate van interoperabiliteit van de thema’s om ze te kunnen uitwisselen en ontsluiten.


Het valt buiten de scope van de wiki om per INSPIRE thema van Annex I uit te schrijven hoe dit proces van data-harmonisatie er uit komt te zien. Het harmoniseren is namelijk grotendeels afhankelijk van de structuur van de bron-data, zoals deze door de dataprovider beheert wordt. Wordt deze file-based beheerd (of met een ruimtelijke database)? Hoe ziet de structuur van de data eruit? Deze vragen kunnen alleen door de dataprovider zelf beantwoord worden.

Wel kunnen er algemene principes voor het harmoniseren van data uitgelegd worden.

  • Harmoniseren van voor INSPIRE opgevoerde data, kent grosso modo twee fasen:
  1. Het harmoniseren van de bestaande data-structuur naar de voor INSPIRE verplichte structuur;
  2. Het converteren van het bestaande data-formaat waarop beheer plaatsvindt, naar GML;

Dit is vooral een schematische indeling: in het werkproces zullen (a) en (b) bij veel dataproviders in één slag plaatsvinden.

  • Voor (a) het harmoniseren van de data-structuur zullen er drie populaire mogelijkheden zijn:
  1. Harmonisatie op nivo van ruimtelijke database;
  2. Ruimtelijke ETL processen met behulp van specifieke ETL-software (die met ruimtelijke data overweg kan);
  • Specifieke, op INSPIRE gerichte software;
3. ‘On the fly’harmoniseren en converteren;

Ad a: Ruimtelijke Database
Eén manier om data te harmoniseren is om op database-nivo DDL-scripts te ontwikkelen die de datastructuur van de voor INSPIRE opgevoerde data, converteren naar de vorm en inhoud die conform het INSPIRE applicatie schema heeft. Dit kan met behulp van SQL, en de procedurele taal die de database hanteert. De procedurele taal is afhankelijk van de database; elke fabrikant kent zijn eigen variant.
Hiervoor is specialistische kennis van een DBA’er nodig, die (a) met ruimtelijke databases overweg kan, en (b) DDL-scripts kan ontwikkellen.

Ad b) Ruimtelijke ETL processen met behulp van specifieke ETL software
Ook vaak ‘Spatial ETL’ of ‘spatial data-exchange’ genoemd. ETL staat voor Extract, Transform en Load. Hiermee worden technieken bedoeld die ruimtelijke data kunnen converteren.

Extract: inlezen van het bronformaat
Transform: het aanpassen van de data-struktuur
Load: het wegschrijven (wellicht naar een ander formaat)

Bij het harmoniseren van de data in het kader van INSPIRE is het vooral de ‘T’ (Transform) die van belang is. In dit proces vinden wijzigingen plaats in de data-structuur: het wijzigen van attribuutnamen, weghalen van attributen, wijzigen van datatypen, gebruik van domeinwaarden (codelijsten), geometrie-validaties, etc.

Het is ook nuttig te wijzen op de markt die de INSPIRE-richtlijn indirect zelf creëert. Er zijn verschillende bedrijven die software bouwen die specifiek gericht is op dataproviders die data leveren voor INSPIRE thema’s3. Op deze manier voldoen zij aan een groeiende behoefte die ontstaat uit nieuwe wetgeving en standaarden.

Ook zijn er ook open-source tools die zich op het vlak van ETL begeven. Zij benadrukken vaak de E en L kant van ETL.

Ad c) On the fly converteren
Bovenstaande principes zijn gericht op het klaarzetten van data alvorens ze te ontsluiten (ook wel ‘pre-defined’). Dat hoeft niet in alle gevallen. Het is ook mogelijk om data ‘on the fly’ te conveteren. Let er echter op dat dit voor grote datasets niet bruikbare toepassing is omdat de performance van de service teveel te wensen over zal laten. Waar deze grens ligt en bij welke dataset-grootte het breekpunt tussen ‘on the fly’ en ‘pre-defined’ ligt, is alleen op basis van testresultaten vast te stellen.

Welk nivo toe te passen?
Welk nivo het beste aangrijppunt voor de dataprovider vormt, is moeilijk van een afstand aan te geven. Het hangt van een aantal organisatie-gebonden factoren af:

  • Aanwezige software;
  • Aanwezige kennis;
  • Beschikbare tijd;

De belangrijkste factor is de kennis die binnen een organisatie aanwezig is. Zijn er binnen de organisatie database-specialisten aanwezig (DBA’ers) die verstand hebben van ruimtelijke databases? Zijn er GIS-operators die al vaker met ETL tools werken?

Dit betekent dus ook dat er wellicht gekozen moet worden voor uitbesteding.

De ‘spin-off’ is een zijdelingse overweging die bij de keuze van harmonisatie-principe van belang kan zijn. Voor INSPIRE-gerichte harmonisaties is veel kennis nodig. Deze kennis kan voor andere GEO-ict projecten ook van praktisch belang zijn, bijvoorbeeld omdat het de kennis van een tool verhoogt. Dit kan een overweging zijn om een kennis-domein te versterken en hierin te investeren.

Welke eisen stelt INSPIRE m.b.t. ‘valide geometrieen’ van ruimtelijke objecten?
In het GCM en de dataspecificaties worden normatieve referenties opgenomen. Een hiervan is de OGC 06-103r3, Implementing Specification for Geographic Information – Simple Feature Access Part 1: Common Architecture v1.2.0. Hierin wordt de geometrie klassen gepresenteerd, waaruit de regels volgen die ‘valide’ geometrie beschrijven.
Voorts vind je dit onderwerp in de Data Specifications van de verschillende thema’s terug als requirement terug in paragraaf 5.2.1.6 Geographic Representations.
Dit betekent dat de geometrische objecten moeten voldoen aan de regels zoals deze door het OGC worden gesteld. Op termijn komt hiervoor via Geonovum een interoperabiliteits-validatie dienst beschikbaar. Via deze dienst kunnen, vergelijkbaar met de metadata-validatiediensten die Geonovum operationeel heeft, een dataset van een dataprovider getest worden op haar ‘INSPIRE conformiteit’. Deze validatie test niet alleen de geometrie maar ook het applicatie schema.

Wanneer je alleen de geometrie wilt valideren, zijn verschillende opties die conform de OGC regels testen: zowel open-source (bv. JavaTopologySuite (JTS)) als closed source (bv. FME) tools zijn hiervoor geschikt.

Specifiek Transport Networks: Voor het thema Transport Networks en haar subthema’s zijn topologie regels van belang.

3.2.6 BaseTypes
Het
3.2.7 Hoe maak je unieke Object Id’s voor Spatial Objects aan?
Elk ruimtelijk object van een datset (of dataset series) dat via INSPIRE toegankelijk wordt gemaakt, moet voorzien worden van een unieke indentificatie zodat derden ondubbelzinnig aan het object kunnen refereren. Dataproviders dienen dus – buiten eventuele eigen ID’s die de organisatie gebruikt – de ruimtelijke objecten van een unieke INSPIRE code te voorzien.

Deze code komt van het BaseType.Identifier object van het General Conceptual Model (hoofdstuk 9.8.1, p. 59). In de Data Specs komt het ‘identifier management’ terug onder paragraaf 5.2.1.4. Binnen INSPIRE datasets en dataset series heet de unieke code het InspireId.
3.2.7.1 Hoe verhoudt het InspireId zich tot NEN3610ID van het Basismodel NEN3610:2010?
De nederlandse standaarden worden met de internationele ISO’s en Europose wetgeving geharmoniseerd. Het eerste aangrijppunt voor Object-Id’s in relatie tot INSPIRE is dus het Basismodel Geo-Informatie. De vigerende standaard is NEN3610:2005, deze wordt momenteel herzien. Onderstaande informatie is afkomstig uit deze herziene standaard NEN3610:2010 (nog in consultatie en dus pas later beschikbaar).

In NEN3610 kent ieder identificeerbaar GeoObject een nen3610ID klasse. Dit bestaat evenals het INSPIRE ID uit namespace, lokaalID en versie. Dit betekent dat wanneer de identificatie-code in de dataset voldoet aan het dataType nen3610ID van het NEN3610:2010, het ook conform INSPIRE is. De naamgeving is echter niet INSPIRE conform. In de uitleg onder wordt de INSPIRE naamgeving gehanteerd.

De INSPIRE Identifier van ieder ruimtelijk object bestaat uit drie attributen:
• namespace: Wordt gebruikt om de data-source te identificeren. Er zijn in relatie tot INSPIRE drie praktische voorwaarden verbonden aan de namespace:
o Is een verplicht attribuut
o Begint met 2 letterige landscode: NL. De namespace kan vervolgens uitgebreid worden.
o De namespace wordt geregistreerd in het nationale namespaces register, waardoor de uniekheid gegarandeerd wordt.
• localId: een identifier die binnen de registratie uniek is. Dit hoeft dus geen UUID te zijn, maar mag wel. Is verplicht.
• versionId: Dit attribuut maakt geen onderdeel uit van het identifier management van INSPIRE, maar is wel een attribuut van het InpspireId. Zie paragraaf 2.3.4.2.

De namespace wordt geregistreerd in het nationale namespace register op http://inspirelab.geonovum.nl/namespaces/. Uiteindelijk zal dit nationale namespace register het INSPIRE External Object Identifier Namespaces Register gaan vullen. Dit register is nog in de maak, maar zal onderdeel worden van het INSPIRE Registry.


3 Stichting Geonovum een software-onafhankelijke partij. Aangezien de kans groot is dat een lijst met software die hier genoemd zou worden, onvolledig is of wordt, wordt hier geen software genoemd. Zoektermen als ‘spatial ETL’ zijn voldoende.