Principes dataharmonisatie

From Geonovum Wiki
Revision as of 10:26, 27 November 2013 by Quak (talk | contribs)
Jump to: navigation, search


Aan de slag met INSPIRE

Doelgroep
Processtappen
Deadlines
Bronnen
Over deze wiki

Aanmerking en Namespaces

Aanmerkingsregister
Namespace register

Inrichten organisatie

1. Dataharmonisatie

Documentatie dataharmonisatie
Principes dataharmonisatie
As-is versus geharmoniseerd
Prioritaire datasets (e-reporting)
Generic Conceptual Model
INSPIRE ID
Codelijsten
Portrayal
Geometrie
Data-validatie
Checklist dataharmonisatie
Control panel
Extensies
Thematic Clusters
FAQ Dataharmonisatie

2. Metadata

Metadata aanmaken
Waar moet mijn metadata aan voldoen?
Invulinstructie voor datasets
Voorbeeld XML voor INSPIRE dataset metadata
Prioritaire datasets
Metadata en Taal
Metadata-validatie
Geharmoniseerde Gebruiksvoorwaarden
FAQ Metadata

3a. Network Services

Informatie Network Services
Vereisten Services
Quality of Services
Rights Management Layer
Agree operation
RM en GeoGedeeld
View service maken
Recente wijzigingen specificaties
INSPIRE vereisten opnemen in een Capabilities document
Category Layers
Meertaligheid in een Capabilities document
Voorbeeld XML voor Capabilities
Portrayal
FAQ View Services
Download service maken
Recente wijzigingen specificaties Download Services
Download Service via Atom feed
Automatisch genereren van OpenSearch description
Download Service Pre-defined Datasets via WFS
Download Service Direct Access via WFS
Download service via WCS
Download service via SOS
FAQ Download Services
Metadata Services
Scenario's voor het aanmaken van service metadata
Invulinstructie voor services
Voorbeeld XML voor INSPIRE service metadata
Valideren Metadata Services
Valideren Services

3b. Spatial Data Services

Wat is een Spatial Data Service
Categorieën van Spatial Data Service
Bepalen categorie Spatial Data Service
Invocable Spatial Data Service
Interoperable Spatial Data Service
Harmonised Spatial Data Service
Metadata templates voor Spatial Data Service

4. Publiceren

Publiceren Inspire aanduiding

5. Validatie

6. INSPIRE vervolg

Monitoring en Rapportage

Veelvoorkomende vragen

FAQ Metadata
FAQ View Services
FAQ Download Services
FAQ Data Harmonisatie

Extra informatie

Terminologie
Normatief Kader TC 211
UML notatie


 


 INSaandeslag 2.gif


Een van de voorwaarden voor het kunnen uitwisselen van ruimtelijke data is dat alle datasets bepaalde kenmerken delen. Oa. de opbouw van ruimtelijke objecten, definities van objecten en verplichte attributen moeten over alle lidstaten coherent en vergelijkbaar zijn om via services uitgewisseld te kunnen worden en onderling vergeleken te kunnen worden. Dit wordt ‘interoperabiliteit’ genoemd en de handelingen die ondernomen worden om ‘interoperabiliteit’ te bereiken ‘data-harmonisatie’. INSPIRE zorgt voor een hoge mate van interoperabiliteit door per thema een dataspecificatie te beschrijven die door alle lidstaten geimplementeerd moet worden. Dit betekend dat een data provider zijn gegevens moet vertalen naar het model in de INSPIRE data specificatie.

Het harmoniseren is grotendeels afhankelijk van de structuur van de bron-data, zoals deze door de dataprovider beheert wordt. Wordt deze file-based beheerd (of met een ruimtelijke database)? Hoe ziet de structuur van de data eruit? Deze vragen kunnen alleen door de dataprovider zelf beantwoord worden.


  • Harmoniseren van voor INSPIRE opgevoerde data, kent grosso modo twee fasen:
  1. Het semantisch harmoniseren: Hoe vallen de begrippen en concepten in het informatiemodel van de data provider te vertalen naar de de klasses en definties zoals beschreven in de INSPIRE data specificatie.
  2. Het technisch harmoniseren: Het converteren van het bestaande data-formaat waarop beheer plaatsvindt, naar het uitwisselformaat GML waar INSPIRE van gebruik maakt;


Dit is vooral een schematische indeling: in het werkproces zullen (1) en (2) bij veel dataproviders in één slag plaatsvinden. Onder het harmoniseren vallen ook aspecten als zorgdragen voor valide-geometrieen en cross-boundary harmonisation. Meer informatie over deze aspecten vind je op deze wikipagina.

  • Het semantisch harmoniseren (1) is vooral een kwestie van het vertalen van definities bij de data provider naar de definities van INSPIRE. Dit is typisch werk voor een domein expert van de data provider die de definities in de betreffende dataspecificaties interpreteert en bedenkt hoe de eigen gegevens in dit model in te passen zijn. In veel gevallen zal het lastig zijn voor een domein expert om de technische INSPIRE documentatie te lezen.
  • Voor (2) het technisch harmoniseren zijn er verschillende mogelijkheden:
  1. Harmonisatie op nivo van ruimtelijke database;
  2. Ruimtelijke ETL processen met behulp van specifieke ETL-software (die met ruimtelijke data overweg kan);
  • Specifieke, op INSPIRE gerichte software;
3. ‘On the fly’ harmoniseren en converteren;


Ad a: Ruimtelijke Database
Eén manier om data te harmoniseren is om op database-nivo DDL-scripts te ontwikkelen die de datastructuur van de voor INSPIRE opgevoerde data, converteren naar de vorm en inhoud die conform het INSPIRE applicatie schema heeft. Dit kan met behulp van SQL, en de procedurele taal die de database hanteert. De procedurele taal is afhankelijk van de database; elke fabrikant kent zijn eigen variant.
Hiervoor is specialistische kennis van een DBA’er nodig, die (a) met ruimtelijke databases overweg kan, en (b) DDL-scripts kan ontwikkelen.


Ad b) Ruimtelijke ETL processen met behulp van specifieke ETL software

Ook vaak ‘Spatial ETL’ of ‘spatial data-exchange’ genoemd. ETL staat voor Extract, Transform en Load. Hiermee worden technieken bedoeld die ruimtelijke data kunnen converteren.

Extract: inlezen van het bronformaat
Transform: het aanpassen van de data-struktuur
Load: het wegschrijven (wellicht naar een ander formaat)

Bij het harmoniseren van de data in het kader van INSPIRE is het vooral de ‘T’ (Transform) die van belang is. In dit proces vinden wijzigingen plaats in de data-structuur: het wijzigen van attribuutnamen, weghalen van attributen, wijzigen van datatypen, gebruik van domeinwaarden (codelijsten), geometrie-validaties, etc.

Het is ook nuttig te wijzen op de markt die de INSPIRE-richtlijn indirect creëert. Er zijn verschillende bedrijven die software bouwen die specifiek gericht is op dataproviders die data leveren voor INSPIRE thema’s. Op deze manier voldoen zij aan een groeiende behoefte die ontstaat uit nieuwe wetgeving en standaarden.

Op de wikipedia pagina van spatial ETL worden een aantal partijen genoemd; deze link geeft ook enkele resultaten en deze link weer enkele andere.


Etl.gif


Ad c) On the fly converteren
Bovenstaande principes zijn gericht op het klaarzetten van data alvorens ze te ontsluiten (ook wel ‘pre-defined’). Dat hoeft niet in alle gevallen. Het is ook mogelijk om data ‘on the fly’ te conveteren. Let er echter op dat dit voor grote datasets niet bruikbare toepassing is omdat de performance van de service teveel te wensen over zal laten. Waar deze grens ligt en bij welke dataset-grootte het breekpunt tussen ‘on the fly’ en ‘pre-defined’ ligt, is alleen op basis van testresultaten vast te stellen.


Welke optie kunnen we het beste toepassen?
Welk nivo het beste aangrijppunt voor de dataprovider vormt, is moeilijk van een afstand aan te geven. Het hangt van een aantal organisatie-gebonden factoren af:

  • Aanwezige software
  • Aanwezige kennis
  • Beschikbare tijd

De belangrijkste factor is de kennis die binnen een organisatie aanwezig is. Zijn er binnen de organisatie database-specialisten aanwezig (DBA’ers) die verstand hebben van ruimtelijke databases? Zijn er GIS-operators die al vaker met ETL tools werken?

Dit betekent dus ook dat er wellicht gekozen moet worden voor uitbesteding.

De ‘spin-off’ is een zijdelingse overweging die bij de keuze van harmonisatie-principe van belang kan zijn. Voor INSPIRE-gerichte harmonisaties is veel kennis nodig. Deze kennis kan voor andere GEO-ict projecten ook van praktisch belang zijn, bijvoorbeeld omdat het de kennis van een tool verhoogt. Dit kan een overweging zijn om een kennis-domein te versterken en hierin te investeren.