2.3.6 Harvesten

From Geonovum Wiki
Jump to: navigation, search
2 Metadata

2.1 Introductie Metadata

2.1.1 Wat is metadata?
2.1.2 Waarom metadata?
2.1.3 Wat kun je ermee?
2.1.4 Waar vind je metadata?
2.1.5 Toepassingen
2.1.6 Opdracht discovery

2.2 Metadata standaarden

2.2.1 Waarvoor is een standaard?
2.2.2 Standaarden voor geo informatie
2.2.3 Metadata standaarden
2.2.4 INSPIRE
2.2.5 Opdracht standaarden

2.3 Metadata in het werkproces

2.3.1 Hoe maak je metadata?
2.3.2 Hoe maak je metadata van services?
2.3.3 Waar in werkproces?
2.3.4 Tips voor inwinnen metadata
2.3.5 Publiceren van metadata
2.3.6 Harvesten
2.3.7 Valideren
2.3.8 Opdracht werkproces

2.4 Metadata elementen

2.4.0 Metadata elementen overzicht
2.4.1 Titel van de bron
2.4.2 Samenvatting
2.4.3 Status
2.4.4 Hiërarchieniveau
2.4.5 URL
2.4.6 Protocol
2.4.7 Naam
2.4.8 Unieke Identifier van de bron
2.4.9 Taal van de bron
2.4.10 Onderwerp
2.4.11 Trefwoord
2.4.12 Thesaurus
2.4.13 Thesaurus datum
2.4.14 Thesaurus datum type
2.4.15 Minimum x-coördinaat
2.4.16 Maximum x-coördinaat
2.4.17 Minimum y-coördinaat
2.4.18 Maximum y-coördinaat
2.4.19 Temporele dekking
2.4.20 Datum van de bron
2.4.21 Datum type van de bron
2.4.22 Niveau kwaliteitsbeschrijving
2.4.23 Algemene beschrijving herkomst
2.4.24 Toepassingsschaal
2.4.25 Resolutie
2.4.26 Code Referentiesysteem
2.4.27 Verantwoordelijke organisatie voor namespace referentiesysteem
2.4.28 Conformiteitindicatie met de specificatie
2.4.29 Verklaring
2.4.30 Specificatie
2.4.31 Specificatie datum
2.4.32 Specificatie datum type
2.4.33 Juridische toegangsrestricties
2.4.34 Overige beperkingen
2.4.35 Veiligheidsrestricties
2.4.36 Gebruiksbeperkingen
2.4.37 Verantwoordelijke organisatie bron
2.4.38 Verantwoordelijke organisatie bron: e-mail
2.4.39 Verantwoordelijke organisatie bron: rol
2.4.40 Metadata unieke identifier
2.4.41 Parent unieke identifier
2.4.42 Verantwoordelijke organisatie metadata
2.4.43 Verantwoordelijke organisatie metadata: rol
2.4.44 Verantwoordelijke organisatie metadata: e-mail
2.4.45 Metadata datum
2.4.46 Taal van de metadata
2.4.47 Metadata standaard naam
2.4.48 Metadata standaard versie
2.4.49 Opdracht metadata voor data

Metadata elementen nieuw in versie 1.3

Hiërarchieniveau naam
Karakterset van de bron
Temporeel referentiesysteem
Naam distributie formaat
Versie distributie formaat
Specificatie distributie formaat
Type waarde
Topologische samenhang

2.5 Metadata elementen voor services

2.5.0 Metadata elementen voor services overzicht
2.5.1 Resource Title
2.5.2 Resource abstract
2.5.3 Resource type
2.5.4 Resource locator
2.5.5 Connect Point Linkage
2.5.6 Coupled resource
2.5.7 Scoped Name
2.5.8 Coupling Type
2.5.9 Spatial data service type
2.5.10 Service Type Version
2.5.11 Operation Name
2.5.12 DCP
2.5.13 Keyword value
2.5.14 Originating controlled vocabulary
2.5.15 Geographic location
2.5.16 Temporal Reference
2.5.17 Spatial resolution
2.5.18 Degree
2.5.19 Specification
2.5.20 Constraints
2.5.21 Conditions applying to access and use
2.5.22 Responsible party
2.5.23 Responsible party role
2.5.24 Metadata point of contact
2.5.25 Metadata language
2.5.26 Metadata date
2.5.27 De link naar de metadata van de dataset en dataset series vanuit de service
2.5.28 Opdracht metadata voor services

Metadata elementen nieuw in versie 1.2

Protocol
Scope
Explanation
metadata identifier
Metadata standaard naam
Metadata standaard versie



2.6 Wat je ook moet weten

2.6.1 Omgrenzende rechthoek
2.6.2 Referentiesysteem
2.6.3 Gebruiksvoorwaarden
2.6.4 Optionele set metadata van data
2.6.5 Meertaligheid metadata
2.6.6 Object- en attribuutinformatie
2.6.7 Richtlijnen voor sectoren
2.6.8 Metadata uitwisselen


Harvesting methoden

Harvesten is het mechanisme dat metadata naar de catalogus ‘ trekt ‘ (kopieert). Deze functionaliteit zorgt dat de metadata, waarnaar in de catalogues wordt verwezen, worden opgenomen en bijgewerkt. Het is de taak van de catalogues service om op de locatie de metadata op te halen en te verwerken in de catalogues.

Er zijn drie manieren om te harvesten;


1. Bestaande metadata als XML laten harvesten
2. Bestaande metadata vanuit een catalogue harvesten
3. Capabilities harvesting

Het harvesten is een proces wat regelmatig uitgevoerd kan worden, bijvoorbeeld eens per dag of per week. Tijdens het harvesten wordt de data gesynchroniseerd. Een catalogue is in staat om metadata die is toegevoegd, verwijderd of geupdated op de bronlocatie te herkennen en de centrale catalogue database hierop aan te passen.

 

Tijdens het harvesten is het mogelijk een filter toe te passen, waardoor niet alle metadata, maar een beperkte set van de remote catalogue wordt gekopieerd. Er kan bijvoorbeeld een filter worden toegepast op vrije text, onderwerp, titel en samenvatting.

 

Het harvesting mechanisme is gebaseerd op het concept van universally unique identifier (uuid) ende wijzigingsdatum. Door de uuid’s is het mogelijk van verschillende bronnen te harvesten. Ook al komt bepaalde metadata op meerder bronnen voor wordt deze dank zij de uuid maar één maal en dankzij de wijzigingsdatum alleen de meest actuele versie opgenomen in het register.


Metadata XML harvesten

Voor organisaties die weinig metadata beheren, is het implementeren en beheren van een catalogue weinig rendabel. Aangezien het plaatsen van XML files in een web accessible folder gemakkelijk is, is dit een laagdrempelige oplossing om meer metadata documenten beschikbaar te maken voor anderen die geharvest kunnen worden. Hiervoor wordt het web DAV (Distributed Authoring and Versioning) protocol om metadata van een DAV server te harvesten gebruikt. WebDAV definieert zogenoemde collecties van files op een webserver. Deze kunnen gebruikt worden om meerdere metadata documenten tegelijk te harvesten.
WebDAV is een protocol en kan door systeembeheerders op een standaard webserver geconfigureerd worden. Daarbij dient de folder zonder autorisatie benaderd te kunnen worden. Bij de configuratie wordt een URL gedefinieerd waar de catalogue uit kan harvesten, bijvoorbeeld:


http://www.RIVM.nl/webdav
Web accessible folder complying with WebDAV (IETF, RFS 2518)

 

Hierdoor wordt het mogelijk om Web accessible folders als bron te definiëren en te harvesten.
Metadata exporteren als een XML file is een gebruikelijke functionaliteit bij metadata tools. Veel metadata documenten zijn op deze manier beschikbaar bij (overheids-)organisaties. Andere partijen willen deze informatie ook gebruiken.
In verschillende folders kan men metadata voor verschillende doelgroepen plaatsen zodat voor de verschillende toepassingen uit één folder alle data geharvest kan worden.

 

Metadata vanuit een catalogue harvesten

Als een organisatie een eigen catalogue heeft kan van deze catalogue informatie overgenomen worden waarbij de metadata records worden gekopieerd naar bijvoorbeeld het nationaal georegister. De harvest operatie van de catalogue service is erop gericht om records in het nationaal georegister te creëren of te updaten. Hiervoor wordt de CSW standaard gebruikt. CSW staat voor Catalogue Services for the Web en is een zoek interface voor catalogues ontwikkeld door het Open Geospatial Consortium. NGR ondersteunt versie 2.0.2 ISO AP van deze standaard.

 

Bij het processen van een harvest request door de CSW worden de volgende stappen doorlopen:
1. De CSW gaat naar de URI waar de metadata resource is vastgelegd
2. Parses de resource
3. Creëert of verandert metadata records in de catalogue om de resource te registeren.

 

  Geharvest vraagpatroon.jpg

 

Als recource type, die aangeeft welk type resource geharvest wordt, kan dan http://www.opengis.net/cat/csw/2.0.2 opgenomen worden.

 

Deze operatie wordt een keer uitgevoerd of periodiek (elke nacht) afhankelijk van de instellingen die de beheerder van de catalogue heeft ingeregeld.

 

In het CSW 2.0.2 publicatie schema is de harvesting operatie als volgt gedefinieerd:

Harvestendefcsw.jpg


Capabilities harvesten


Het is de functionaliteit van de catalogue om de capabilities te kunnen harvesten. De meeste catalogues kunnen bijvoorbeeld de URL opslaan en dan periodiek de metadata harvesten. De metadata uit de capabilities elementen worden getransformeerd naar een CSW2 AP ISO document .

Capabilitiestoisoap.jpg

XSLT transformatie van WMS capabilities document naar CSW2 AP ISO document


In het CSW 2.0.2 publicatie schema is de harvesting operatie voor dit type resource als volgt gedefinieerd:

  Harvestcsw.jpg

Dit bevraagt de catalogue service om de resource “http://www.myhost.com?Service=WMS&Request=GetCapabilities” van het type “http://www.opengis.net/wms” periodiek elke maand (P1M) te harvesten. Het mime type van de resource is “application/xml”.


Gedistribueerd vraagpatroon

 
Hoewel gedistribueerd zoeken niet tot harvesten behoort in de zin van een catalogue service, wordt het wel beschreven in deze paragraaf. De reden daarvoor is dat deze functionaliteit vaak wordt beschreven als catalogue-to-catalogue harvesting, maar niet te vergelijken is met de harvesting operaties beschreven in de voorgaande paragrafen.

Gedistribueerd vraagpatroon.jpg

Gedistribueerd zoeken: de geformuleerde vraag wordt naar de lokale en elke andere bekende catalogus gestuurd met een specifieke bevraagdiepte (met betrekking tot een specifieke netwerktopologie). De resultaten worden geïntegreerd en getoond aan de cliënt. De metadata records van andere catalogues worden niet gekopieerd naar de eigen catalogue. Catalogue records blijven bij de bron.

De gedistribueerde vraag is, op interface niveau, onderdeel van de GetRecords operatie van de catalog service. Deze operatie is onderdeel van de Discovery klasse (en niet van de Manager klasse zoals de harvest operatie).

In het CSW 2.0.2 publicatie schema is de gedistribueerde vraag operatie als volgt gedefinieerd:

Gedistribueerd vraag voorb.jpg

Het element “DistributedSearchType” bevraagt de catalog service om de “GetRecords”-request door te geven aan alle catalog services.

Deze functionaliteit kan worden uitgebreid met een catalog implementatie om metadata records te ”cachen” van een remote catalog. Dit is dan vergelijkbaar met catalogue-catalogue harvesting. Dit kan alleen worden uitgevoerd op implementatie niveau; dit is geen functionaliteit gedefinieerd op specificatie niveau en dus geen standaard benadering.