Distributions associés aux jeux de données
Besoins
Ce ticket décrit l'existant (et les propositions) de distributions - représentation spécifique d'un dataset- pour un jeux de données.
Exemples pour Ozcar- Theia
Proposition de description de 4 distributions pour chaque dataset (un dataset corresponds à la description d'une série temporelle de plusieurs variables mesurés à une station) :
- Distribution format CSV : 1 fichier zip avec l'ensemble de fichiers csv (1 csv = 1 time serie pour 1 variable) pour la station
- Distribution format NetCDF : 1 fichier NetCDF avec les time series de l'ensemble des variables pour la station
- Distribution format parquet : 1 fichier zip avec l'ensemble de fichiers parquet/S3
- Distribution associé à un catalogue Intake : cela permet de descendre en granularité jusqu'au niveau fichier, en passant par un json contenant le catalogue Intake des fichiers associés au dataset.
à terme, des ressources DataService vont être disponibles via l'API standard OGC STA (SensorThings) pour l'accès directe aux données.
Pratique en cours catalogue Odatis :
- 1 version => 1 Jeu De Données (JDD) => 1 fiche
- 1 fiche incrémentée avec chaque nouvelle version / fichier du JDD, la fiche en question corresponds au niveau collection; ex. série temporelle avec des mises à jour annuelles.
Edited by Viqui Agazzi