Distributions associés aux jeux de données

Besoins

Ce ticket décrit l'existant (et les propositions) de distributions - représentation spécifique d'un dataset- pour un jeux de données.

Exemples pour Ozcar- Theia

Proposition de description de 4 distributions pour chaque dataset (un dataset corresponds à la description d'une série temporelle de plusieurs variables mesurés à une station) :

Distribution format CSV : 1 fichier zip avec l'ensemble de fichiers csv (1 csv = 1 time serie pour 1 variable) pour la station
Distribution format NetCDF : 1 fichier NetCDF avec les time series de l'ensemble des variables pour la station
Distribution format parquet : 1 fichier zip avec l'ensemble de fichiers parquet/S3
Distribution associé à un catalogue Intake : cela permet de descendre en granularité jusqu'au niveau fichier, en passant par un json contenant le catalogue Intake des fichiers associés au dataset.

à terme, des ressources DataService vont être disponibles via l'API standard OGC STA (SensorThings) pour l'accès directe aux données.

Pratique en cours catalogue Odatis :

1 version => 1 Jeu De Données (JDD) => 1 fiche
1 fiche incrémentée avec chaque nouvelle version / fichier du JDD, la fiche en question corresponds au niveau collection; ex. série temporelle avec des mises à jour annuelles.

Edited Feb 16, 2024 by Viqui Agazzi