README.md 3.81 KB
Newer Older
NAVRATIL VINCENT's avatar
NAVRATIL VINCENT committed
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
# Initiation aux data science à l'aide de R et du tidyverse

contact@prabi.fr

![L'univers bien rangé](https://thinkr.fr/wp-content/uploads/2019/07/thinkr_tidyverse-first_header.jpg)

## Remerciements

```
If you use the computing resources of LBBE / PRABI, thank you to make it
appear in your scientific publications by including the following sentence:
"This work was performed using the computing facilities of the CC LBBE/PRABI."
```

## Prérequis

- Initiation R à travers R Studio


## La pédagogie "tydiverse first"
NAVRATIL VINCENT's avatar
NAVRATIL VINCENT committed
21

NAVRATIL VINCENT's avatar
NAVRATIL VINCENT committed
22
https://www.tidyverse.org/
NAVRATIL VINCENT's avatar
NAVRATIL VINCENT committed
23 24 25 26

R repose sur environ 13000 packages référencés sur l'archive du cran https://cran.r-project.org/web/packages/

Le langage R repose sur de nombreuses commandes/objets de base qu'il faut assimiler avant de rentrer dans le vif du sujet.
NAVRATIL VINCENT's avatar
NAVRATIL VINCENT committed
27
https://larmarange.github.io/analyse-R/
NAVRATIL VINCENT's avatar
NAVRATIL VINCENT committed
28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51


En 2016 Hadley Wickham propose un ensemble de package R répondant à une grammaire cohérante, lisible et intuitive pour l'analyse de données / data science, dont notemment:

- importation des données
- la manipulation des données
- la visualisation des données
- la modélisation des données
- l'exportation des données

![](https://juba.github.io/tidyverse/resources/logos/core_packages.png)

Ces packages sont aujourd'hui regroupés sous le package tidyverse, on y retrouve :
- ggplot2 (visualisation)
- dplyr (manipulation des données)
- tidyr (remise en forme des données)
- purrr (programmation)
- readr (importation de données)
- tibble (tableaux de données)
- forcats (variables qualitatives)
- stringr (chaînes de caractères)

Nous allons tenter d'apprivoiser R à l'aide de tidyverse. https://thinkr.fr/pedagogie-de-la-formation-au-langage-r/

NAVRATIL VINCENT's avatar
NAVRATIL VINCENT committed
52 53
https://thinkr.fr/c-est-quoi-le-tidyverse/

NAVRATIL VINCENT's avatar
NAVRATIL VINCENT committed
54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77
Tout d'abord nous allons installer le package `tidyverse` sous R/RStudio:

```R
install.packages("tidyverse")
```

Pour charger de librairie on utilise la fonction `library` de R avec `tidyverse` comme argument:

```R
library(tidyverse)
── Attaching packages ──────────────────────────────────────────── tidyverse 1.3.1 ──
 ggplot2 3.3.5      purrr   0.3.4
 tibble  3.1.5      dplyr   1.0.7
 tidyr   1.1.4      stringr 1.4.0
 readr   2.0.2      forcats 0.5.1
── Conflicts ─────────────────────────────────────────────── tidyverse_conflicts() ──
x dplyr::filter() masks stats::filter()
x dplyr::lag()    masks stats::lag()
```



Nous allons utiliser le jeux de données `iris` pour illustrer les différentes fonctionalités de base de R.
https://fr.wikipedia.org/wiki/Iris_de_Fisher
NAVRATIL VINCENT's avatar
NAVRATIL VINCENT committed
78
http://cbdm-01.zdv.uni-mainz.de/~galanisl/danalysis/
NAVRATIL VINCENT's avatar
NAVRATIL VINCENT committed
79 80 81 82 83

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/5/56/Kosaciec_szczecinkowaty_Iris_setosa.jpg/440px-Kosaciec_szczecinkowaty_Iris_setosa.jpg" width="100px"> <i>Iris setosa</i><br>
<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/4/41/Iris_versicolor_3.jpg/440px-Iris_versicolor_3.jpg" width="100px"> <i>Iris versicolor</i><br>
<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/9/9f/Iris_virginica.jpg/440px-Iris_virginica.jpg" width="100px"> <i>Iris virginica</i><br>

NAVRATIL VINCENT's avatar
NAVRATIL VINCENT committed
84
![](http://cbdm-01.zdv.uni-mainz.de/~galanisl/danalysis/images/iris_flower.png)
NAVRATIL VINCENT's avatar
NAVRATIL VINCENT committed
85 86 87 88 89 90 91

Présentation des principes du tidyverse (https://juba.github.io/tidyverse/06-tidyverse.html)

- tidy data et tibble vs data.frame (voir chappitre 6.3, 6.4)

```R
class(iris)
NAVRATIL VINCENT's avatar
NAVRATIL VINCENT committed
92 93 94 95 96 97 98 99 100
tidyris <- as_tibble(iris)
class(tidyris)

```

#ggplot2

```R
ggplot(tidyris) + geom_histogram(aes(x = Sepal.Length))
NAVRATIL VINCENT's avatar
NAVRATIL VINCENT committed
101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116

```

#dplyr

```R

slice(iris,10)
slice(iris,10)

```

https://juba.github.io/tidyverse/index.html
https://larmarange.github.io/analyse-R/introduction-au-tidyverse.html
https://jcoliver.github.io/learn-r/