# Apprentissage non-supervisé

L'apprentissage non-supervisé se scinde en deux grandes catégories :

### La réduction de dimensions (*dimensionality reduction*)

- Principal Component Analysis (PCA)
- t-SNE, UMAP

### Le partitionnement des données (*clustering*)

- K-Means
- DBSCAN
- Gaussian Mixtures

### Imports

In [None]:
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt

plt.style.use('fivethirtyeight')

## Préambule

- représentation des données
- `scikit-learn`
- malédiction de la dimension

### Représentation des données

#### Représentation matricielle (convention)

En machine learning, on représente généralement les données présentées aux algorithmes sous forme matricielle.

`X` est une matrice de taille (`n_samples`, `n_features`), représentant des données qui peuvent être associées à une étiquette représentée par un vecteur `y` de taille `n_samples`.

<center><img src="img01/matrix-representation.png"></center>

#### Séparation du jeu de données ab-initio

Afin de pouvoir calculer l'efficacité des algorithmes et les comparer entre eux, on sépare **toujours** le jeu de données en deux parties dénotées `train` et `test`.

L'entrainement des algorithmes `fit()` se fait sur les données d'entrainement `X_train`. 

Ces algorithmes sont ensuite appliquées aux données de test `X_test` pour l'évaluation.

<center><img src="img01/train-test-split.png"></center>

Evaluer sur des données qui n'ont pas servi à l'entrainement permet d'évaluer la capacité de **généralisation** du modèle aux données.

Les répartitions les plus communes entre train et test sont de 80%-20% et 70%-30%, en fonction de la taille du jeu de données. 

**Plus on a de données, plus on peut prendre un jeu de test important.**

### scikit-learn

<center><img src="img01/sklearn_logo.png"></center>

Dans ce cours nous allons aborder l'utilisation de la librairie de machine learning principale en Python : `scikit-learn`.

```
import sklearn

# ou de manière générale 

from sklearn.submodule1 import AlgoA
from sklearn.submodule2 import AlgoB
```

L'avantage de `scikit-learn` est sa simplicité de prise en main. C'est une collection d'algorithmes robustes et éprouvés de machine learning, codés sous forme de classes Python.

L'utilisation est à peu près toujours la même : 

1. on instancie un algorithme avec ses paramètres
    ```
    mon_algo = AlgorithmeA(param1, param2)
    ```
2. on entraîne l'algorithme avec notre vecteur de données `X_train`
    ```
    mon_algo.fit(X_train)
    ```
3. on peut ensuite appliquer notre algorithme entraîné sur un nouveau jeu de données `X_test` et sauver le resultat comme `X_trans`
    ```
    X_trans = algo.transform(X_test)
    ```

<center><img src="img01/unsupervised-ml-workflow.png"></center>

### Malédiction de la dimension

Chaque dimension ajoutée à l'espace des paramètres en fait grandir le volume de manière exponentielle.

100 points équirépartis sur une longueur unitaire $[0, 1]$ sont distants de $\Delta_{1D}=10^{−2}=0.01$.

Pour conserver la même densité de points pour un hypercube **unitaire** de dimension 10, il faut $100^{10} = 10^{20}$ points.

A titre de comparaison, on estime a $10^{21}$ le nombre de grains de sables sur les plages de la Terre combinées.

<center><img src="img01/sampling_sphere.png"></center>

## La réduction de dimensions

### Pour quoi faire ?

- compresser l'information
- réduire le bruit dans les données
- accélérer la convergence du modèle
- éliminer des paramètres inintéressants
- visualiser les données (2D / 3D)

### Approches principales

- projections

    https://scikit-learn.org/stable/modules/decomposition.html

- apprentissage de *manifold* (*manifold learning*)

    https://scikit-learn.org/stable/modules/manifold.html

### Création du jeu de données

In [None]:
X = (np.random.rand(2, 2) @ np.random.randn(2, 200)).T

plt.scatter(X[:, 0], X[:, 1]);

## Principal Component Analysis or PCA

L'analyse en composantes principales se base sur la recherche des directions dans l'espace à N dimensions dont la variance est maximale. 

Une fois ces directions trouvées, on peut classer les dimensions suivant l'importance relative de leur variance.

Réduire la dimension du problème revient dès lors à supprimer les dimensions de variance minimal pour ne conserver que celles sur lesquelles les données sonts épars.

In [None]:
from sklearn.decomposition import PCA

pca = PCA(n_components=2)

pca.fit(X)

In [None]:
print(pca.components_)

In [None]:
print(pca.explained_variance_)

### Visualisons ces axes qui maximisent la variance

In [None]:
def draw_vector(v0, v1, ax=None):
    ax = ax if ax is not None else plt.gca()
    arrowprops = dict(arrowstyle='->', color='k', lw=2, shrinkA=0, shrinkB=0)
    ax.annotate('', v1, v0, arrowprops=arrowprops)

In [None]:
plt.scatter(X[:, 0], X[:, 1])
for length, vector in zip(pca.explained_variance_, pca.components_):
    v = vector * 3 * np.sqrt(length)
    draw_vector(pca.mean_, pca.mean_ + v)

### Transformons les données pour les exprimer suivant les nouveaux axes

In [None]:
Y = pca.fit_transform(X)
plt.scatter(Y[:, 0], Y[:, 1])

### Si maintenant on cherche à réduire la dimension, on projette suivant l'axe de plus faible variance

In [None]:
# On choisit de ne conserver qu'1 dimension
pca = PCA(n_components=1)
# On calcule la transformation
Y = pca.fit_transform(X)
# Puis on reprojette dans l'espace initial pour visualiser
X2 = pca.inverse_transform(Y)

In [None]:
plt.scatter(X[:, 0], X[:, 1], label='données initiales')
plt.scatter(X2[:, 0], X2[:, 1], label='données après PCA')
plt.legend(frameon=False, loc=4)

### Passons à des données plus complexes

In [None]:
from sklearn.datasets import load_digits
digits = load_digits()

In [None]:
fig, axes = plt.subplots(3, 5, figsize=(10, 6), subplot_kw={'xticks': [], 'yticks': []})
for i, ax in enumerate(axes.flat):
    ax.imshow(digits.images[i], cmap='binary_r')
plt.grid(False)

In [None]:
plt.figure(figsize=(10,6));projected_data = PCA(2).fit_transform(digits.data)
plt.scatter(projected_data[:, 0], projected_data[:, 1], c=digits.target, edgecolor='none', alpha=0.5, cmap=plt.cm.get_cmap('cubehelix', 10))
plt.colorbar()

### Comment savoir combien de composantes garder ?

In [None]:
pca = PCA().fit(digits.data)
plt.plot(np.cumsum(pca.explained_variance_ratio_))

### Réduction du bruit

In [None]:
noisy = np.random.normal(digits.data, 2)

fig, axes = plt.subplots(3, 5, figsize=(10, 6), subplot_kw={'xticks': [], 'yticks': []})
for i, ax in enumerate(axes.flat):
    ax.imshow(noisy[i].reshape(8, 8), cmap='binary_r')
plt.grid(False)

In [None]:
pca = PCA(0.65).fit(noisy)
components = pca.transform(noisy)
components.shape

In [None]:
filtered = pca.inverse_transform(components)

fig, axes = plt.subplots(3, 5, figsize=(10, 6), subplot_kw={'xticks': [], 'yticks': []})
for i, ax in enumerate(axes.flat):
    ax.imshow(filtered[i].reshape(8, 8), cmap='binary_r')
plt.grid(False)

### Avantages

- très rapide
- permet de visualiser les données facilement

### Inconvénients

- très sensible aux valeurs extrêmes
- moins efficace en présence de données sparses (beaucoup de zéros)


Autres algorithmes à voir sur https://scikit-learn.org/stable/modules/decomposition.html


## Manifold Learning

L'idée derrière l'apprentissage de manifold est de trouver un espace de faible dimension (généralement 2D) dans lequel on peut réexprimer des données qui ne sont pas linéairement séparables dans leur espace a $N$-dim, $N > 2$.

<center><img src="img01/manifold.png"></center>

### Example with t-SNE

In [None]:
from sklearn.manifold import TSNE

projected_data = TSNE(n_components=2, init='pca').fit_transform(digits.data)
plt.scatter(projected_data[:, 0], projected_data[:, 1], c=digits.target, edgecolor='none', alpha=0.5, cmap=plt.cm.get_cmap('cubehelix', 10))
plt.colorbar()

### Autres approches

- plusieurs algorithmes sont présents dans scikit-learn  
    https://scikit-learn.org/stable/modules/manifold.html
- un algorithme récent (pas encore dans `sklearn`) fait beaucoup parler de lui: **UMAP**  
    https://umap-learn.readthedocs.io/en/latest/index.html
    

## Clustering

- K-means, DBSCAN

    https://scikit-learn.org/stable/modules/clustering.html
    
- composition de gaussiennes (*Gaussian mixture*)

    https://scikit-learn.org/stable/modules/mixture.html

### Jeu de données

In [None]:
from sklearn.datasets.samples_generator import make_blobs

X, labels = make_blobs(n_samples=200, centers=3, cluster_std=0.9)

In [None]:
def plot_blobs(X, y=None, n=3):
    fig, ax = plt.subplots(figsize=(10, 8))
    if y is None:
        ax.scatter(X[:, 0], X[:, 1])
        ax.set_title("Raw data", fontsize=14)
    else:
        im = ax.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.get_cmap('viridis', n))
        plt.colorbar(im, ax=ax, values=range(n))
        ax.set_title("Labeled data", fontsize=14)

In [None]:
plot_blobs(X)

In [None]:
plot_blobs(X, labels, 3)

### K-Means

https://www.naftaliharris.com/blog/visualizing-k-means-clustering/

In [None]:
from sklearn.cluster import KMeans

kmeans = KMeans(n_clusters=3).fit(X)
y_kmeans = kmeans.predict(X)

In [None]:
plot_blobs(X, y_kmeans, 3)

In [None]:
kmeans = KMeans(n_clusters=2).fit(X)
y_kmeans = kmeans.predict(X)
plot_blobs(X, y_kmeans, 2)

### DBSCAN

https://www.naftaliharris.com/blog/visualizing-dbscan-clustering/

In [None]:
from sklearn.cluster import DBSCAN

dbscan = DBSCAN(eps=0.7, min_samples=6)
y_dbscan = dbscan.fit_predict(X)

print(f"n_clusters = {len(set(labels))}")

In [None]:
plot_blobs(X, y_dbscan, len(set(labels)))

DBSCAN a l'avantage de ne pas demander d'avance le nombre de clusters, mais nécessite de trouver les valeurs adéquates pour epsilon et n_min.

### Ajoutons de la corrélation à nos données

In [None]:
X2 = X @ np.random.rand(2, 2)

plot_blobs(X2, labels)

### Comment se comporte un algo comme K-Means sur données très corrélées ?

In [None]:
y2_kmeans = KMeans(n_clusters=3).fit_predict(X2)
plot_blobs(X2, y2_kmeans)

Comme on aurait pu l'imaginer, la distance euclidienne sur des données très corrélées n'est pas forcément un bon estimateur de groupe. Voyons si d'autres algorithmes ne seraient pas plus appropriés.

## Gaussian mixture models (GMM)

Un _Gaussian mixture model_ tente de représenter la distribution des données par un ensemble de gaussiennes à N dimensions. Il devrait naturellement être plus flexible pour représenter des données très corrélées.

<center><img src="img01/gmm.png"></center>

In [None]:
from sklearn.mixture import GaussianMixture

gmm = GaussianMixture(n_components=3).fit(X2)
y2_gmm = gmm.predict(X2)

In [None]:
plot_blobs(X2, y2_gmm)

On retrouve le même résultat qu'avec le K-Means sur nos données très corrélées. Notre cas est assez particulier car la correlation a été ajoutée artificiellement avec une matrice de covariance et appliquée à l'ensemble des groupes. Si on le spécifie à l'algorithme, on lui permet de s'adapter.

In [None]:
gmm = GaussianMixture(n_components=3, covariance_type='tied').fit(X2)
y2_gmm = gmm.predict(X2)

In [None]:
gmm.predict_proba(X2)[:5].round(3)

In [None]:
plot_blobs(X2, y2_gmm)

## Conclusion

Les algorithmes d'apprentissage non-supervisé sont très faciles d'utilisation et permettent d'explorer la distribution de nos données ainsi que les groupes et corrélations sous-jacentes. Comme nous le verrons par la suite, ils sont très utilisés pour préparer les données aux tâches d'apprentissage supervisé.