ATD pour data scientists

La plupart des introductions à l'analyse topologique des données s'arrêtent à l'image : « regardez, les diagrammes de persistance sont jolis ». Celle-ci, non. À la fin du troisième jour, vous aurez construit un pipeline ATD complet sur des données réelles, compris pourquoi le théorème de stabilité a son importance en pratique, et produit une vectorisation qui alimente un classifieur que vous aurez entraîné vous-même.

La formation s'adresse à des data scientists qui travaillent déjà avec des données et veulent un outil qui complète — et non remplace — les méthodes qu'ils utilisent. Nous supposons que vous pouvez lire une notation mathématique au besoin, et nous attendons de vous que vous écriviez du code à chaque session. Vous repartirez avec un dépôt fonctionnel, un projet noté, et une réponse défendable à la question que votre équipe vous posera : « d'accord, mais quand est-ce que ça aide réellement ? »

Aperçu du programme

Sur trois jours consécutifs (six demi-journées), nous construisons le pipeline GUDHI / Ripser / giotto-tda de bout en bout — des nuages de points, à travers les filtrations, jusqu'aux diagrammes de persistance, puis aux caractéristiques utilisables par les modèles d'apprentissage. La formation se tient en présentiel à AIRINA Labs, Cotonou. Cohorte de 12 participants (minimum 8). Supports et références en anglais ; sessions orales en FR ou EN selon la composition de la cohorte.

Formateur principal : Yaé Ulrich Gaba, directeur d'AIRINA Labs, mathématicien travaillant en topologie, géométrie et ATD appliquée. Co-auteur de The Shape of Data (No Starch Press) et de plus de 23 articles en topologie, ATD et mathématiques appliquées. Assistant : un chercheur senior d'AIRINA ou un alumni AIMS affilié, nommé deux semaines avant chaque cohorte.

Structure du programme

Jour 1 — Des nuages de points aux filtrations. Complexes simpliciaux et filtrations le matin ; homologie persistante en code l'après-midi (GUDHI, Ripser, premiers exercices sur cercles bruités, tore double, projection MNIST).
Jour 2 — Stabilité, interprétation, vectorisation. Le théorème de stabilité et ses garanties pratiques le matin ; vectorisation pour pipelines ML (persistence images, paysages, courbes de Betti) l'après-midi.
Jour 3 — ATD sur données réelles, projet final. Trois études de cas (séries temporelles, graphes, images) le matin ; projet final et soutenance de 30 minutes l'après-midi.
Horaires. 3 jours consécutifs, 9h–17h heure locale, avec 90 minutes de pause-déjeuner. Supports et dépôt partagés deux semaines avant ; tout reste ouvert après la cohorte.

Certificat

Sous réserve de la validation du projet final et de la soutenance, les participants reçoivent le certificat AIRINA Fondamentaux de l'ATD — noté, avec les commentaires des formateurs sur le projet inclus.

Acquis pédagogiques

À l'issue du programme, les participants sauront :

Construire des complexes de Vietoris–Rips, Čech et alpha à partir de nuages de points, et expliquer pourquoi vous avez choisi l'un plutôt que les autres pour un jeu de données donné.
Calculer l'homologie persistante avec GUDHI et Ripser, lire les diagrammes de persistance et les codes-barres, et reconnaître les artefacts dus à un mauvais choix de paramètres.
Énoncer le théorème de stabilité dans vos propres mots, et expliquer ce qu'il garantit et ne garantit pas pour le ML en aval.
Vectoriser les diagrammes de persistance en caractéristiques utilisables pour le ML (persistence images, paysages, courbes de Betti) — et choisir entre elles selon le modèle aval.
Faire tourner un pipeline ATD en giotto-tda, des données brutes à un classifieur scikit-learn, et le comparer honnêtement à une référence non topologique.
Identifier les cas où l'ATD est le bon outil et ceux où elle ne l'est pas. Les deux arrivent.

Programme détaillé

Jour 1 · Matin · Complexes simpliciaux et filtrations

Complexes simpliciaux au tableau. Vietoris–Rips, Čech et alpha — ce que chacun capte et où chacun craque. Codage en direct d'une filtration de Rips sur un jeu de données 2D-jouet ; l'instant où le premier trou apparaît.

Jour 1 · Après-midi · Homologie persistante en code

Homologie persistante calculée à la main sur un exemple à 6 points. Puis le même calcul dans GUDHI et Ripser, et une discussion sur pourquoi Ripser est rapide. Lecture des diagrammes de persistance et des codes-barres. Premiers exercices sur des nuages réels : cercles bruités, tore double, projection MNIST.

Jour 2 · Matin · Le théorème de stabilité et ce qu'il apporte

La distance bottleneck, la distance de Wasserstein sur les diagrammes. Énoncé du théorème de stabilité de deux façons — la formelle et celle du praticien. Modes d'échec courants : ignorer les barres infinies, sur-faire confiance aux barres courtes, confondre bruit et signal. Les graphiques de diagnostic à toujours regarder.

Jour 2 · Après-midi · Vectorisation pour pipelines ML

Persistence images, paysages, courbes de Betti, signatures de persistance — ce qu'est chacun, ce qu'il préserve, et quand choisir lequel. Brancher les vectorisations dans des pipelines scikit-learn via giotto-tda. Sensibilité aux hyperparamètres : ce qu'il faut explorer en grille et ce qu'il faut fixer.

Jour 3 · Matin · Trois études de cas réelles

Séries temporelles avec filtrations cubiques (détection de régime de volatilité) ; graphes avec homologie persistante des graphes pondérés (anomalies dans les réseaux de transactions) ; images avec filtrations en sous-niveaux (classification de textures et de microstructures). Chaque étude de cas avec sa référence honnête et une discussion sur ce que l'ATD a vraiment apporté.

Jour 3 · Après-midi · Projet final + soutenance

Les participants choisissent parmi trois jeux de données proposés (ou apportent le leur, sur accord préalable) et construisent un pipeline ATD de bout en bout. Soutenance de 30 minutes devant les formateurs. Le livrable est un dépôt Git contenant la préparation des données, le calcul topologique, la vectorisation, le modèle aval, et une comparaison honnête avec une référence non topologique. Critères de validation : un pipeline fonctionnel, une justification topologique claire de vos choix, et une réponse défendable sur l'utilité de l'ATD.

À qui s'adresse cette formation

Cette formation s'adresse à des data scientists en activité qui veulent ajouter un outil topologique rigoureux à leur boîte à outils — pas un cours magistral généraliste sur la topologie algébrique.

Data scientists, statisticiens et ingénieurs ML en banques, IMF, opérateurs mobile money, opérateurs télécoms et autres acteurs du secteur financier.
Doctorants et étudiants en master à profil quantitatif — alumni AIMS, masters et doctorats en mathématiques, statistiques, informatique.
Chercheurs d'autres domaines (biologie computationnelle, sciences des matériaux, neurosciences) qui veulent une initiation pratique avec du code, pas un cours magistral généraliste.

Prérequis

Python pratique. À l'aise avec NumPy, pandas, scikit-learn au niveau « je peux entraîner une forêt aléatoire sur un CSV sans consulter la doc ».
Mathématiques. Calcul différentiel multivarié, algèbre linéaire jusqu'à la décomposition propre. Nous ne dériverons rien qui demande plus.
Topologie. Aucune topologie préalable n'est requise. Nous construisons ce qu'il faut à partir de zéro le premier matin.
Matériel. Votre ordinateur portable avec un environnement Python fonctionnel. Instructions d'installation envoyées 2 semaines avant la cohorte.

Sélection

Pour les cohortes en sursouscription, les candidats répondent à une courte question d'orientation issue de leur parcours déclaré. Priorité aux candidats de la zone BCEAO et aux groupes sous-représentés dans les domaines techniques.

Brochure

La brochure détaillée de la formation (PDF, FR/EN) est envoyée sur demande — elle contient le programme détaillé jour par jour, le profil des formateurs, des exemples de projets finaux, et le calendrier de la cohorte.

Pour recevoir la brochure actuelle, écrivez à contact@airina.africa avec « ATD — demande de brochure » en objet. La brochure est mise à jour à chaque cohorte ; nous envoyons la version en cours au moment de votre demande.