Intelligence artificielle
Analyse de données
Application réseau social
Statistique descriptive
Data Mining

Durée : 50 heures (+/- 10%)
A la carte
Soir & samedi
6 crédits
Présentiel, Distanciel

Présentation

Public, conditions d'accès et prérequis

Prérequis

Bonnes connaissances mathématiques et statistiques générales, maîtrise de méthodes statistiques pour la fouille de données, connaissance de techniques de gestions de données massives faiblement structurées, connaissance de techniques de passage à l'échelle par distribution. Connaissance d'au moins un langage de programmation.
Vous êtes encouragés à évaluer votre capacité à suivre cette UE en répondant au questionnaire en ligne accessible sur https://cedric.cnam.fr/vertigo/Cours/RCP216/questionnaire.html. Vous pouvez répondre sans vous identifier, le résultat vous est donné immédiatement et n'est pas enregistré.

Objectifs

Cet enseignement s'intéresse à l'impact des caractéristiques des données massives (volume, variété, vélocité) sur les méthodes de fouille de données. Sont examinées les approches actuelles qui permettent de faire passer à l'échelle les méthodes de fouille, en insistant sur les spécificités des opérations de fouille en environnement distribué.
Les caractéristiques mentionnées sont ensuite considérées de façon plus spécifique pour certains problèmes fréquents dans le traitement des données massives. Sont ainsi abordés les systèmes de recommandation et la recherche efficace par similarité, la classification automatique et l'apprentissage supervisé sur une plate-forme distribuée, les opérations spécifiques au traitement des données textuelles souvent hétérogènes, les implications de la vélocité sur la fouille de flux de données, l'analyse de grands graphes et de réseaux sociaux.
L'UE s'intéresse également au rôle de la visualisation et de l'interaction, non seulement dans la présentation des résultats mais aussi dans les opérations de fouille de données.

L'avis des auditeurs

Les dernières réponses à l'enquête d'appréciation pour cet enseignement : Fiche synthétique au format PDF

Présence et réussite aux examens

Pour l'année universitaire 2023-2024 :

Nombre d'inscrits : 68
Taux de présence à l'évaluation : 54%
Taux de réussite parmi les présents : 89%

Compétences et débouchés

Compétences

Réaliser la fouille de données massives en utilisant une plate-forme de calcul distribué (Spark) via JupyterHub. Mettre en place un système de recommandation. Réaliser la fouille de textes en exploitant des encodages (word embeddings) et des modèles de langage (language models) en se servant d'une bibliothèque logicielle évoluée (SparkNLP). Mettre en œuvre une visualisation pertinente des données. Traiter des données en flux. Construire des modèles descriptifs et décisionnels sur des données massives. Evaluer des critères observationnels d'équité des prédictions et modifier un modèle prédictif pour respecter des critères d'équité.

Parcours

Informations pratiques

Contact

Département : EPN05 - Informatique
Tel : 01 58 80 87 99
Email : jean-mathieu.codasse@lecnam.net
Adresse : 2 rue Conté - 75003 Paris

Retrouvez cette formation en centre :

Lieux de formation

Liban
Paris

Programme

Contenu

1. Introduction : applications, typologie des données, typologie des problèmes
2. Approches : réduction de la complexité, distribution
3. Passage à l'échelle de quelques problèmes fréquents
            a. Recherche par similarité, systèmes de recommandation
            b. Classification automatique
            c. Fouille de données textuelles
            d. Fouille de flux de données
            e. Apprentissage supervisé à large échelle
            f. Fouille et visualisation de graphes et réseaux sociaux
4. Visualisation d'information : historique, applications, outils
5. Aspects éthiques dans la fouille de données

Le cours est complété par des travaux pratiques (TP) permettant de mettre en pratique des techniques présentées. Ces TP seront réalisés à l'aide de Apache Spark pour la fouille de données et de réseaux sociaux, et à l'aide de Gephi pour la visualisation de graphes. Pour les travaux pratiques comme pour le travail sur le projet les auditeurs peuvent utiliser le JupyterHub du Cnam.
Les supports de cours et de TP, ainsi que d'autres explications concernant le déroulement de l'UE sont accessibles à partir de https://cedric.cnam.fr/vertigo/Cours/RCP216/

Modalités d'évaluation

Note finale = ((note de projet + note d'examen) / 2).

Bibliographie

Ryza, S., U. Laserson, S. Owen and J. Wills. . Advanced Analytics with Spark. O'Reilly.
A. Rajaraman and J. D. Ullman. . Mining Massive Datasets. Cambridge University Press, New York, NY, USA.

Ces formations pourraient vous intéresser

- Intelligence artificielle
Entrée Niveau 6 (Bac+3)
Master Informatique parcours Traitement de l'information et exploitation des données En alternance à Albi

Master, MR11604C

120 crédits Alternance 2026/27 2027/28 2028/29

Midi-Pyrénées
Voir la formation

Mis à jour le 18 juillet 2026 Voir la formation
- Intelligence artificielle
- Algorithme
- Recherche opérationnelle
- Langage Python
- Data Mining
Entrée Niveau 5 (Bac+2)
Diplôme d'ingénieur Spécialité informatique parcours Intelligence Artificielle et Optimisation

Diplôme d'ingénieur, CYC9102A

180 crédits Distanciel A la carte 2026/27 2027/28 2028/29

Auvergne-Rhône-Alpes, Madagascar, Midi-Pyrénées
Voir la formation

Mis à jour le 18 juillet 2026 Voir la formation
- Intelligence artificielle
- Data Mining
- Data science
- Analyse de données
Entrée Niveau 6 (Bac+3)
Master Informatique parcours Traitement de l'information et exploitation des données

Master, MR11604A

120 crédits Distanciel Package 2026/27

Paris
Voir la formation

Mis à jour le 18 juillet 2026 Voir la formation
- Intelligence artificielle
- Télécommunication
Entrée Niveau 5 (Bac+2)
Diplôme d'ingénieur spécialité Science de la donnée et intelligence artificielle option Industrie 4.0 en apprentissage à Chalon sur Saône

Diplôme d'ingénieur, ING7100B

180 crédits Alternance 2026/27 2027/28 2028/29

Bourgogne-Franche-Comté
Voir la formation

Mis à jour le 18 juillet 2026 Voir la formation

Ingénierie de la fouille et de la visualisation de données massives

Envie d'en savoir plus sur cette formation ?

Master Informatique parcours Traitement de l'information et exploitation des données En alternance à Albi

Diplôme d'ingénieur Spécialité informatique parcours Intelligence Artificielle et Optimisation

Master Informatique parcours Traitement de l'information et exploitation des données

Diplôme d'ingénieur spécialité Science de la donnée et intelligence artificielle option Industrie 4.0 en apprentissage à Chalon sur Saône

Présentation

Public, conditions d'accès et prérequis

Prérequis

Objectifs

L'avis des auditeurs

Présence et réussite aux examens

Compétences et débouchés

Compétences

Parcours

Informations pratiques

Contact

Retrouvez cette formation en centre :

Lieux de formation

Programme

Contenu

Modalités d'évaluation

Bibliographie

Ces formations pourraient vous intéresser

Master Informatique parcours Traitement de l'information et exploitation des données En alternance à Albi

Diplôme d'ingénieur Spécialité informatique parcours Intelligence Artificielle et Optimisation

Master Informatique parcours Traitement de l'information et exploitation des données

Diplôme d'ingénieur spécialité Science de la donnée et intelligence artificielle option Industrie 4.0 en apprentissage à Chalon sur Saône

Ingénierie de la fouille et de la visualisation de données massives

Envie d'en savoir plus sur cette formation ?

Résultats 1 à 4 sur 51, page 1 sur 13

Résultats 1 à 4 sur 51, page 1 sur 13

Présentation

Public, conditions d'accès et prérequis

Prérequis

Objectifs

L'avis des auditeurs

Présence et réussite aux examens

Compétences et débouchés

Compétences

Parcours

Informations pratiques

Contact

Retrouvez cette formation en centre :

Lieux de formation

Programme

Contenu

Modalités d'évaluation

Bibliographie

Ces formations pourraient vous intéresser