Entreposage et fouille de données

Code UE : USID13

  • Cours
  • 5 crédits

Responsable national

Michel BERA

Responsable opérationnel

Michel BERA

Objectifs pédagogiques

Constituer une initiation pragmatique à l'utilisation d'un outil devenu indispensable : la fouille de données, à partie des données que l'on trouve de plus en plus dans les mondes du Big Data et de l'Open Data. Dans ce contexte, la maîtrise des principes et des outils, qui constituent la " data science " constitue un atout majeur d'employabilité pour les années à venir.
Il s'agit d'ouvrir les compétences de data science au plus grand nombre en donnant une première compréhension claire : les possibilités offertes par les outils, afin d'exploiter des données et de construire des réponses pertinentes à des problématiques courantes de divers domaines concrets. Les enseignements proposés procéderont par l'exemple, en s'appuyant sur des cas de données réelles.
Les principaux packages R de data science seront utilisés, à un niveau élémentaire, et leurs outils seront détaillés dans des exemples concrets, pour ces premier pas vers l'acquisition de connaissances théoriques sur les principes de constructions de modèles à partir de la data science, et le développement de savoir-faire pratiques de modèles directement utilisables en situation professionnelle

Contenu

Les données : premières sources
fichiers texte, fichiers Excel
les premières passerelles vers les données plus " lourdes " (ex : XML)

Méthodologie générale : l'approche " data driven " : " laisser parler les données "
comparaison avec la statistique traditionnelle
la balance délicate entre " fit " et " robustesse "

Pré-traitement des données
l'importance de la qualité des données : " garbage in, garbage out "
Techniques d'appréhension des valeurs manquantes ou aberrantes
Techniques de construction de bases de travail (" analytical data sets ")

Données et techniques de fouille (on utilisera des packages R sur des exemples concrets)
Méthodes non supervisées :
Analyse factorielle élémentaire
Règles d'association, autres outils
Méthodes supervisées :
Ridge regression, regression PLS
Arbres de décision,
Réseaux de neurones
Méta-algorithmes de renforcement d'un modèle :
boosting, bagging, bootstrap
Fouille dans de nouveaux types de données et méthodes associées :
Données textuelles
Images et Multimedia
Données symboliques
Réseaux sociaux

Outils :
Environnements R et Excel
Outils spécifiques : SAS-EM, SAP-Analytics, SPAD - quelques exemples
Lecture de fichiers plus complexes

Modalité d'évaluation

Production personnelle d'un projet, à partir de données réelles et originales

Cette UE apparaît dans les diplômes et certificats suivants

Chargement du résultat...
Patientez
Type
Intitulé
Equipe pédagogique
Modalité(s) / Lieu(x)
Code
Equipe pédagogique Stratégies
Modalité(s) / Lieu(x)
  • Enseignée en formation présentielle et/ou partiellement à distance : CFA Ile de France
  • Type Intitulé Equipe pédagogique Modalité(s) / Lieu(x) Code

    Contact

    EPN15 -INTD
    2 rue conté
    75003 Paris
    Tel :01 58 80 84 51
    Anne-Solenne Marroulle

    Voir les dates et horaires, les lieux d'enseignement et les modes d'inscription sur les sites internet des centres régionaux qui proposent cette formation

    Enseignement non programmé en 2017/2018