Booster des Talents IT

Formation Data Science FondamentauxNew Formation !

image en flat design pour illustrer la science des données
Apprenez les concepts clés de la Data Science et faîtes parler vos données grâce à notre formation de 5 jours !
Cette formation constitue une initiation aux concepts, principes et outils de la science des données. Vous explorerez le processus de Data Science de bout en bout, et découvrirez les principales techniques mises en œuvre au quotidien par les data scientists. Préparation des données, visualisation, modélisation, analyse, restitution… à l’issue de notre formation vous maîtriserez l’ensemble des bonnes pratiques pour manipuler des ensembles de données et saurez les mettre à profit dans un contexte professionnel. La formation alterne entre apports théoriques, mises en pratiques et échanges sur les différents contextes des stagiaires afin de faciliter l’acquisition de savoirs. Vous travaillerez sur des problèmes concrets de Data Science, avec des données réelles, et participerez en fin de formation à une compétition sur kaggle.com ou datascience.net. Favorisez une prise de décision éclairée au sein de votre organisation grâce à notre formation Data Science de référence !
  • le 14/01/2019 à Paris
  • le 14/01/2019 à Aix-en-Provence
  • le 04/02/2019 à Grenoble
  • + 24 autres sessions
Prixà partir de
2900 €HT
RéférenceAF27240
Durée5 jours
Public Analystes, Architectes, Chefs de Projet, Développeurs, Managers
PrérequisConnaissances en programmation, statistiques et probabilités.
TP50%

Plan de Formation Data Science Fondamentaux

Introduction à la formation Data Science Fondamentaux

L’avènement de la data, nouvelle ressource stratégique pour les entreprises
Qu’entend-on par Big Data ? Architectures, stockage, traitement…
La règle des 3V : Volume, Vélocité et Variété
Cas d’usage et domaines d’application des solutions Big Data
De l’analyse statistique au deep learning : retour historique sur le traitement des données
Data Mining vs. Business Intelligence
Enjeux, perspectives et défis pour les entreprises, organisations et Etats
Gouvernance des données : cycle de vie et gestion de la qualité
Protection des données personnelles : RGPD, privacy by design et Big Data

Principes et concepts de base en Data Science

Qu’est-ce que la Data Science ? Introduction à la science des données
Définitions, terminologie : le vocabulaire de la Data Science
Data Scientist, « métier le plus sexy du XXIème siècle » ?
Comprendre le rôle, les compétences et la pensée du data scientist
Vue d’ensemble d’un processus de Data Science
Comprendre ce qu’est le Data Mining
Identifier le besoin et les objectifs métiers

La boîte à outils du Data Scientist

Panorama des outils open-source et propriétaires du marché
Les langages R, Python et leur environnement de développement (RStudio IDE, Anaconda…)
Travailler avec les notebooks Jupyter
Les principales bibliothèques pour la Data Science : Pandas, NumPy, SciKit-Learn…
Bases de données : SQL, NoSQL, MongoDB…
Visualisation : Excel, Tableau, Matplotlib, D3.js…
Installer les outils nécessaires aux travaux pratiques de la formation

Rappels mathématiques, statistiques et probabilités

Programmation avec R ou Python

Présentation d’un langage de programmation pour la Data Science
Caractéristiques du langage, structure d’un programme
Assigner des variables, types de données, opérations de base
Manipuler des listes, tableaux, fonctions, packages…

Obtention et exploration des données

Où trouver des ensembles de données ?
Sources de données publiques et privées (web, médias sociaux, IoT…)
Les entrepôts de données (datawarehouse, datalake)
Importer des données, installer des packages et des bibliothèques
Une première visualisation : identifier les caractéristiques d’un ensemble de données
Quelles sont les données pertinentes ? Données opérationnelles
Bonnes pratiques pour contrôler la qualité des données

Prétraitement de données non-structurées

Comprendre l’importance du processus de nettoyage des données
Exemple d’un ensemble de données non-structurées
Nettoyer et préparer des ensembles de données
Identifier et gérer les valeurs manquantes ou aberrantes
Considérations pour le Big Data : les outils Apache Spark, Hadoop et le modèle MapReduce
L’analyse en composantes principales (ACP, ou PCA pour Principal Component Analysis)
Feature engineering : extraction et sélection des features

Analyse et modélisation : introduction au Machine Learning

Modéliser un problème de Data Science : entrées et sorties attendues
Le Machine Learning et les capacités d’apprentissage des machines
Les différentes familles d’algorithmes : supervisé, non-supervisé, semi-supervisé, classification, régression…
L’intuition derrière un modèle d’apprentissage
Bibliothèques et packages ML pour R et Python : scikit-learn, gradDescent, TensorFlow…
Analyse et exploration statistiques de documents : le Text Mining
Gérer les gros volumes de données (Big Data)

Mise en œuvre des méthodes d’apprentissage supervisé

Estimation de valeurs : construire un modèle de régression linéaire
Régression non-linéaire, régression logistique
Interpréter les coefficients de régression
Utiliser l’algorithme du gradient (descente de gradient)
Automatiser la labélisation de nouveaux jeux de données
Vue d’ensemble des méthodes ensemblistes
Réseaux Bayésiens, classification naïve bayésienne
Arbres de décision et random forests
Machines à vecteurs de support (SVM)

Apprentissage semi-supervisé et non-supervisé, clustering

Les principaux algorithmes
Partitionnement en k-moyennes
Regroupement hiérarchique
Clustering basé sur la densité
Qu’est-ce que le Deep Learning ? Présentation des réseaux de neurones

Evaluation et tests des modèles d’apprentissage

Evaluer et améliorer des modèles : sur-apprentissage, cross-validation…
Métriques et méthodes pour la maintenance des modèles
Pourquoi la performance des modèles d’apprentissage se détériore-t-elle ?
Ajuster et valider un modèle

Visualisation et restitution : communiquer avec les données

Transformer des données en décisions
Les principes de la visualisation de données
Outils principaux de dataviz : Tableau Software, QlikSense…
Représentations graphiques de base : histogrammes, boxplots et diagrammes
Les packages R pour la datavisualization (R Markdown, Shiny…)
Visualisation interactive de données
Data storytelling : raconter une histoire avec les données

Atelier pratique : participation à une compétition de Data Science

Inscription à un projet Kaggle ou datascience.net

Défis et opportunités : la Data Science dans votre organisation

Intégrer la Data Science dans les processus actuels
Sélectionner les bons outils suivant les objectifs et le contexte professionnel
Enjeux organisationnels, éthiques et juridiques

Nos autres formations Data Science

AF27240Formation Data Science Fondamentaux New Formation ! 27 sessions prévues5 jours2900 €HT
AF27119Formation Deep Learning avec TensorFlow New Formation ! 30 sessions prévues3 jours1990 €HT
AF27098Formation Machine Learning New Formation ! 32 sessions prévues3 jours1950 €HT
AF26484Formation Microsoft Azure Machine Learning 37 sessions prévues5 jours2750 €HT
Vous pouvez également être intéressé par des formations analyse statistique, big data, data mining, data science, data scientist, data visualization, langage R, machine learning, Python, sql ou par les formations de notre filière Data Science
A propos de Data Science Fondamentaux
La Data Science consiste à utiliser des méthodes automatisées pour analyser de grandes quantités de données. Le but recherché est d’en extraire de la connaissance, et in fine de la valeur pour les entreprises. Littéralement science des données, la Data Science vise ainsi à tirer profit des gros volumes de données, rendus accessibles par l’avènement des technologies de Big Data. Le rôle de Data Scientist, au-delà du buzz word, est essentiel dans la valorisation de ces ensembles de données : au moyen d’outils mathématiques et statistiques, il ou elle est chargé.e d’explorer les données pour y identifier des tendances, et en tirer des conclusions utiles à l’entreprise. Un.e Data Scientist transforme donc les données en valeur, en les structurant et en les rendant compréhensibles. Un nombre croissant d’organisations (avec à leur tête les géants du web Google, Amazon, Facebook, Apple ou Microsoft) implémentent aujourd’hui toute une variété de techniques et processus centrés sur la data : visualisation des données, data mining, data engineering…

En amont de votre formation, nous vous invitons à visionner la vidéo ci-dessous (en anglais, sous-titres français disponibles) : Les intuitions humaines qui manquent au Big Data. Tricia Wang, qui se définit comme une sociologue des données y présente sa vision de la discipline, et explique via des anecdotes concernant Nokia, Netflix ou la Grèce Antique comment transformer ces quantités massives de données en bonnes décisions.



Finalement, quelques graphiques pour ne pas oublier que corrélation ne veut pas dire causalité ! En savoir plus
Prixà partir de
2900 €HT
RéférenceAF27240
Durée5 jours
Public Analystes, Architectes, Chefs de Projet, Développeurs, Managers
PrérequisConnaissances en programmation, statistiques et probabilités.
Travaux pratiques50%
Suivez l'une de
nos 27 sessions
le 14/01/2019 à Paris
le 14/01/2019 à Aix-en-Provence
le 04/02/2019 à Grenoble
le 04/02/2019 à Lille
le 04/02/2019 à Lyon
le 11/03/2019 à Nantes
le 25/03/2019 à Paris
le 01/04/2019 à Grenoble
le 01/04/2019 à Toulouse
le 01/04/2019 à Lyon
le 13/05/2019 à Paris
le 13/05/2019 à Aix-en-Provence
le 17/06/2019 à Lyon
le 17/06/2019 à Grenoble
le 24/06/2019 à Lille
le 15/07/2019 à Paris
le 15/07/2019 à Nantes
le 16/09/2019 à Toulouse
le 23/09/2019 à Grenoble
le 23/09/2019 à Lyon
le 14/10/2019 à Paris
le 14/10/2019 à Aix-en-Provence
le 04/11/2019 à Grenoble
le 04/11/2019 à Lyon
le 25/11/2019 à Lille
le 30/12/2019 à Paris
le 31/12/2019 à Nantes
Voir toutes les dates