data-scientist

Avec la vague Big Data, l’exploitation des données en entreprise est devenu une véritable source d’avantage concurrentiel. En tant que responsable de la valorisation de ces données, le profil de data-scientist est une perle rare. D’après McKinsey, il en manquerait déjà près de 200 000 aux Etats-Unis seulement, et ce chiffre pourrait dépasser le million d’ici 2017. Si les formations Big Data « officielles » commencent à voir le jour en France, les MOOCs sont aujourd’hui le moyen privilégié par beaucoup pour s’auto-former à la Data-Science.

Les compétences clés du data-scientist

L’appellation data-scientist, forgée par deux ingénieurs de Facebook et LinkedIn, ne fait pas référence à un profil universel avec des compétences bien définies. Son rôle au sein de l’entreprise, créer de la valeur à partir des données, est aujourd’hui encore en pleine définition :
Le premier atout du data-scientist, c’est son expertise statistique et quantitative : souvent issu de formations mathématiques ou statistiques (ENSAE, ENSAI, écoles d’ingénieurs), il doit être à l’aise avec les techniques et les outils d’analyse du Big Data : le Big Analytics (Cluster Analysis, Neural Networks, Graphes & DataViz, Text-Mining…), grâce à des outils comme R ou SAS.

Mais le data-scientist doit aussi maîtriser des sujets connexes à l’analyse quantitative:

Data-Scientist - Expert Business Analytics - Essec AccentureSource : ESSEC-Accenture

  • Business : la connaissance métier et le sens business sont des élément déterminants de l’efficacité du data-scientist, qui doit pouvoir prendre du recul par rapport aux données pour identifier applications concrètes et imaginer de nouveaux usages et améliorer le fonctionnement de l’entreprise.
  • Techniques : ce qui manque le moins dans le Big Data, ce sont les technologies, et la programmation est souvent un pré-requis pour toute collecte ou transfert de données. La familiarité et la capacité à utiliser des technologies comme Hadoop, Java, Python, SQL, Hive, et Pig sont donc des éléments essentiels de la boîte à outil du data-scientist
  • Communication, Leadership et Gestion de projet : c’est le jeu de compétences qui sépare le Data Scientist du « geek », qui lui permet de fédérer une équipe aux compétences diverses autour d’une vision, de mener à bien des projets avec un impact réel sur la performance de l’entreprise et de communiquer des résultats de manière claire.

Pour moi, le data scientist est quelqu’un qui est sait mieux développer qu’un statisticien et qui connaît mieux les statistiques qu’un développeur

Michael O’Connell, Chief Data Scientist chez TIBCO Jaspersoft

Les Cursus scolaires et Formations (Big) Data-Scientist en France

Ce guide n’a pas vocation à être exhaustif mais sera régulièrement mis à jour en fonction des nouveaux programmes. N’hésitez pas à nous contacter pour faire référencer votre formation : contact(at)data-business.fr

1. Télécom Paris Tech : Master Big Data – gestion et analyse de données massives (BGD)

Le cursus BGD de Télécom ParisTech, pionnier de l’enseignement Big Data en France, est axé atour du développement de compétences dans la gestion de données, l’analyse statistique des données massives et la maîtrise des technologies et des algorithmes permettant d’exploiter le Big Data. L’enseignement s’accompagne d’un projet de mise en situation professionnelle, dont l’objectif est de mettre en perspective pratique les enseignements théoriques reçus au long du cursus.
Télécom ParisTech propose également un Certificat d’Etude Spécialisé Data-Scientist, lancé en septembre 2013, qui accueille des ingénieurs en poste depuis 2 à 3 ans ainsi que des profils quarantenaires spécialisés en reconversion.
> En savoir plus
> Télécharger la Brochure (PDF, 45Ko)

2. ESSEC : Chaire Accenture Strategic Business Analytics

L’approche de la chaire Business Analytics de l’ESSEC est d’ancrer l’enseignement des méthodes quantitatives dans les problématiques des entreprises pour former des profils capables d’avoir à la fois des capacités analytiques et techniques mais également une vision business. Cela se traduit par un accent sur la transversalité :

  • des disciplines : marketing, SI, stratégie…
  • des secteurs d’activités, grâce à des entreprises partenaires issues d’industries et de pays variés
  • des fonctions : l’extraction et l’analyse des données seront faites avec l’aide de partenaires spécialisés

« Un Digital Architect est un spécialiste à même d’exploiter les statistiques, l’analyse quantitative ou les techniques de modélisation pour influencer ou prendre des décisions métier »
Nicolas Glady, titulaire de la Chaire Strategic Business Analytics

Le premier programme de la Chaire sera proposé au sein du programme Grande Ecole, et un programme en Business Analytics sera également disponible aux étudiants de niveau Master n’ayant pas de formation en management.La première promotion est prévue pour septembre 2014 et sera composée à moitié d’élèves ingénieurs (issus notamment de partenariats avec Centrale Paris et l’ENSAE).

> Aller sur la page de la Chaire
> Télécharger la Brochure (PDF, 45Ko)

3. ENSAE : Spécialisation Data Science

Acteur historique dans la formation de mathématiciens et de statisticiens, l’ENSAE propose une filière Data Science (3ème année) débouchant aussi bien sur des métiers de conseil que de recherche, organisée autour d’un tronc commun et de trois modules de spécialisation : statistique et apprentissage, marketing quantitatif et aide à la décision, économie et sociologie quantitative.
Le cursus s’accompagne également de mise en applications pratiques, et les élèves peuvent suivre des masters en parallèle en fonction de leur parcours (ENS, Sciences Po, Dauphine…)

> Filière Data Science ENSAE : Profils et Métiers
> Filière Data Science ENSAE : Liste des cours

4. ENSIMAG et l’EMSI Grenoble : Spécialisation BAc+6 Big Data

L’Ensimag (Grenoble INP) et l’EMSI Grenoble (Grenoble Ecole de Management) ont annoncé, en octobre 2013, la création d’une filière bac+6 commune, visant à produire des futurs Data scientists et Data strategists. La formation, qui sera composée de cinq mois de cours et de 10 mois de mission, a déjà reçu le soutien d’entreprises comme AXA, Oracle, La Poste, Michelin…
« Nous formerons des personnes capables d’appréhender la réalité du Big Data par la double compétence technique et business, en incluant une dimension managériale responsable et la vision stratégique », souligne Renaud Cornu-Emieux, directeur de l’EMSI Grenoble.
Programme : systèmes distribués et architectures cloud, large scale data management, web des données et web semantic, analyse statistique multidimensionnelle,…

> En savoir plus

5. HEC : Cursus Spécialisé « Big Data et Business Analytics »

HEC a lancé en Octobre 2013 avec l’appui d’IBM un nouveau cursus destiné aux étudiants de MBA, pour répondre à al demande croissante de postes nécessitant des compétences pointues en Big Data et Business Analytics.

« Le développement des compétences analytiques des étudiants en business et management est plus que jamais une nécessité. Il s’agit de combiner la formation généraliste de dirigeant d’entreprise typique des MBA avec une compétence plus pointue en matière d’analyse et d’interprétation des données, pour améliorer à la fois la prise de décision et la capacité d’innovation »
Professeur Bernard Garrette, directeur délégué du MBA d’HEC Paris

L’ambition du cursus, portée par le professeur Gonçalo Pacheco de Almeida, est de répondre à une pénurie de compétences analytiques sur le marché, en formant des étudiants capable de résoudre des problématiques complexes comme :

  • Comprendre et prévoir les tendances d’achat des consommateurs
  • Collecter et analyser les informations sur la concurrence
  • Augmenter les ventes en magasin et en ligne
  • Aider les responsables de marques à mesurer l’impact de leurs campagnes marketing
  • Analyser les perceptions des consommateurs vis-à-vis des marques et des produits

> Communiqué : IBM et HEC Paris créent un nouveau cursus spécialisé « Big Data et Business Analytics »

6. Les programmes de l’EPITA

Le Big Data est intégré à plusieurs majeures de l’école d’ingénieurs EPITA, notamment :

  • Sciences Cognitives et Informatique avancée (SCIA)
  • Multimédia et Technologies (MTI),
  • Télécommunications (TCOM),
  • Systèmes d’Information et Génie Logiciel (SIGL)

Le Big Data impacte même la majeure Génie Informatique et Systèmes Temps Réel et Embarqués (GISTRE) puisque l’information des robots et des systèmes embarqués doit intégrer la complexité toujours croissante des données. En parallèle, l’école d’informatique Epitech, autre école d’IONIS Education Group, forme également aux métiers du Big Data, qui fait d’ailleurs partie des cinq domaines stratégiques du tout nouveau Epitech Innovation Hub.

Vous pouvez trouver d’autres formations ici

Vous avez un projet de formation Big Data ?
Vous souhaitez développer vos compétences Data Scientist ?

Découvrez nos formations Business & Data Science

Les MOOCs Big Data et les autres ressources utiles pour s’auto-former

Les MOOCs Big Data

La curiosité et la capacité à s’autoformer sont des caractéristiques très valorisées par les recruteurs, qui attendent du data-scientist une vraie polyvalence et une prise d’initiative. Des universités (notamment américaines) prestigieuses proposent des cours gratuits sur le web sous forme de MOOCs (Massive Online Open Courses). Ces formations de qualité sont dispensées sous forme de cours vidéos accompagnés de quizzs et de projets à rendre. Des certificats officiels de réussite, souvent payants, peuvent être délivrés selon les formations. Voici un rapide guide des principaux MOOCs Big Data – les cours vidéos publics sont accessibles en suivant les liens.

1. Introduction to Data-Science – University of Washington – Coursera

Programme : Manipulation de données volumineuses, introduction à Hadoop, MapReduce et NoSQL. Modélisation statistique, Machine learning, Graph Analytics, Text-Mining, Filtres Collaboratifs. Communication des résultats, DataViz. Les cours s’accompagnent de 8 devoirs à rendre, dont 4 en langage de programmation, un concours Kaggle et une visualisation en utilisant le logiciel Tableau.
Pré-requis : programmation basique (R, SQL, Python) et familiarité avec la manipulation de bases de données
Prix : gratuit, possibilité d’obtenir un Certificat en suivant un cours en 3 parties
> Voir la page > Vidéos de cours

2. BigDataUniversity.com

Un ensemble de cours et de ressources (manuels, vidéos, guides) pour apprendre à manipuler ou approfondir sa maîtrise des technologies Big Data : Hadoop, Pig, Hive, MapReduce. Une grande partie des cours est disponible gratuitement, et des certificats de complétion sont délivrés.
Pour les débutants : Hadoop Fundamentals I

3. MIT Online X Program : Tackling the Challenges of Big Data

Le MOOC du MIT lancé début 2014 couvre l’état de l’art des technologies et des applications Big Data en entreprise. Le programme étudie la collecte de données, le stockage et le processing de données, l’extraction et l’analyse de données non structurées, les analytics (machine learning, compression, algorithmes), la visualisation, et les nombreuses applications possibles.

Les cours sont dispensés par des experts du département d’Informatique et d’Intelligence Artificielle du MIT.
Prix : 495$

4. Machine Learning – Stanford – Coursera

Une introduction large au Machine Learning, au Data-Mining et à l’analyse statistique:

  • Supervised learning : parametric/non-parametric algorithms, support vector machines, kernels, neural networks
  • Unsupervised learning : clustering, dimensionality reduction, recommender systems, deep learning)
  • Best practices in machine learning : bias/variance theory; innovation process in machine learning and AI)

Le cours s’appuie aussi sur de nombreuses études de cas et les étudiants peuvent mettre en application les algorithmes dans des domaines comme la robotique ou le filtrage de spams.
Pré-requis : programmation basique (R, SQL, Python) et familiarité avec la manipulation de bases de données
Prix : gratuit
> Voir la page > Vidéos de cours

Les MOOCs pour les débutants

The Data Scientist’s Toolbox offre une introduction aux concepts derrière la manipulation de données et les outils (R, Github) que vous serez amenés à utiliser. Le cours de Programmation en R permet de se familiariser avec la collecte, le nettoyage et les premières techniques d’analyse statistiques de données (la programmation en R est souvent un déterminante pour progresser dans les leçons).
Les modules de Régression statistique et d’Exploration de données vous permettront ensuite d’approfondir vos compétences d’analyse quantitative et de visualisation de données.

L’un des premiers MOOCs Big Data français est celui de l’Ecole Polytechnique sur la conception et la mise en oeuvre d’Algorithmes

Les Challenges Data-Science

Si vous voulez tester vos compétences de data-scientist ou simplement vous entraîner, vous pouvez participer à des « Data-Challenges » proposés par des entreprises. Des plateformes comme Kaggle, ou en France, Datascience.net (portée par le cabinet de conseil Big Data Bluestone et l’Ensae) proposent à des data-scientists de mettre leur talent au service des entreprises. Celles-ci mettent à disposition des extraits de jeux de données et demandent à la communauté de les aider à les valoriser en construisant des modèles et des algorithmes prédictifs.

Challenge AXA - Datascience.net - Modélisation économique sur le comportement des clients
Kaggle réunit aujourd’hui une communauté de 150 000 data-scientists et a développé une activité de conseil pour les entreprises. Elle est régulièrement citée parmi les entreprises Big Data les plus innovantes.

Les autres ressources utiles

Sur Data-Business.fr :

Pour un guide d’applications concrètes du Big Data en entreprise, retrouvez le guide des études de cas.

l’annuaire des meilleurs sites autour du Big Data pour approfondir vos recherches
Consultez également notre sélection de livre blancs sur le Big Data, les Analytics et la Dataviz

Vous êtes un futur Data-Scientist ? Votre entreprise s’intéresse au Big Data ?

Formations Big Data
Contactez Nous

Partagez l’article

Inscrivez-vous à la Newsletter Data-Business.fr

< Retour à la page Big Data