Le Master Program BIG DATA: Hadoop ecosystem, Spark & Kafka MACHINE LEARNING: with R, Python & Scala (Scikit-Learn et Spark)

Inscrivez-vous



Inscrivez-vous à notre master program BIG DATA et Machine Learning.

Master Program : BIG DATA & MACHINE LEARNING En Distanciel


Le Master Program BIG DATA & Machine Learning d’ITAB ACADEMY est une formation organisée à partir des dernières tendances technologiques. C’est une Formation (type tronc commun) pour la préparation aux certifications professionnelles type : IBM, Cloudera, Hortonworks et Databricks.

Cela couvre des connaissances détaillées sur le Big Data et les outils de l'écosystème Hadoop tels que HDFS, YARN, MapReduce, Hive, Pig, HBase, Oozie, Flume et Sqoop. Par ailleurs, cette formation couvre également Apache Kafka, Apache Spark et l'écosystème Spark, qui comprend Spark RDD, Spark SQL et Spark Streaming. Tout au long de cette formation en ligne animée par un instructeur, vous travaillerez sur des labs afin de pratiquer tous les modules couverts dans ce programme.

Le métier de Data Scientist est avant tout une vocation, qui se traduit par la pratique de traitement de données de différentes natures, à l’aide d’algorithmes adaptés, afin de répondre à des challenges de décision. Ainsi, au sein d’une équipe Data, vous serez en charge de choisir le modèle le plus performant, parmi une palette d’algorithmes : supervisés, non supervisés ou encore réseaux de neurones profonds (Deep Learning). L’importance de ce type particulier d’algorithmes, réside dans leur pouvoir à permettre à des machines d’agir sans être explicitement programmés et c’est exactement, la maîtrise de ces algorithmes, qui ont permis d’industrialiser des voitures automnes, de tirer profit de la reconnaissance vocale, d’effectuer des recherches Web efficaces et de construire une connaissance considérablement améliorée du génome humain.

Le Machine Learning fait appel en fait, à plusieurs compétences interdisciplinaires, telle que la statistique, l’algèbre linéaire, l’optimisation et l’informatique, pour développer des systèmes automatisés, capables de passer au crible de grands volumes de données, afin de prendre des décisions, tout en minimisant l’intervention humaine. En tant que domaines d’application, le Machine Learning est désormais incroyablement omniprésent, avec des applications allant de l’intelligence d’affaires à la sécurité des pays, de l’analyse des interactions biochimiques à la surveillance structurelle du vieillissement des ponts, etc.

9 900 1 990 HT ( Net de taxe car « exonérée de TVA — Art. 261.4.4 a du CGI »)Ajouter au panier

Attestation du Master programme :

  • Attestation de réussite « BIG DATA Engineer » (*)
  • Attestation de réussite « Spark Developer » (*)
  • Attestation de réussite « Certified Associate Machine Learning Developper with R and Python » (*)
  • Possibilité d'obtenir des attestations d’IBM en BIG DATA et de EMC2 en Machine Learning.

Session en distanciel :

  • Dates (**) :
    Session 1 BIG DATA : 19-20,26-27Juin,03-04,10-11 Juillet 2021.
    Session 1 Machine Learning : 24-25,31 Juillet 01,07-08,14-15,21-22,28-29 Aout 2021.
    Session 2 BIG DATA : 11-12,18-19,25-26 Septembre,02-03 Octobre 2021.
    Session 2 Machine Learning : 09-10,16-17,23-24,30-31 Octobre 2021.
  • Nombre de jours : 16 jours ( 7H/J)
  • Horaire :  9h00-12h30 13h30-17h00
  • Paris : +33.(0)1.82.88.30.68

(*) Ces Attestations sont délivrées suite à des examens dispensés par ITAB ACADEMY.

(**) Dates prévisionnelles : Ces dates seront confirmées dans l'Email de convocation au plus tard 5 jours avant le début de la formation.


S'inscrire à la formation.

Ce module de 4 jours couvre des connaissances détaillées sur le Big Data et les outils de l'écosystème Hadoop tels que HDFS, YARN, MapReduce, Hive, Pig, HBase, Oozie, Flume et Sqoop. Dans ce module nous allons:

  • Comprendre le phénomène Big Data et les notions qu’il recouvre.
  • Comprendre pourquoi tout le monde parle du Big Data et son impact dans l’entreprise.
  • Comment faire du Big Data ? Sur quelle plateforme technologique s’appuyer ?
  • Identifier et s’approprier les outils de l’écosystème Hadoop pour chaque cas d’usage.
  • Faire des labs pour maîtriser les composants du hadoop ecosystème: sqoop, hbase, hive, pig, flume et oozie.
Ce module de 4 jours couvre Apache Kafka, Apache Spark et l'écosystème Spark, qui comprend Spark RDD, Spark SQL et Spark Streaming. Dans ce module on va:

  • Comprendre comment céer un cluster Spark dans le cloud (azure ou aws).
  • Comprendre pourquoi nous avons besoin de Spark.
  • Comprendre les composants de Spark et ses catégories.
  • Comprendre l'architecture de Spark.
  • Comprendre la différence entre les api de spark: RDD, dataframes et datasets et comment les utiliser dans Scala et / ou python.
  • Identifier et s’approprier les bibliothèques de l’écosystème Spark pour chaque cas d’usage.
  • Maitriser le Spark SQL.
  • Connaitre les principes de base du Spark Streaming Dstream et Spark Structured Streaming.
  • Faire des labs pour maîtriser les librairies de Spark: Spark RDD, Spark SQL, Dataframes, Datasets, Datasources, Spark dstream et Spark Structured Streaming.
  • Comprendre les bases de Kafka et ses composants tels que: messages, schémas, rubriques, partitions, producteurs, consommateurs, broker et clusters.
  • Simuler un flux ou streaming entre Kafka et Spark Structured Streaming.

Ce module de 4 jours vise à présenter les détails nécessaires pour appréhender efficacement le Machine Learning et pour la construction de la connaissance, sur la base des données qui peuvent être de plusieurs natures. Les sujets traités comprennent entre autres :


  • L’apprentissage supervisé (algorithmes paramétriques/non paramétriques) ;
  • L’apprentissage non supervisé (clustering, réduction de la dimension, systèmes de recommandation) ;
  • Les bonnes pratiques en Machine Learning (théorie de biais/variance, processus d’innovation et IA).

La formation s’appuiera également sur de nombreuses études de cas et applications, de sorte à pouvoir appliquer les algorithmes à de nouveaux problèmes telle que la classification d’un texte.

Apache Spark est un moteur de traitement de données très rapide dédié au Big Data. Cela permet d’effectuer un traitement de larges volumes de données de manière distribuée (cluster computing). Par ailleurs, Spark MLlib est la librairie de Machine Learning de Apache Spark. Tous les algorithmes machine learning de cette librairie sont optimisés pour le calcul en parallèle sur un cluster Spark. Cette partie de 4 jours introduit Spark et Spark SQL. De plus, ça explique la bibliothèque SPARK MLlib avec de vrais cas d'utilisation d'apprentissage automatique en utilisant scala et/ou python.

Ingénieur et consultant BIG DATA, le formateur a un doctorat en informatique de l’ENSIAS en partenariat avec l’université de Quebec. Il a plus de 12 ans d’expérience dans le domaine professionnel, ainsi il était consultant et chef de projet dans une grande multinationale. Notre formateur possède plusieurs certifications en BIG DATA et SPARK. Il a aussi animé plusieurs formation BIG DATA et Machine Learning pour des grands comptes tel que: Orange, Altran, PhoneGroup, Avito, Xhub, Lydec…

  • Formateur Machine Learning et Statistique: Ingénieur et consultant statisticien, lauréat de l’Institut National de Statistique et d’Economie Appliquée (INSEA), le formateur a ainsi un doctorat en Statistique. Notre formateur a plus de 13 ans d’expérience dans le domaine professionnel (secteur privé et public), avec une expertise en matière de traitement et modélisation des données et une bonne connaissance des secteurs économiques. Il a aussi animé plusieurs formations de Machine Learning, dans le cadre de plusieurs groupes de travail et au profit des étudiants universitaires et des grands comptes tel que : Inwi.


  • Formateur Machine Learning avec Spark: Ingénieur et consultant BIG DATA, le formateur a un doctorat en informatique de l’ENSIAS en partenariat avec l’université de Quebec. Il est au même temps professeur universitaire à l’INPT. Il a cumulé plus de 13 ans d’expérience dans le domaine professionnel, ainsi il était consultant et chef de projet dans une grande multinationale ou il a travaillé pour le compte de plusieurs clients francophones/anglophones à savoir : Schneider, Ciba, Pfizer, Solvay, Boehringer Ingelhem etc. Notre formateur possède plusieurs certifications en BIG DATA et SPARK. Il a aussi animé plusieurs formation BIG DATA, Machine Learning et datascience pour des grands comptes tel que: Orange, Altran, PhoneGroup, Avito, Xhub, Lydec …

Description de la formation

Hadoop est un projet Apache (c'est-à-dire un logiciel open source) pour stocker et traiter le Big Data. Hadoop stocke les Big Data de manière distribuée et tolérante aux pannes sur du matériel de base. Ensuite, les outils Hadoop sont utilisés pour effectuer un traitement de données parallèle sur HDFS (Hadoop Distributed File System).


Au fur et à mesure que les organisations ont réalisé les avantages du Big Data Analytics, il y a donc une demande pour les professionnels du Big Data et Hadoop. Les entreprises recherchent des experts Big data et Hadoop ayant la connaissance de l'écosystème Hadoop et des meilleures pratiques concernant HDFS, MapReduce, Spark, HBase, Hive, Pig, Oozie, Sqoop & Flume.


La formation Itabacademy Hadoop et Spark est conçue pour faire de vous un praticien certifié Big Data en vous fournissant une formation pratique riche sur l'écosystème Hadoop et Spark. Cette formation de certification de développeur Hadoop et Spark est un tremplin vers votre parcours Big Data et vous aurez l'opportunité de travailler sur divers projets Big Data. Au même temps, la partie Spark est conçu pour vous fournir les connaissances et les compétences nécessaires pour devenir un développeur Big Data et Spark. Cette formation vous aidera à passer les certifications big data professionnels type : Cloudera, Databricks, IBM, Hortonworks et MapR.


Vous comprendrez les bases du Big Data et de Hadoop. Vous apprendrez comment Spark permet le traitement des données en mémoire et s'exécute beaucoup plus rapidement que Hadoop MapReduce. Vous découvrirez également les RDD, Spark SQL pour le traitement structuré, les différentes API proposées par Spark telles que Spark Streaming. Ce cours fait partie du parcours de carrière d'un développeur Big Data. Il englobera également les concepts fondamentaux tels que la capture de données à l'aide de Flume, le chargement de données à l'aide de Sqoop, un système de messagerie comme Kafka, etc.


Le métier de Data Scientist est avant tout une vocation, qui se traduit par la pratique de traitement de données de différentes natures, à l’aide d’algorithmes adaptés, afin de répondre à des challenges de décision. Ainsi, au sein d’une équipe Data, vous serez en charge de choisir le modèle le plus performant, parmi une palette d’algorithmes : supervisés, non supervisés ou encore réseaux de neurones profonds (Deep Learning). L’importance de ce type particulier d’algorithmes, réside dans leur pouvoir à permettre à des machines d’agir sans être explicitement programmés et c’est exactement, la maîtrise de ces algorithmes, qui ont permis d’industrialiser des voitures automnes, de tirer profit de la reconnaissance vocale, d’effectuer des recherches Web efficaces et de construire une connaissance considérablement améliorée du génome humain.

Le Machine Learning fait appel en fait, à plusieurs compétences interdisciplinaires, telle que la statistique, l’algèbre linéaire, l’optimisation et l’informatique, pour développer des systèmes automatisés, capables de passer au crible de grands volumes de données, afin de prendre des décisions, tout en minimisant l’intervention humaine. En tant que domaines d’application, le Machine Learning est désormais incroyablement omniprésent, avec des applications allant de l’intelligence d’affaires à la sécurité des pays, de l’analyse des interactions biochimiques à la surveillance structurelle du vieillissement des ponts, etc.

Dans le même ordre d’idées, les responsables de cette formation ont conçu le mini master Machine Learning, afin de faire bénéficier les stagiaires d’une formation complète et qui répond aux standards internationaux. Le premier résultat escompté est de bien vous outiller, afin de maîtriser les techniques de Machine Learning les plus efficaces, dans l’objectif d’exercer à les mettre en œuvre et à les faire fonctionner par vous-même. Plus important encore, vous découvrirez non seulement les fondements théoriques de l’apprentissage, mais vous acquerrez également le savoir-faire pratique nécessaire pour appliquer efficacement les techniques présentées, à de nouveaux problèmes dans le cadre des situations réelles.

Ensuite, la formation vise à présenter les détails nécessaires pour appréhender efficacement le Machine Learning et pour la construction de la connaissance, sur la base des données qui peuvent être de plusieurs natures. Les sujets traités comprennent entre autres :

  • L’apprentissage supervisé (algorithmes paramétriques/non paramétriques) ;
  • L’apprentissage non supervisé (clustering, réduction de la dimension, systèmes de recommandation) ;
  • Les bonnes pratiques en Machine Learning (théorie de biais/variance, processus d’innovation et IA).
  • La formation s’appuiera également sur de nombreuses études de cas et applications, de sorte à pouvoir appliquer les algorithmes à de nouveaux problèmes telle que la classification d’un texte.

La formation de certification Big Data Hadoop et Spark est conçu par des consultants experts pour faire de vous un praticien certifié Big Data et Spark. Le mini master Big Data Hadoop et Spark a pour objectifs:


  • Apprendre les notions de bases de python et scala.

  • La formation de certification Machine Learning est conçu par des consultants experts pour faire de vous un praticien certifié Machine Learning. Le mini master Machine Learning a pour objectifs:

    • Comprendre les concepts de base sur la statistique inférentielle
    • Apprendre à utiliser les modèles d'apprentissage supervisé (arbre de décision, forêt aléatoire, régression logistique, naïve bayésienne)
    • Apprendre à utiliser l'apprentissage non supervisé (clustering, règles d'association, réduction de la dimension, systèmes de recommandation)
    • Apprendre à programmer avec Scala
    • Comprendre les principes fondamentaux de la librairie Spark MLlib
    • Apprendre à créer des modèles d'apprentissage avec SparkMLlib
  • Comprendre le phénomène Big Data et ses fondamentaux.
  • Connaître les technologies pour traiter les gros volumes de données.
  • Assimiler Hadoop et son écosystème.
  • Comprendre comment créer un cluster Spark dans le cloud.
  • Assimiler les fondamentaux de l'architecture Spark.
  • Utiliser les Dataframes et Datasets via Spark SQL.
  • Connaitre les principes de base des systèmes de traitement distribués: Spark Dstream, Spark Structured Streaming et Kafka.
  • Méthodes mobilisées:

    Les apprenants se connecteront à une classe virtuelle animée par un formateur. Le cours étant interactif, des échanges entre le formateur et les apprenants auront lieux selon les séquences établies dans le programme de formation. Afin de concrétiser la théorie, le formateur mettra en place des travaux pratiques individuels et des étude de cas concrets.


  • Moyens pédagogiques :

    • Plateforme Zoom (vidéo et partage d’écran)
    • Documents de supports de formation projetés (Diaporama PowerPoint )
    • Mise à disposition en ligne de documents supports (ZOOM et Google Classroom)
    • Vidéo animées et schéma explicatifs
    • Accès à un environnement interactif pour réaliser les travaux pratiques
    • Accès en illimité à la plateforme Google Classroom pour les supports de cours

  • Modalités d'évaluations:

    Un questionnaire d'évaluation des acquis vous sera dispensé au début et en fin de formation afin de mesurer votre niveau et votre progression. De plus, un questionnaire de satisfaction à chaud (en fin de la formation) puis à froid (2 mois après la formation).

Nos formations sont accessibles selon les modalités suivantes:


  1. Inter-entreprises: groupes de stagiaires provenant de différentes entreprises
  2. Intra-entreprise: groupes de stagiaire de la même entreprise

Plusieurs modes de financement vous permettent d’accéder à nos formations en tant que salarié via votre entreprise ou en tant que particulier. Nos conseillers sont à votre disposition à fin de vous expliquer les différents options.
Nous nous engageons à répondre à vos demandes d'informations et à vous adresser un devis sous 5 jours ouvrés.
De votre côté :

  • vous devez vous assurer de nous envoyer le devis signé dans les plus bref délais.
  • ou
  • un paiement d'un acompte de 25% du prix de la formation HT(*) à payer sur ce site dans la boutique en ligne

L’annulation d’une séance de formation de votre part est possible, à condition de le faire au moins 10 jours calendaires avant la date prévisionnelle de la formation (Passé ce délai seul le report est possible).
(*) Net de taxe car « exonérée de TVA — Art. 261.4.4 a du CGI »

Le marché de l'analyse Big Data est en croissance à travers le monde et ce modèle de croissance forte se traduit par une excellente opportunité pour tous les professionnels de l'informatique. Les responsables du recrutement recherchent des professionnels certifiés Big Data Hadoop et Spark. Notre formation qui prépare à la certification Big Data et Hadoop et Spark vous aide à saisir cette opportunité et à accélérer votre carrière. Notre cours Big Data Hadoop et Spark peut être suivi par des professionnels comme par des novices. Il est le mieux adapté pour:


  • Passionnés de Big Data
  • Développeurs logiciels, chefs de projet
  • Architectes logiciels
  • Consultant BI
  • Ingénieurs de données
  • Data Analyst
  • Data scientist
  • DBA et professionnels de la base de données
  • Ingénieurs en informatique
  • Diplômés cherchant à construire une carrière dans le domaine du Big Data

Il n'y a pas de prérequis pour la formation Big Data, Hadoop et Spark. Cependant, une connaissance préalable de la programmation, SQL et linux sera utile mais n'est pas obligatoire. De plus, pour parfaire vos compétences, Itabacademy propose le cours gratuit "python et Scala" à suivre à votre rythme lorsque vous vous inscrivez au cours Big Data, Hadoop et Spark.


Il n'y a pas de tels prérequis pour la formation Mini Master Machine Learning ou data science avec R, Scikit Learn avec Python et Spark avec Python ou Scala. Cependant, une connaissance préalable de la programmation, Statistique sera utile mais n'est pas obligatoire. De plus, pour parfaire vos compétences, Itabacademy propose le cours gratuit "python for data science" à suivre à votre rythme lorsque vous vous inscrivez au cours Mini Master Machine Learning ou data science avec R, Scikit Learn avec Python et Spark avec Python ou Scala.

Nos formations peuvent être accessibles aux personnes en situation de handicap. Chaque situation étant unique, nous vous demandons de préciser à l’inscription votre besoin en termes d'aménagement. Nous pourrons ainsi confirmer l’ensemble des possibilités d’accueil et vous permettre de suivre la formation dans les meilleures conditions . Pour toutes informations complémentaires, nous vous prions de contacter : notre référent handicap :
Mr Abdelmonir BOUAZZAOUI

  • Email : Abdelmonir@itabacademy.fr
  • Téléphone +33620606642
    ou
    Notre partenaire AGEFIPH(*) Ile-de-France :
  • M. Bastian GIESBERGER : b-giesberger@agefiph.asso.fr
  • M. M’Ballo SECK : m-seck@agefiph.asso.fr site internet www.agefiph.fr
  • Téléphone: +33608111009
  • Email : rhf-idf@agefiph.asso.fr
    Le centre de ressources numériques : https://rhf-agefiph.defi-metiers.fr
    (*)L’AGEFIPH est une association de gestion du fonds pour l'insertion des personnes handicapées.

  • Le Big Data est l'un des domaines les plus rapides et les plus prometteurs, compte tenu de toutes les technologies disponibles sur le marché informatique aujourd'hui. Afin de profiter de ces opportunités, vous avez besoin d'une formation structurée avec le dernier programme d'études conformément aux exigences actuelles du secteur et aux meilleures pratiques.


    Spark est l'un des outils les plus en croissance et les plus utilisés pour le Big Data & Analytics. Il a été adopté par plusieurs entreprises appartenant à divers domaines à travers le monde et offre donc des opportunités de carrière prometteuses.

    La formation à la certification Big Data Hadoop et Spark vous aidera à devenir un expert du Big Data. Il perfectionnera vos compétences en vous offrant des connaissances complètes sur le framework Hadoop et aussi Spark. Pendant le cours Big Data & Hadoop, vous serez formé par nos instructeurs pour:



      • Développer une idée claire de ce qu’implique l’apprentissage des modèles à partir des données
      • Maitriser les concepts d’une grande variété d’algorithmes de Machine Learning
      • Modéliser des données classiques et complexes et appliquer les algorithmes à un problème réel
      • Extraire de la connaissance sur la base des algorithmes et résultats issus de vos données
      • Etre capable d’évaluer les modèles générés à partir des données
      • Choisir entre plusieurs approches et entrainer des modèles
      • Optimiser les modèles en prenant compte des résultats escomptés (précision, fiabilité, exactitude, etc.).
    • Maîtrisez les concepts de HDFS (Hadoop Distributed File System), YARN (Yet Another Resource Negotiator) et comprenez comment travailler avec le stockage Hadoop
    • Comprendre l'architecture Hadoop 1.x, Hadoop 2.x et Hadoop 3.x
    • Comprendre le framework MapReduce
    • Mettre en œuvre une solution à l'aide de MapReduce
    • Apprenez les techniques d'ingestion de données à l'aide de Sqoop et Flume
    • Effectuer des opérations ETL et des analyses de données à l'aide de Pig and Hive
    • Implémentation du partitionnement et de l'indexation dans Hive
    • Comprendre HBase, c'est-à-dire une base de données NoSQL dans Hadoop, l'architecture et les mécanismes HBase
    • Planifier des tâches avec Oozie
    • Comprendre Apache Spark et son écosystème
    • Apprenez à utiliser RDD dans Apache Spark
    • Travailler sur un projet d'analyse Big Data avec Spark
    • Travailler sur un cluster Hadoop en temps réel
    • Ecrire des programmes Scala pour créer une application Spark
    • Comprendre Spark et son écosystème
    • Implémenter des opérations Spark sur Spark Shell Implémenter des applications Spark sur YARN (Hadoop)
    • Ecrire des applications Spark à l'aide des concepts Spark RDD
    • Executer des requêtes SQL à l'aide de Spark SQL
    • Expliquer Kafka et ses composants
    • Intégrer Kafka avec des systèmes de streaming en temps réel comme Spark Streaming
    • Utiliser Kafka pour produire et consommer des messages
    • Créer un processus d'application Spark Streaming
    • Implémentez différentes sources de données en streaming

    Comme vous le savez, de nos jours, de nombreuses organisations manifestent de l'intérêt pour le Big Data et adoptent Hadoop et Spark dans le cadre de leur stratégie de solution, la demande d'emplois dans le Big Data et Spark augmente rapidement. Il est donc grand temps de poursuivre votre carrière dans le domaine du Big Data et de l'analyse avec notre formation qui prépare à la certification Hadoop et Spark avec Python et Scala.

    Programme détaillé du Mini Master BIG DATA et Mini Master MACHINE LEARNING

    Hadoop

    • 1. Définition du BIG DATA
    • 2. BIG DATA use cases
    • 3. Hadoop
    • 4. Installation de cloudera
    • 5. Configuration d’une distribution BIG DATA dans le cloud
    • 6. Lab HDFS : Navigating in the hadoop filesystem (HDFS commands)

    MapReduce & YARN

    • 1. MAPREDUCE and YARN
    • 2. LAB MAPREDUCE : Creating a mapreduce application that calculates the max temperature for each month in java
    • 3. LAB MAPREDUCE : Creating a mapreduce applaction that performs a wordcount using JAVA
    • 4. SQOOP, HUE, IMPALA
    • 5. SQOOP LAB : Moving a MYSQL database into HIVE using SQOOP and accessing it from impala in hue.

    HBASE & Flume

    • 1. HBASE : NOSQL Database
    • 2. Lab HBASE
    • 3. FLUME : Ingesting unstructured data into Hadoop
    • 4. Lab Flume

    HIVE & BI DASHBOARD with HUE

    • 1. HIVE : Managing HIVE datawarehouse using Apache HIVE
    • 2. Lab Hive
    • 3. Creating a BI Dashboard with Hue and SOLR

    Python & Scala

    • 1. Révision PYTHON
    • 2. Révision SCALA

    Spark

    • 1. SPARK Introduction
    • 2. Why we need SPARK?
    • 3. What is SPARK?
    • 4. SPARK COMPONENTS
    • 5. SPARK COMPONENTS CATEGORIES
    • 6. SPARK Architecture
    • 7. What is an RDD?
    • 8. RDD features
    • 9. RDD sources
    • 10. RDD Workflow & DAG
    • 11. How to create an RDD?
    • 12. Transformations
    • 13. Actions
    • 14. Persistence
    • 15. RDD limitations
    • 16. Will Spark replace MapReduce?
    • 17. LAB SPARK : Creating a SPARK application in SCALA

    SPARK SQL

    • 1. Qu'est-ce que SPARK SQL?
    • 2. Architecture de SPARK SQL
    • 3. Histoire des RDDs, DATAFRAMES et DATASETS
    • 4. Nouvelle API SPARK 2.0
    • 5. RDD (rappel)
    • 6. DATAFRAMES
    • 7. DATASETS
    • 8. SPARK SQL LAB1 : Creating dataframes & Datasets using SPARK .2.4 in scala or python
    • 9. SPARK SQL LAB2 : SPARK DATASOURCES in scala or python
    • 10. Spark SQL LAB3 : Analyzing flight delays in scala or python
    • 11. SPARK SQL LAB4 : Analyzing soccer games file between 1872 and 2019 in scala or python

    Spark Streaming and Kafka

    • 1. Qu’est ce que SPARK STREAMING?
    • 2. Comment fonctionne SPARK STREAMING?
    • 3. Principes de base du SPARK Streaming
    • 4. Streaming Context
    • 5. DStream
    • 6. Caching
    • 7. Accumulators
    • 8. Broadcast Variables
    • 9. Checkpoints
    • 10. SPARK DSTREAM LAB : Streaming data from a PY file in Scala
    • 11. SPARK STRUCTURED STREAMING
    • 12. What is the difference between Spark Structured Streaming and DStreams?
    • 13. Programming model
    • 14. SSS – Example
    • 15. Handling Event-time and Late Data
    • 16. SPARK SSS LAB : SPARK - Structured Streaming using Python or SCALA DataFrames API
    • 17. APACHE KAFKA
    • 18. LAB1: Spark Structured Streaming and KAFKA
    • 19. LAB2: Confluent installation
    • 20. LAB KAFKA: Integrating SPARK SSS with Apache KAFKA.

    Mot de bienvenue, présentation générale de la formation, des prérequis et des concepts de base sur Le Machine Learning

    Le but de la journée est d’introduire les concepts de base de Machine Learning. Les stagiaires auront une idée précise sur les prérequis, sur Data Analytics Lifecycle et les normes et standards en Machine Learning. Ils devront maitriser certaines techniques pour interroger leurs bases de données. Ainsi, ils sauront distinguer plusieurs types de variables et les caractériser, et ils sauront distinguer un problème déterministe et probabiliste. Des mises en situation seront abordées lors de cette première séance. Le programme de la journée se présente ainsi :

    • Ouverture des sessions de la formation : présentation des objectifs et identification des besoins et des attentes des stagiaires ;
    • Présentation de Machine Learning : quelques concepts de base et vocabulaire ;
    • L’apprentissage automatique en pratique : quelques exemples d’application ;
    • Les prérequis pour appréhender les approches d’apprentissage automatique ;
    • Aperçue sur les algorithmes d’apprentissage automatique : apprentissage supervisé, non supervisé et apprentissage forcé ;
    • Présentation de Data Analytics Lifecycle, Normes et standards en Machine Learning ;
    • Une vue d’ensemble sur les approches déterministes et probabilistes ;
    • Présentation de certains concepts de base sur les variables statistiques et les modèles en statistique ;
    • Une vue d’ensemble sur les différents types de variables ;
    • Quelques notions de la statistique descriptive : représentation et caractéristiques des variables (moyenne, variance, ecart type, model, quartiles, etc.) ;
    • Etudes de cas pratiques : représentation et exploration préliminaire des variables.

    Règles d’association, Arbres de décision et les forêts (aléatoires) d’arbres décisionnels

    Le but de la journée se focalise sur les règles d’associations et les arbres de décision. Il s’agit de deux objectifs des outils de Machine Learning. A la fin de la journée, les stagiaires sauront recommander des associations de produits en se basant sur des outils techniques et pourront effectuer la classification à l’aide des arbres de décision. Une introduction de concepts s’avère nécessaire. Ainsi, les stagiaires auront plus de détails sur la préparation des données en utilisant plusieurs libraires et la préparation des échantillons. Des calculs de fréquences, d’entropie et de gains d’information sont nécessaires pour la mise en place des algorithmes présentés. Concernant les forêts aléatoires, elles seront présentées comme une technique améliorée qui combine plusieurs arbres.

    Le programme de la journée se présente ainsi :

    • Présentation des librairies de Machine Learning sous R, Python et Scala ;
    • Préparation des échantillons : Notions préliminaires sur l’échantillonnage, échantillons d’apprentissage, de validation et de test ;
    • Introduction du concept de règle d’association : exemples et définitions ;
    • Présentation des concepts de : support, confidence, lift et leverage;
    • Etudes de cas pratiques sur les règles d’association ;
    • Fondements des algorithmes relatifs aux règles d’association : Apriori, Euclat, FP-growth ;
    • Présentation du principe de la classification : quelques exemples pratiques ;
    • Evaluation du degré de désordre : principe d’entropie, indice de Gini, gain d’information ;
    • Etude de cas pratiques sur l’arbre de décision ;
    • Forêts aléatoire vs arbre de décision : présentation de concepts et comparaison ;
    • Etude de cas pratiques sur les forêts aléatoires.

    Mise à niveau sur la statistique inférentielle et la préparation des données

    Le but de la journée se focalise sur la statistique inférentielle, qui s’avère nécessaire pour introduire des approches de Machine Learning, telle que la régression. Les stagiaires seront capables de distinguer plusieurs lois de probabilité. Ils seront capables de calculer et interpréter des corrélations entre plusieurs variables, maitriser les concepts de base des tests d’hypothèses et de la théorie d’estimation. Les autres concepts sur la projection, l’inertie et les valeurs propres sont nécessaires dans le cadre de « feature engineering » et de la préparation des données. Des cas pratiques seront présentés pour illustrer chaque concept.

    • Présentation des concepts de base sur la statistique inférentielle ;
    • Notions sur les variables aléatoires et les probabilités ;
    • Les lois de probabilité classiques discrètes et continues ;
    • L’espérance mathématique, la variance et l’écart type ;
    • La covariance d’un couple de variables aléatoires ;
    • Le coefficient de corrélation linéaire ;
    • Corrélation, causalité et dépendance ;
    • Etude de cas pratiques : ajustements de lois, et calculs ;
    • L’inertie, les projections, les valeurs propres et l’effet cosinus ;
    • Notions sur l’échantillonnage ;
    • Notions sur la pratique de la théorie de l’estimation ;
    • Notions sur les tests d’hypothèses ;
    • Notions sur les distances, les métriques et les mesures de discordance et de similarité ;
    • Exactitude et précision ;
    • La préparation et la gestion des données.

    La classification avec Naïve Bayes, SVM, KNN et neural network

    Le but de la journée se focalise sur des algorithmes avancés dédiés à la classification. Il s’agit de Naïve Bayes, SVM et KNN. Ces algorithmes sont largement utilisés et nécessitent l’introduction des concepts sur les probabilités conditionnelles, les distances et les similarités (déjà évoquées lors des séances de mise à niveau). D’autres notions vont être introduites pour la présentation du SVM, tels que les supports et les marginales. La deuxième partie sera consacrée aux réseaux de neurones qui sont plus adaptés pour des environnement Big Data. On s’attardera plus sur la conception d’un réseau de neurone, ses multiples utilisations et les interprétations y afférentes. Le programme de la journée se présente ainsi :

    • Pourquoi « Naïve » bayes ? ;
    • Classification avec naïve bayes : concepts et études de cas pratiques ;
    • Présentation des concepts de SVM : supports, marginal, problème linéaire, fonctions kernel ;
    • Classification avec SVM : études de cas pratiques ;
    • Notions sur les distances, les métriques et les mesures de discordance et de similarité ;
    • Mise en pratique de KNN : présentation des concepts et études de cas pratiques ;
    • Les réseaux de neurones : définition des neurones, couches, fonctions d’activation et biais ;
    • Mise en pratique des réseaux de neurones ;
    • Perfectionner les réseaux de neurones : vers des réseaux de neurones profonds.

    Scala- Part 1

    • 1. Introduction
    • 2. Hello word
    • 3. Expressions
    • 4. Values
    • 5. Variables
    • 6.Blocks
    • 7. Conditional expressions
    • 8. Pattern matching
    • 9. While loop
    • 10. For loop

    Scala- Part 2

    • 1. Break statement
    • 2. Comments
    • 3. Functions
    • 4. Methods
    • 5. Classes & Objects
    • 6. Traits
    • 7. Arrays
    • 8. Strings
    • 9. Scala collections
    • 10. Functions collections
    • 11. Tuple

    SPARK Introduction

    • 1. Pourquoi avons-nous besoin de SPARK?
    • 2. Qu'est-ce que SPARK?
    • 3. Spark Composants
    • 4. Catégories de composants SPARK
    • 5. SPARK Architecture
    • 6. Qu'est-ce que SPARK SQL?
    • 7. Architecture de SPARK SQL
    • 8. Histoire des RDDs, DATAFRAMES et DATASETS
    • 9. Nouvelle API SPARK 2.0
    • 10. SPARK MLLIB Définition
    • 11. MLlib pour Dataframes ou RDD’s
    • 12. MlLib par rapport aux autres bibliothèques ML
    • 13. Concepts MLlib de haut niveau
    • 14. Data ingestion & exploration
    • 15. Construire une régression linéaire simple
    • 16. Training & testing dataset
    • 17. Préparation des fonctionnalités avec des transformateurs
    • 18. Utilisation d'estimateurs pour créer des modèles
    • 19. Créer des pipelines
    • 20. Construire le modèle en utilisant toutes les fonctionnalités
    • 21. Évaluation des modèles
    • 22. Sauvegarde et chargement de modèles
    • 23. Conclusion

    Examples of machine learning algorithms with MLLIB

    Date de création: 24/03/2021 | Date de la dernière modification: 16/02/2022

    16
    Jours de formation
    112
    Heures de formation

    A l'issue de cette formation, un certificat attestant votre participation vous sera transmis.
    pmp  29-07

    Pour certaines formations un certificat vous sera remis si vous réussissez l'examen.
    (voir les certifications disponibles pour cette formation)
    Entreprises
    janvier 18, 2021

    Opérateurs de compétences (OPCO)

    Particuliers
    janvier 18, 2021

    Compte personnel de formation (CPF)

    Ce que nos clients disent de nous

    Moulay Youssef Smaili
    Moulay Youssef Smaili
    30. Novembre, 2019.
    Ayant suivi la formation Big data & Machine learning durant la dernière session (octobre-novemvre 2019), je tiens à remercier les formateurs Dr Abdoullah et Dr Amine pour la qualité de la formation, leur pédagogie et leur gentillesse. Je vous souhaite une très bonne continuation et à très bientôt inchallah. Youssef.
    AK I
    AK I
    20. Octobre, 2019.
    Any big data course in itself is interesting, but thanks to a well designed organization of the material, the hands-on labs and moderators able to deliver knowledge and expertise in a shareable mode instead of a I-give/you-take mode, made it excellent. The staff was professionally great in doing exactly what it is suppose to do and with a genuine smile. I thank you for a job well done.
    Benjamin Ekia
    Benjamin Ekia
    20. Octobre, 2019.
    ITAB Academy centre avec des formateurs au point sur les différentes formations mon expérience au sein de cette établissement était très riche.
    alfousseyni.keita.@yahoo.com Keita
    alfousseyni.keita.@yahoo.com Keita
    20. Octobre, 2019.
    Tout d'abord, je dois avouer que le local est très propice pour l'apprentissage. J'ai fait la formation big data et Machine Learning et je dois avouer que le formateur est très compétant et il sait de quoi il parle et cela est largement suffisant.

    Quelques références

    9 900 1 990 HT ( Net de taxe car « exonérée de TVA — Art. 261.4.4 a du CGI »)Ajouter au panier