J-4 Text mining avec SPARK (2/2)

Dans ce billet on continue note exercice de « Text Mining » initié dans le billet J-9 Text mining avec SPARK (1/2). Nous allons utiliser et améliorer notre algorithme pour réussir a réaliser une recherche sémantique des termes . Ce billet fait partie d’une série des exercices courtes (1h) destinés à l’apprentissage de SPARK nommés A la conquête […]

En savoir plus


J-9 Text mining avec SPARK (1/2)

Dans ce billet je voudrais vous présenter un cas d’usage typique de SPARK: Le « Text Mining ». Nous nous trouvons face à un Corps de documents et il faut que nous puisons reconnaitre des mots clés par article et par sujet. Ce billet fait partie d’une série des exercices courtes (1h) destinés à l’apprentissage de SPARK […]

En savoir plus


J-11 Calculs sur SPARK

Dans ce deuxième billet je voudrais vous présenter les opérations basiques que nous pouvons réaliser sur des Resilient Distributed Datasets (RDDs) SPARK. Ce billet fait partie d’une série des exercices courtes (1h) destinés à l’apprentissage de SPARK nommés A la conquête de SPARK sur AZURE. Parcours du Combattant: Sélection des attributs avec « map » Application des calculs […]

En savoir plus


J-14: Importer un Fichier JSON dans SPARK sur Azure

L’objectif de cette session est de réussir à démarrer notre environnement et lancer une requête SPARK sur un fichier JSON en Windows Azure. Parcours du Combattant: Déploiement du Cluster Téléchargement du fichier JSON dans AzureBlobStorage Connexion au Bloc de Notes Zepellin Importation du JSON dans SPARK Requête Éteindre le Cluster Boite à outil du combattant: […]

En savoir plus


A la conquête de SPARK sur AZURE

Je dédie cette liste des billets aux experts BI/.net Microsoft qui souhaitent découvrir les outils Big Data disponibles sur Azure d’une manière pragmatique et simple. Le défis est d’être capables de manipuler de gros ensembles de données et faire du Machine Learning en deux semaines !! Destiné aux personnes avec une agenda bien chargé, on […]

En savoir plus