Stack Hadoop

INGENSI à choisit la technologie Open Source Hadoop pour développer ses architectures Big Data.

Hadoop, la référence du Big Data open source

Fonctionnement d'HadoopCréé par la fondation Apache, Hadoop est un système spécialement conçu pour stocker et traiter par lots des quantités massives de données (de l’ordre du pétaoctet).

Inspiré des travaux de Google (MapReduce), Hadoop est mondialement utilisé et enrichi par des acteurs majeurs tels que :

  • Yahoo!
  • Facebook
  • Adobe
  • Twitter
  • Cloudera

Pourquoi choisir Hadoop ?

Logo Hadoop

  • Une solution performante à moindre coût qui permet aux entreprises de libérer toute la valeur de leurs données en utilisant des serveurs peu onéreux.
  • Un stockage sans limite : Hadoop permet de stocker de manière extensible tous types de données, structurées ou non (PDF, MP3, base de données, etc.) grâce au système « Hadoop Distributed File System » (HDFS).
  • Analyse des données performantes : Hadoop permet d’analyser rapidement des données, qu’elles soient structurées ou non. Hadoop traite ainsi parallèlement de multiples calculs en distribuant une opération sur plusieurs serveurs.
  • Sécurité optimale des données : Hadoop est également tolérant aux pannes puisqu’il réplique chaque donnée sur plusieurs serveurs afin de se prémunir des incidents et garantir qu’aucune donnée ne soit perdue. Son architecture distribuée lui permet également de détecter les pannes de serveurs et de poursuivre les tâches en sollicitant de nouveaux serveurs.

Besoin d’une expertise Hadoop ? Contactez-nous !


Impala

Logo ImpalaImpala est une base de données permettant d’effectuer des requêtes SQL. Cette technologie créée par Cloudera fonctionne sur Hadoop et permet aux datascientists d’effectuer leurs recherches analytiques sur des données à grande échelle.

Impala se base sur son moteur SQL très performant et sur les acquis d’Hadoop, comme par exemple son système de fichiers distribués HDFS, son méta-store de données reposant sur la technologie Hive ou encore sa flexibilité des calculs distribués à coûts réduits grâce à Yarn.

Cette solution open source ambitieuse vise donc à améliorer les performances de requêtes SQL sur Hadoop grâce à la fonction “in-memory” qui permet l’agrégation de très grandes tables dans un délai très court, proche du temps réel.

L’autre force d’Impala réside dans sa capacité à intégrer des bases SQL dans Hadoop, avec une prise en main immédiate pour tout datascientist.

Sans réelle concurrence à ce jour, Impala est sans conteste l’un des plus grands atouts de la distribution Cloudera.

Besoin d’une expertise sur Impala ? Contactez-nous !


Spark

Logo SparkSpark est un projet de la fondation Apache qui vise à remplacer le framework de calcul vieillissant d’Hadoop : MapReduce.

Spark rend le traitement de l’information jusqu’à 100 fois plus rapide que les technologies existantes jusqu’ici.

Spark permet de développer des applications de traitement de type « batch » (MapReduce), mais aussi de flux de données, des requêtes interactives et du machine learning. Sa facilité d’utilisation en fait un outil incontournable pour le calcul distribué.

Spark propose également un module permettant d’utiliser la puissance de calcul disponible pour faire du SQL, une connectivité universelle via JDBC et se connecte au méta-store de Hive pour uniformiser les données sur un cluster Hadoop.

Il met enfin à disposition des datascientists des librairies exploitant des algorithmes performants sur les jeux de données pour modéliser des graphiques, faire du machine learning et fournir des résultats facilement utilisables. Ce projet en constante évolution fait de Spark une valeur sûre dans le monde des solutions de calcul distribué et permet de servir de base pour de multiples utilisations.

Besoin d’une expertise sur Spark ? Contactez-nous !