HadoopDB veut être l'outil d'analyse de l'ère des petaoctets

Par 01 septembre 2009

Des chercheurs ont développé une suite open source qui combine un système de gestion de bases de données classique et un algorithme de répartition des tâches issu de la recherche et développement de Google

La prolifération de logiciels en ligne et l'automatisation des processus font que les entreprises doivent stocker et analyser des quantités de données gigantesques. Ces dernières peuvent aller jusqu'à plusieurs téraoctets (milliers de Go) par jour. Deux écoles s'affrontent : les partisans des infrastructures massivement parallèles ou MPP, et les partisans de MapReduce. Créé par Google, cet algorithme - que l'on retrouve dans Apache Hadoop - distribue les traitements dans des clusters (grappes de calcul).
Le meilleur des deux mondes
Mais alors que les MPP sont reconnus pour leurs performances et leur efficacité, MapReduce bénéficie lui d'une bonne tolérance aux fautes, et de fortes capacités de montée en charge. D'où l'initiative des chercheurs de Yale et Brown pour mixer les deux. Ces derniers ont pour cela mis au point HadoopDB. HadoopDB est un assemblage de technologies open source : Hadoop, PostgreSQL (base de données relationnelle) et Hive (analyse des données).  "HadoopDB combine ce qu'il y a de meilleur chez les deux systèmes, affirme à L'Atelier Daniel Abadi, responsable du projet. 
Des projets chez Microsoft et Yahoo!
Les performances des systèmes de gestion des bases de données parallèles et l'extensibilité, ainsi que la facilité d'utilisation de MapReduce" Concrètement chaque nœud embarque son propre serveur de base de données. Hadoop reçoit des requêtes SQL, les analyse et les traduit en tâches MapReduce. Hadoop coordonne l'envoi et l'exécution de celles-ci sur chacun des nœuds de l'ensemble. Les chercheurs rappellent que des projets similaires existent chez Yahoo et Microsoft. À savoir "Pig project" pour le premier et "SCOPE project" pour le second.

Mentions légales © L’Atelier BNP Paribas