Modele de ruche

Comprenons maintenant ces considérations de modélisation de données dans Hive un par un-c`est une façon d`utiliser HDFS-Hive pour l`accès aux données, pas la seule façon. Hive est un système d`entrepôt de données Open source construit au-dessus de Hadoop Haused pour interroger et analyser les grands ensembles de jeux stockés dans les fichiers Hadoop. Il traite les données structurées et semi-structurées dans Hadoop. Les données dans Apache Hive peuvent être classées en: #TheHiveModels #AlexandraMartynova #Dior #HenrikAdamsen #KawaHPour #TobiasSagner #MayumiOda, #editorial #beautiful #love Apache Hive organise des tables en partitions pour regrouper le même type de données en fonction sur une colonne ou une clé de partition. Chaque table de la ruche peut avoir une ou plusieurs clés de partition pour identifier une partition particulière. En utilisant la partition, nous pouvons également rendre plus rapide pour faire des requêtes sur des tranches de données. Commande: CREATE TABLE table_name (Colonne1 data_type, Colonne2 data_type) partitionnée par (Partition1 data_type, partition2 data_type,….); Par exemple, nous pouvons comprendre la partition. Considérez que vous avez une table student_details contenant les informations d`étudiant de certains Collège d`ingénierie comme student_id, nom, département, année, etc. Maintenant, si vous voulez effectuer le partitionnement sur la base de la colonne Department.

Ensuite, les informations de tous les étudiants appartenant à un département particulier seront stockées ensemble dans cette partition. Physiquement, une partition dans Hive n`est rien d`autre qu`un sous-répertoire dans le répertoire de la table. Supposons que vous ayez des données pour trois départements dans notre table student_details – EEE, ECE et ME. Ainsi, vous aurez trois partitions au total pour chacun des départements comme vous pouvez le voir dans le diagramme ci-dessous. Pour chaque département, vous aurez toutes les données concernant ce même département résidant dans un sous-répertoire distinct sous l`annuaire de la table. Je pense dans ce processus (de haut niveau). Avec 3 étapes:-obtenir tous les fichiers de HDFS et stockés dans Hive (chaque fichier sont une table)-obtenir toutes les tables de Hive avec Spark et faire quelques transformations de données (agrégations et travaux de nettoyage)-Placez les tables agrégées dans Hive pour fournir l`accès à mon utilisateur : vous pouvez créer des tables externes dans Hive qui pointent vers les fichiers. Vous pouvez ensuite accéder directement aux données HDFS en tant que table Hive. Vous pouvez mettre la logique de transformation de données pour n`importe quel nettoyage/modélisation/accès plus rapide de données, mais qui est entièrement à vous. Si les performances de vos tables externes sont assez bonnes pour vous, vous n`avez pas besoin d`aller plus loin après la création de tables externes.