Créer un ticket Mes tickets
Bienvenue
Connexion  S'inscrire

Connecteur Databricks

Cet article explique comment utiliser le connecteur Databricks pour DataGalaxy.

Ce connecteur est disponible dans les modes suivants :

Mode DesktopMode SaaS Online ✅

Ce connecteur supporte les modes d'import suivants :

Mode standard ✅Mode URN
⚠ Un changement récent de l'API REST Databricks impacte la version actuelle du connecteur concernant le lineage autour des notebooks. Certains liens peuvent manquer lorsque les notebooks sont exécutés par un job (aka workflow).
Nous travaillons actuellement sur la prochaine version du connecteur qui utilise une approche différente et plus précise pour récupérer le lineage. Cette nouvelle version est actuellement en recette et sera bientôt livrée. Cette nouvelle approche ne sera disponible qu'en mode URN.

Périmètre, attributs et représentation dans DataGalaxy

Objets

Certains attributs listés ici pourraient ne pas être présents par défaut dans la configuration de vos écrans. Pour les ajouter, il peut être nécessaire d'ajuster la configuration des écrans des objets concernés avant de lancer le connecteur. Reportez-vous à l'article suivant pour en savoir plus sur la customisation d'écrans. 

Instance

Une Instance Databricks est représentée par une Base de Données Relationnelle dans le Dictionnaire et par un Data Flow dans le module Traitements. 

L'URN suit cette syntaxe :

urn:databricks-1:instance

Les attributs suivants sont récupérés dans la configuration du connecteur :

Attribut DataGalaxySource/Valeur
Nom techniqueNom de domaine de l'Instance configuré dans le connecteur

Catalogue

Un Catalogue est représenté par un Modèle.

L'URN suit cette syntaxe :

urn:databricks-1:instance:catalog

La liste des Catalogues est récupérée grâce à la connexion JDBC et la requête SHOW CATALOGS. Les attributs suivants sont récupérés grâce à la requête DESCRIBE CATALOG EXTENDED :

Attribut DataGalaxySource/Valeur
Nom techniquecatalog
RésuméComment
Date de création de l'objet sourceCreated At
Date de dernière modification de l'objet sourceUpdated At
Note : les catalogues system et __databricks_internal sont filtrés implicitement.

Schéma

Un Schéma est représenté par un Modèle.

L'URN suit cette syntaxe :

urn:databricks-1:instance:catalog:schema

La liste des Schémas est récupérée grâce à la connexion JDBC et la requête SHOW SCHEMAS. Les attributs suivants sont récupérés grâce à la requête DESCRIBE SCHEMA EXTENDED :

Attribut DataGalaxySource/Valeur
Nom techniquedatabaseName
RésuméComment
Note : les schémas INFORMATION_SCHEMA sont filtrés implicitement.

Table (Managed ou External)

Une Table est représentée par une Table.

L'URN suit cette syntaxe :

urn:databricks-1:instance:catalog:schema:table

La liste des Tables est récupérée grâce à la connexion JDBC et la requête SHOW TABLES. Les attributs suivants sont récupérés grâce à la requête DESCRIBE TABLE EXTENDED (certains attributs peuvent ne pas être présents selon le type de Table) :

Attribut DataGalaxySource/Valeur
Nom techniquetableName
RésuméComment
Type techniqueType
Id externeId*
Date de création de l'objet sourceCreated At
Date de dernière modification de l'objet sourceUpdated At
Lien vers la sourceLocation
RequêteQuery
Taille du stockage actuellesizeInBytes*
Est partitionnée"# Partition Information" présent dans les métadonnées de la Table*

* Ces informations ne sont disponibles qu'en utilisant la méthode de récupération des métadonnées "DESC TABLE".

Vue (incluant Materialized View)

Une Vue est représentée par une Vue.

L'URN suit cette syntaxe :

urn:databricks-1:instance:catalog:schema:view@view

La liste des Vues est récupérée grâce à la connexion JDBC et la requête SHOW TABLES. Les attributs suivants sont récupérés grâce à la requête DESCRIBE TABLE EXTENDED (certains attributs peuvent ne pas être présents selon le type de Vue) :

Attribut DataGalaxySource/Valeur
Nom techniquetableName
RésuméComment
Type technique"VIEW"
Id externeId*
Date de création de l'objet sourceCreated At
Date de dernière modification de l'objet sourceUpdated At
Lien vers la sourceLocation
RequêteQuery
Taille du stockage actuellesizeInBytes*
Est partitionnée"# Partition Information" présent dans les métadonnées de la Vue*

* Ces informations ne sont disponibles qu'en utilisant la méthode de récupération des métadonnées "DESC TABLE".

Colonne

Une Colonne est représentée par une Colonne.

L'URN suit cette syntaxe :

urn:databricks-1:instance:catalog:schema:table:column

Les attributs suivants sont récupérés en même temps que les métadonnées de la Table :

Attribut DataGalaxySource/Valeur
Nom techniquecol_name
RésuméComment
Type techniquedata_type

Les attributs suivants sont calculés :

Attribut DataGalaxySource/Valeur
OrdrePosition de la Colonne dans la liste des Colonnes
Est une clé de partitionColonne présente dans la section "# Partition Information" des métadonnées de la table

Répertoire du Workspace

Un Répertoire du Workspace est représenté par un Data Flow.

L'URN suit cette syntaxe :

urn:databricks-1:instance:Workspace@workspace:directory

Les attributs suivants sont récupérés grâce à l'API REST Databricks List contents (GET /api/2.0/workspace/list) :

Attribut DataGalaxySource/Valeur
Nom techniquename
Id externeobject_id

Notebook

Un Notebook est représenté par un Data Processing.

L'URN suit cette syntaxe :

urn:databricks-1:instance:Workspace@workspace:directory:notebook@notebook

Les attributs suivants sont récupérés grâce à l'API REST Databricks List contents (GET /api/2.0/workspace/list) :

Attribut DataGalaxySource/Valeur
Nom techniquename
Id externeobject_id
Type techniqueobject_type
Résumélanguage

Workflow

Note: les Workflows ne sont supportés qu'en mode URN.

Un Workflow est représenté par un Data Processing.

L'URN suit cette syntaxe :

urn:databricks-1:instance:Workflows@workflows:workflowId

Les attributs suivants sont récupérés grâce à l'API REST Databricks List jobs (GET /api/2.2/jobs/list) et Get a single job (GET /api/2.2/jobs/get) :

Attribut DataGalaxySource/Value
Technical namejob_id
Functional namename
Summarydescription

Liens

Les liens créés par le connecteur Databricks sont des liens de lineage entre les structures du Dictionnaire et éventuellement les objets Data Processing du module Traîtements. La récupération du lineage est optionnelle, l'option "Récupérer le lineage" doit être activée dans la configuration du connecteur. Alors, le niveau de granularité à la table ou à la colonne peut être choisi*. La méthode de récupération du lineage peut être configurée également*, deux options sont possibles :

  • La nouvelle option recommandée par Databricks est d'utiliser les System Tables. Cela peut nécessiter de la configuration de la part d'un administrateur du workspace Databricks pour les rendre utilisables. C'est cette option qui vous permettra d'obtenir le plus haut niveau de précision dans le lineage. Les vues system.access.table_lineage et system.table.column_lineage sont lues par le connecteur pour récupérer le lineage avec cette méthode.
  • L'option historique est d'utiliser l'API REST Databricks (GET /api/2.0/lineage-tracking/table-lineage endpoint). Cette API est moins précise que les System Tables. Par exemple, il n'est pas possible d'avoir une correspondance précise entre les objets en entrée et en sortie d'un Notebook ou Workflow, ce qui est disponible avec la méthode System Tables.
Ces deux options ne sont disponibles qu'en mode URN.

Lors de la création des liens autour des Notebooks et Workflows, le comportement suivant est implémenté pour obtenir le lineage le plus complet et le plus précis dans DataGalaxy :

  • Si l'option "Récupérer les Notebooks" est sélectionnée, les liens de lineage seront créés autour de tous les notebooks qui font partie du périmètre du connecteur. Si un Notebook ne fait pas partie du périmètre (filtré par le préfixe du chemin, ou faisant partie d'un autre workspace Databricks), alors les liens seront créés directement entre les structures du Dictionnaire.
  • Si l'option "Récupérer les Workflows" est sélectionnée, les liens de lineage seront créés autour de tous les Workflows faisant partie du périmètre du connecteur. Si un Workflow ne fait pas partie du périmètre (appartenant à un autre workspace Databricks), alors les liens seront créés directement entre les structures du Dictionnaire.

Lorsqu'un objet Data Processing est impliqué dans le lineage, le connecteur Databricks tire partie des Data Processing Items, afin de fournir une correspondance précise entre les objets en entrée et en sortie. Le nom des objets Data Processing Items créés par le connecteur sont des noms techniques, construits selon les noms des objets en entrée et en sortie, ils ne représentent rien de réel et ne viennent pas de Databricks. Ces noms restent identiques dans le temps tant que les objets en entrée et en sortie ne changent pas.

Note : la Gestion des Objets Orphelins ne supporte pas encore les objets Data Processing Items. Cela signifie que si vous avez d'anciens Data Processing Items, ils ne seront pas nettoyés par le traitement de Gestion des Objets Orphelins. Cela est identifié par l'équipe qui est en train de travailler sur une évolution de cette fonctionnalité pour gérer ces objets.

Périmètre

Objet Databricks
Module DataGalaxy
Objet DataGalaxy
Attributs DataGalaxy
Commentaires
CatalogDictionnaireModèleDate de création de l'objet source,
Date de la dernière modification
Le connecteur permet de se connecteur sur une version Standard ou Unity catalog. Pour une version Standard, les schémas auront pour parent un modèle par défaut nommé "hive_metastore". Les catalogues et les schémas vides ainsi que le schéma technique "information_schema" ne sont pas importés.
Schema (Database)DictionnaireModèle

Table DictionnaireTableDate de création de l'objet source,
Date de la dernière modification de l'objet source,
Taille du stockage actuel, Unité de stockage,
Partitionné,
Type technique
Le connecteur permet de remonter les liens entre les tables (ou vues) et les notebooks lorsque la version utilisée de Databricks est celle d'Unity catalog et que le lineage est activé dessus (Capture and view data lineage with Unity Catalog).
ViewDictionnaireVueDate de création de l'objet source,
Requête,
Type technique
ColumnDictionnaireColonneClé de partition
FolderTraitementsFluxType techniqueLes flux et traitements sont importés dans un flux racine dans le module Traitement (à créer ou à sélectionner lors du paramétrage d'une connexion).

Le connecteur permet de remonter les liens entre les tables (ou vues) et les notebooks lorsque la version utilisée de Databricks est celle d'Unity catalog et que le lineage est activé dessus (Capture and view data lineage with Unity Catalog).
NotebookTraitementsTraitementsType technique
Workflows*TraitementsTraitementsLe lineage autour des workflows est également disponible sur les workspaces Unity*

* Ces objets ne sont disponibles qu'en activant le mode URN du connecteur.

Des attributs complémentaires sont également renseignés selon la technologie et par type d'objet. Pour les faire apparaître dans les écrans DataGalaxy, il peut être nécessaire d'adapter les écrans des objets concernés. Consultez cet article pour en savoir plus sur la personnalisation des écrans.

Périmètre détaillé

Entrée (module Dictionnaire)

  • Catalog, schema, table et view

Depuis la page d'accueil de votre compte Databricks, ces éléments sont visibles dans la rubrique "Catalog" située à gauche.

  • Column

En cliquant sur une table ou une vue donnée, vous aurez le détail des colonnes qui la composent.

Entrée (module Traitements)

  • Folders

Depuis la page d'accueil de votre compte Databricks, les folders sont visibles dans la rubrique "Workspace" située à gauche. Seront remontés les dossiers contenus dans le dossier "Workspace". Les dossiers "User" et "Repos" seront ignorés lors de l'import.

  • Notebooks

Les notebooks sont visibles en cliquant sur un dossier. Ils apparaîtrons alors dans la partie centrale de l'écran.

  • Workflows (uniquement avec la version Unity Catalog de Databricks)

Depuis la page d'accueil de votre compte Databricks, les workflows sont visibles dans la rubrique "Jobs et Pipelines" située à gauche. 

En cliquant sur un job donné vous aurez les détails qui y sont associés, et notamment le linéage associé, avec les tables upstream et downstream (ce qui correspondra dans DataGalaxy à des liens avec des tables).

Vous retrouverez également cette information et ouvrant l'onglet "linéage" d'une table donnée de la rubrique "Catalog".

Sortie (module Dictionnaire)

  • Catalog, schema, table, view et column

Sortie (module Traitements)

  • Folders et Notebooks

Configuration de la connexion

    Côté Databricks

Le connecteur Databricks exploite le driver JDBC fourni par Databricks ainsi que l'API REST de Unity Catalog. La connexion à une instance Databricks nécessite donc un cluster pour exécuter les commandes SQL via le driver JDBC. Vous pouvez soit utiliser un cluster interactif soit un cluster SQL Warehouse. L'accès aux informations de connexion d'un cluster est disponible ici. Afin d'optimiser les temps de traitement, vous pouvez allumer le cluster en amont du lancement du connecteur.

Pour s'authentifier sur le cluster Databricks, trois modes sont disponibles :

L'authentification par jeton (token)

La procédure détaillée de génération d'un jeton est disponible ici. Le jeton est associé à un utilisateur qui doit avoir accès aux tables que vous souhaitez remonter par le connecteur (en clair, lorsque vous vous connectez avec le compte associé au token, si vous ne voyez pas ce que vous souhaitez remonter alors l'import avec ce token ne remontera pas non plus les objets manquants).

Pour générer un token suivez les étapes suivantes :

  • Connectez-vous à l'aide du User auquel vous voulez associer le token
  • Depuis la page d'accueil, cliquez sur l'icône utilisateur en haut à droite puis sur "Settings"
  • Ouvrez le menu "Developer" puis cliquez sur le bouton "Manage" d'"Access tokens"
  • Générez votre token en lui attribuant une description et une durée de vie
  • Conservez le token généré, vous pouvez maintenant l'utiliser pour configurer votre connexion DataGalaxy

L'authentification par Service Principal Entra ID (Azure AD)

Afin d'utiliser les service principals sur Azure Databricks, un utilisateur Admin doit d'abord créer une nouvelle application Microsoft Entra ID (anciennement Azure AD) en suivant les étapes suivantes :

  • Accédez au portail Azure (par exemple en cliquant sur l'icône utilisateur depuis votre compte Databricks puis sur "Azure Portal")
  • Une fois sur le portail Azure, dans la barre de recherche trouvez et cliquez sur "Microsoft Entra ID"
  • Cliquez ensuite sur "+ Add" puis "App registration"
  • Rentrez les informations nécessaires, sans oublier de choisir pour la section "Supported account types" l'option "Accounts in this organizational directory only (Single tenant)"
  • Une fois l'application créée, n'oubliez pas de copier/coller l'"Application (client) ID" et le "Directory (tenant) ID" avant de cliquer à gauche sur "Certificates and secrets"
  • Dans "Certificates and secrets", générez un secret grâce à "+ New client secret". Dans la fenêtre de droite rentrez une description et une date d'expiration avant de cliquer sur "Add"
  • Conservez le secret généré, vous pouvez maintenant l'utiliser pour configurer votre connexion DataGalaxy

Une fois l'application créée dans Microsoft Entra ID, il va falloir la lier à votre compte Databricks en suivant les opérations suivantes :

  • Depuis la page d'accueil, cliquez sur l'icône utilisateur en haut à droite puis sur "Settings"
  • Ouvrez le menu "Identité et accès" puis cliquez sur le bouton "Manage" de "Service Principals"
  • Vous aurez ensuite la possibilité de créer un service principal avec le bouton "Add service principal"
  • Il vous suffira alors de copier le Microsoft Entra Application ID" pour associer votre Application Azure au compte Azure Databricks

L'authentification par Service Principal Databricks

Un Service Principal est une identité spécialisée utilisée pour les accès automatiques et les opérations programmées. Vous pouvez gérer les accès d'un Service Principal Databricks de la même manière que vous gérez ceux d'un utilisateur. Pour le créer suivez les étapes suivantes :

  • Depuis la page d'accueil, cliquez sur l'icône utilisateur en haut à droite puis sur "Settings"
  • Ouvrez le menu "Identité et accès" puis cliquez sur le bouton "Manage" de "Service Principals"
  • Vous aurez ensuite la possibilité de créer un service principal avec le bouton "Add service principal"
  • Une fois le service principal créé, cliquer dessus pour accéder à ses détails, et notamment à l'onglet "Secrets" où vous trouverez le bouton "Generate secret". Comme avec le token il vous sera proposé de rentrer une durée de vie à ce secret
  • Conservez le secret généré, vous pouvez maintenant l'utiliser pour configurer votre connexion DataGalaxy

Détail des droits nécessaires à l'obtention des métadonnées

Nous allons maintenant détailler les autorisations associées aux différents types de métadonnées, divisées en catégories

  • Catalogue, Schéma, Table/Vue

Pour octroyer les droits nécessaire à votre Service Principal Databricks/Azure, la manipulation sera la même:

  1. Sélectionnez à gauche "Catalog"
  2. Sélectionnez la source à laquelle vous souhaitez donner accès
  3. Aller dans l'onglet "Permissions" et cliquez sur "Grant"
  4. Dans la fenêtre qui s'ouvre ajouter votre Service Principal puis cocher les droits USE CATALOG, USE SCHEMA et SELECT avant de valider (si vous utilisez le mode de récupération des métadonnées "INFORMATION_SCHEMA", remplacez SELECT par BROWSE)
    Si vous souhaitez gagner en précision vous pouvez attribuer les autorisations USE SCHEMA et SELECT au niveau des schémas et des tables
  • Folder, Notebook (Fonctionnalité - Récupérer les Notebooks)

Pour octroyer les droits nécessaire à votre Service Principal Databricks/Azure, la manipulation sera la même :

  1. Sélectionnez à gauche "Workspace"
  2. Sélectionnez le dossier "Workspace" auquel vous souhaitez donner accès
  3. Cliquez sur le bouton "Share"
  4. Dans la fenêtre qui s'ouvre indiquez le nom de votre Service Principal et donnez-lui le droit "Can View"
  • Workflow (Fonctionnalité - Récupérer les Workflows) 

Pour octroyer les droits nécessaire à votre Service Principal Databricks/Azure, la manipulation sera la même :

  1. Sélectionnez à gauche "Jobs & Pipelines"
  2. Sélectionnez l'élément auquel vous souhaitez donner accès
  3. Dans la fenêtre de droite descendez jusqu'à "Permissions" et cliquez sur "Edit permissions"
  4. Dans la fenêtre qui s'ouvre indiquez le nom de votre Service Principal et donnez-lui le droit "Can View"
  • Linéage Unity (Fonctionnalité - Récupérer le lineage depuis Unity)

Quand la fonctionnalité "Récupérer le lineage depuis Unity" est activé, avoir les autorisations ci-dessus sur les tables, notebooks et workflows concernés par le linéage suffit pour remonter toutes les informations de linéage qui les relient 

  • Ressource de calcul

Pour donner à votre Service Principal Databricks/Azure le droit d'utiliser la ressource de calcul nécessaire à l'import vers DataGalaxy, voici les étapes à suivre :

  1. Sélectionnez à gauche "SQL Warehouses"
  2. Sélectionnez la ressource que vous souhaitez utiliser pour votre import ou créez-là
  3. Cliquez à droite sur "Permissions"
  4. Dans la fenêtre qui s'ouvre choisissez votre Service Principal et donnez lui le droit "Can Use"
  5. Enfin dans l'onglet "Connexion details" vous trouverez tout ce dont vous avez besoin pour paramétrer la connexion côté DataGalaxy, à savoir le "Server hostname" et le "HTTP path"

Pour plus de précisions concernant les droits des clusters, veuillez consulter le tableau suivant. La gestion des permissions dans Databricks est disponible ici.

    Côté DataGalaxy

Les informations suivantes sont demandées pour configurer une connexion:

ParamètreObligatoireDescription
ServeurOui
Nom du serveur Databricks, exemple : 
adb-XXXXXXXXXXXXXXXX.X.azuredatabricks.net
PortOui
Port de connexion au serveur Databricks, exemple : 443

HTTP Path

Oui
URL des ressources de calcul de Databricks, exemple : sql/protocolv1/o/XXXX/0125-105531-okp9kyqn
AuthentificationOui
  • Jeton Databricks
  • Service Principal Azure AD
  • Service Principal Databricks

Service Principal Azure AD

Id tenantOuiAzure ID Tenant
Id clientOuiAzure ID Client
Secret clientOuiAzure Secret Client
Service Principal DatabricksId clientOuiID Client du Service Principal Databricks
Secret clientOuiSecret du Service Principal Databricks
Jeton DatabricksMot de passeOuiJeton Databricks Personnel
Filtre - CatalogueNonLimite le périmètre à un ou plusieurs catalogues
Fonctionnalité - Récupérer les NotebooksNonLes notebooks seront créés dans DataGalaxy en tant que Traitements
Filtre -  Filtrer l'arborescence (préfixe)
Non
Pour les notebooks : limite le périmètre pour un dossier donné à partir du préfixe renseigné, exemple de valeur : /Shared
Note : le dossier /Users est filtré implicitement.
Fonctionnalité - Récupérer les Workflows*NonLes workflows seront créés dans DataGalaxy en tant que Traitements 
Fonctionnalité - Méthode de récupération des métadonnées Tables/Vues*
Oui
  • DESC TABLE: méthode "classique" de récupération des métadonnées, nécessite le droit "SELECT" sur les tables des catalogues concernés
  • INFORMATION_SCHEMA: cette méthode va remonter moins de métadonnées et ne fonctionne qu'en mode URN et lorsque le Unity Catalog est activé. Par contre elle ne nécessite pas le droit "SELECT" mais "BROWSE" uniquement
Fonctionnalité - Récupérer le lineage depuis UnityNonLe lineage présent dans Unity est remonté dans DataGalaxy
Fonctionnalité - Profondeur d’historique de lineage (jours)NonNombre de jours depuis lesquels on remonte nos évenements de lineage
Fonctionnalité -

Catalogue système spécifique

NonUtiliser un catalogue système spécifique pour la récupération du lineage
Fonctionnalité - Client driver JDBCNon
  • Utiliser le client Thrift (= option par défaut en Auto) : configure UseThriftClient=1 dans le driver JDBC. Databricks va déprécier cette option dans le futur;
  • Utiliser les API Statement Execution : configure UseThriftClient=0 dans le driver JDBC. Utilisez ce paramétrage si vous rencontrez des soucis avec le client Thrift. Encore jeune chez Databricks, des effets de bord sont possibles, ce n'est donc pas encore l'option par défaut.
Plus d'informations dans la documentation Databricks.
⚠ La récupération du lineage peut significativement augmenter la durée d'exécution du connecteur et par conséquent les coûts associés au cluster de calcul utilisé.

* Uniquement en mode URN

Du mode standard au mode URN

Différences

  1. En mode Standard le nom de votre objet racine sera celui que vous lui donnerez lorsque vous créez la connexion (ou de l'objet racine du module Dictionnaire que vous ciblerez). En mode URN le nom de l'objet racine sera le nom de serveur Databricks.
    • Mode Standard
    • Mode URN
  2. En mode Standard, dans le module "Traitements", vos objets projets "Flux" et "Traitement" seront regroupés directement sous votre objet racine. En mode URN ces mêmes objets seront regroupés un niveau plus bas dans la hiérarchie, sous un objet nommé "Workspace". Un objet supplémentaire nommé "Workflows" fera également son apparition au même niveau que l'objet "Workspace"
    • Mode Standard
    • Mode URN

Guide de migration

Ce guide a pour but de vous indiquer les étapes à suivre pour passer votre objet racine et tous les objets Databricks qu'il contient du mode Standard au mode URN. Une fois ces étapes effectuées, vous serez en mesure de réaliser tous vos futurs imports en mode URN et de profiter des nouvelles fonctionnalités associées à ce mode. 

  1. Descendre d'un niveau les objets contenus dans votre objet racine Databricks du module "Traitements"
    • Ouvrir le menu associé à votre objet racine (”Databricks” ici) et choisir l’option “+ Créer un enfant”. Il sera de type “Flux” et vous le nommerez "Workspace"
    • Une fois cela fait il vous faudra déplacer chacun de vos autres objets (”Shared” et "Test" ici) en ouvrant leurs menus associés et en choisissant l’option “Déplacer”. Vous ciblerez l’objet créé juste avant, “Workspace” 
    • Si vous ne réalisez pas cette opération, lors de l'import en mode URN final sur votre objet racine vous créerez des doublons de tous les objets remontés depuis Databricks
  2. Si ce n'est pas encore le cas, associer aux sources “Database” du module "Dictionnaire" l'attribut "URN". Faites de même pour les objets "Flux" du module "Traitement"
  3. Associer à vos objets racine des modules "Dictionnaire" et "Traitement" l'URN correspondant
    • A ce propos nous conseillons de suivre les étapes suivantes pour éviter toute erreur:
      • Réaliser un import en mode URN, lequel va créer un nouvel objet racine dans chaque module pour lequel l'attribut URN sera renseigné
      • Copier lesdits attributs URN
      • Supprimer les objets racine que vous venez d'importer en mode URN ainsi que tous leurs enfants (vu qu'un URN doit être unique, si vous ne supprimez pas cet objet racine avant d'assigner son URN à un autre objet la plateforme retournera une erreur)
      • Coller les URNs pour renseigner les attribut URN de vos objets racine qui sont encore en mode Standard dans chacun des modules
  4. Réaliser un nouvel import en mode URN
    • Cette fois-ci tous les attributs URN des enfants sous vos objets racine des deux modules devraient être renseignés

Félicitations, vous avez migré du mode Standard au mode URN et êtes en mesure de profiter de toutes les nouvelles fonctionnalités offertes par celui-ci !

Exécution du connecteur

Etape 1: Installation

  • Télécharger le connecteur DataGalaxy depuis le portail (voir ici)
  • Extraire l'archive du connecteur dans le répertoire de votre choix
  • Télécharger le plug-in Databricks depuis le portail et le copier dans le répertoire /lib du connecteur

Etape 2: Exécution du connecteur

  • Après avoir démarré le connecteur, accéder aux connecteurs du Dictionnaire ou des Traitements

  • S'il a été correctement installé, le plug-in Databricks apparaît dans la liste

  • Complétez les champs correspondants à l'aide des informations de connexion données ci-dessus

Jeton Databricks:

Service Principal Azure AD:

Service Principal Databricks:

  • Cliquez sur "Test" pour tester la connexion
  • Une fois le test de connexion passé vous pouvez suivre les étapes pour finaliser votre import.

Ce connecteur est également disponible en mode online, pour plus de précisions consulter cette page: 

[HowTo] Exécution du Connecteur Online.

Releases

DatePlugin
Version
DataGalaxy
release
Desktop connector version (minimum)Description
28/05/20266.7.0v3.345.05.15.9Path of the system catalog made configurable
05/05/20266.6.1v3.337.05.15.9Lineage history depth configurable in days
24/04/20266.5.3v3.332.15.15.9Updated internal dependencies
14/04/20266.5.2v3.329.35.15.8Adding option to use the new Statement Execution APIs client instead of Thrift client in the Databricks' JDBC driver
19/03/20266.4.6v3.322.05.15.7Bugfix regarding jobRunId parameter
03/11/20256.4.2v3.273.15.13.0Improve connector's resilience when retrieving lineage information
17/10/20256.4.1v3.268.25.13.0
Allow the user to choose between two metadata retrieval methods
03/10/20256.3.1v3.262.05.13.0Fix a bug preventing from authenticating to EntraID in CLI mode with the --password argument
23/09/20256.3.0v3.254.05.13.0Addition of the option to filter out or not the "/Users" folder
25/08/20256.2.0v3.245.05.13.0Addition of new retrieval option for lineage
04/08/20256.1.3v3.228.15.13.0Fix issue with Notebook retrieval
31/07/20256.1.2v3.220.15.7Fixed a bug related to the retriavel of the lineage in standard mode
07/06/20256.0.15v3.178.15.6.2- Fixed http proxy configuration with JDBC driver
- Fixed unnecessary creation of Processing root object in URN mode even if no children have to be created
27/05/20256.0.13v3.172.55.6.1- Fixed a bug related to retrieving lineage from another unity workspace
- FIxed a bug related to views
20/05/20256.0.11v3.171.05.5.13- New lineage behavior: all lineage can be imported, independently of choosing to create Notebooks and Workflows in DataGalaxy.
- Activated the possibility of using URN imports for everybody 
04/04/20255.1.0v3.154.65.5.5Optimized how data is handled in URN mode

21/01/20254.0.12v3.125.05.2.9Improved resiliency of the connector
9/01/20254.0.11v3.116.15.2.8Fixed a bug regarding CSV imports and improved logs
16/10/20243.0.3v3.85.15.2.6System catalogs are now filtered out and error logging is improved
20/09/20243.0.2v3.77.15.2.6Fixed a bug regarding external tables that are views
23/08/20243.0.1v3.69.05.2.3Updated the logger to show more information when using verbose mode  
26/07/20243.0.0v3.62.05.0.3Migrated from java 11 to java 17
04/07/20242.4.2v3.56.0
Fixed a bug where some connexion fields where not loaded from a saved connection
04/07/20242.4.13.56.0
Updated a dependency
15/05/20242.4.0v3.46.0
Addition of Databricks Service Principal authentication
16/04/20242.3.0v3.40.0
Addition of Entra ID (Azure AD) Service Principal authentication



Cette réponse a-t-elle été utile ? Oui Non

Envoyer vos commentaires
Désolés de n'avoir pu vous être utile. Aidez-nous à améliorer cet article en nous faisant part de vos commentaires.