Connecteur Databricks

Modifié le : Lun, 1 Juin, 2026 à 9:57 H

Cet article explique comment utiliser le connecteur Databricks pour DataGalaxy.

Ce connecteur est disponible dans les modes suivants :

Mode SaaS Online ✅

Ce connecteur supporte les modes d'import suivants :

Mode standard ✅

⚠ Un changement récent de l'API REST Databricks impacte la version actuelle du connecteur concernant le lineage autour des notebooks. Certains liens peuvent manquer lorsque les notebooks sont exécutés par un job (aka workflow).
Nous travaillons actuellement sur la prochaine version du connecteur qui utilise une approche différente et plus précise pour récupérer le lineage. Cette nouvelle version est actuellement en recette et sera bientôt livrée. Cette nouvelle approche ne sera disponible qu'en mode URN.

Périmètre, attributs et représentation dans DataGalaxy

Objets

Certains attributs listés ici pourraient ne pas être présents par défaut dans la configuration de vos écrans. Pour les ajouter, il peut être nécessaire d'ajuster la configuration des écrans des objets concernés avant de lancer le connecteur. Reportez-vous à l'article suivant pour en savoir plus sur la customisation d'écrans.

Instance

Une Instance Databricks est représentée par une Base de Données Relationnelle dans le Dictionnaire et par un Data Flow dans le module Traitements.

L'URN suit cette syntaxe :

urn:databricks-1:instance

Les attributs suivants sont récupérés dans la configuration du connecteur :

Attribut DataGalaxy	Source/Valeur
Nom technique	Nom de domaine de l'Instance configuré dans le connecteur

Catalogue

Un Catalogue est représenté par un Modèle.

L'URN suit cette syntaxe :

urn:databricks-1:instance:catalog

La liste des Catalogues est récupérée grâce à la connexion JDBC et la requête SHOW CATALOGS. Les attributs suivants sont récupérés grâce à la requête DESCRIBE CATALOG EXTENDED :

Attribut DataGalaxy	Source/Valeur
Nom technique	catalog
Résumé	Comment
Date de création de l'objet source	Created At
Date de dernière modification de l'objet source	Updated At

Note : les catalogues system et __databricks_internal sont filtrés implicitement.

Schéma

Un Schéma est représenté par un Modèle.

L'URN suit cette syntaxe :

urn:databricks-1:instance:catalog:schema

La liste des Schémas est récupérée grâce à la connexion JDBC et la requête SHOW SCHEMAS. Les attributs suivants sont récupérés grâce à la requête DESCRIBE SCHEMA EXTENDED :

Attribut DataGalaxy	Source/Valeur
Nom technique	databaseName
Résumé	Comment

Note : les schémas INFORMATION_SCHEMA sont filtrés implicitement.

Table (Managed ou External)

Une Table est représentée par une Table.

L'URN suit cette syntaxe :

urn:databricks-1:instance:catalog:schema:table

La liste des Tables est récupérée grâce à la connexion JDBC et la requête SHOW TABLES. Les attributs suivants sont récupérés grâce à la requête DESCRIBE TABLE EXTENDED (certains attributs peuvent ne pas être présents selon le type de Table) :

Attribut DataGalaxy	Source/Valeur
Nom technique	tableName
Résumé	Comment
Type technique	Type
Id externe	Id*
Date de création de l'objet source	Created At
Date de dernière modification de l'objet source	Updated At
Lien vers la source	Location
Requête	Query
Taille du stockage actuelle	sizeInBytes*
Est partitionnée	"# Partition Information" présent dans les métadonnées de la Table*

* Ces informations ne sont disponibles qu'en utilisant la méthode de récupération des métadonnées "DESC TABLE".

Vue (incluant Materialized View)

Une Vue est représentée par une Vue.

L'URN suit cette syntaxe :

urn:databricks-1:instance:catalog:schema:view@view

La liste des Vues est récupérée grâce à la connexion JDBC et la requête SHOW TABLES. Les attributs suivants sont récupérés grâce à la requête DESCRIBE TABLE EXTENDED (certains attributs peuvent ne pas être présents selon le type de Vue) :

Attribut DataGalaxy	Source/Valeur
Nom technique	tableName
Résumé	Comment
Type technique	"VIEW"
Id externe	Id*
Date de création de l'objet source	Created At
Date de dernière modification de l'objet source	Updated At
Lien vers la source	Location
Requête	Query
Taille du stockage actuelle	sizeInBytes*
Est partitionnée	"# Partition Information" présent dans les métadonnées de la Vue*

* Ces informations ne sont disponibles qu'en utilisant la méthode de récupération des métadonnées "DESC TABLE".

Colonne

Une Colonne est représentée par une Colonne.

L'URN suit cette syntaxe :

urn:databricks-1:instance:catalog:schema:table:column

Les attributs suivants sont récupérés en même temps que les métadonnées de la Table :

Attribut DataGalaxy	Source/Valeur
Nom technique	col_name
Résumé	Comment
Type technique	data_type

Les attributs suivants sont calculés :

Attribut DataGalaxy	Source/Valeur
Ordre	Position de la Colonne dans la liste des Colonnes
Est une clé de partition	Colonne présente dans la section "# Partition Information" des métadonnées de la table

Répertoire du Workspace

Un Répertoire du Workspace est représenté par un Data Flow.

L'URN suit cette syntaxe :

urn:databricks-1:instance:Workspace@workspace:directory

Les attributs suivants sont récupérés grâce à l'API REST Databricks List contents (GET /api/2.0/workspace/list) :

Attribut DataGalaxy	Source/Valeur
Nom technique	name
Id externe	object_id

Notebook

Un Notebook est représenté par un Data Processing.

L'URN suit cette syntaxe :

urn:databricks-1:instance:Workspace@workspace:directory:notebook@notebook

Les attributs suivants sont récupérés grâce à l'API REST Databricks List contents (GET /api/2.0/workspace/list) :

Attribut DataGalaxy	Source/Valeur
Nom technique	name
Id externe	object_id
Type technique	object_type
Résumé	language

Workflow

Note: les Workflows ne sont supportés qu'en mode URN.

Un Workflow est représenté par un Data Processing.

L'URN suit cette syntaxe :

urn:databricks-1:instance:Workflows@workflows:workflowId

Les attributs suivants sont récupérés grâce à l'API REST Databricks List jobs (GET /api/2.2/jobs/list) et Get a single job (GET /api/2.2/jobs/get) :

Attribut DataGalaxy	Source/Value
Technical name	job_id
Functional name	name
Summary	description

Liens

Les liens créés par le connecteur Databricks sont des liens de lineage entre les structures du Dictionnaire et éventuellement les objets Data Processing du module Traîtements. La récupération du lineage est optionnelle, l'option "Récupérer le lineage" doit être activée dans la configuration du connecteur. Alors, le niveau de granularité à la table ou à la colonne peut être choisi*. La méthode de récupération du lineage peut être configurée également*, deux options sont possibles :

La nouvelle option recommandée par Databricks est d'utiliser les System Tables. Cela peut nécessiter de la configuration de la part d'un administrateur du workspace Databricks pour les rendre utilisables. C'est cette option qui vous permettra d'obtenir le plus haut niveau de précision dans le lineage. Les vues system.access.table_lineage et system.table.column_lineage sont lues par le connecteur pour récupérer le lineage avec cette méthode.
L'option historique est d'utiliser l'API REST Databricks (GET /api/2.0/lineage-tracking/table-lineage endpoint). Cette API est moins précise que les System Tables. Par exemple, il n'est pas possible d'avoir une correspondance précise entre les objets en entrée et en sortie d'un Notebook ou Workflow, ce qui est disponible avec la méthode System Tables.

Ces deux options ne sont disponibles qu'en mode URN.

Lors de la création des liens autour des Notebooks et Workflows, le comportement suivant est implémenté pour obtenir le lineage le plus complet et le plus précis dans DataGalaxy :

Si l'option "Récupérer les Notebooks" est sélectionnée, les liens de lineage seront créés autour de tous les notebooks qui font partie du périmètre du connecteur. Si un Notebook ne fait pas partie du périmètre (filtré par le préfixe du chemin, ou faisant partie d'un autre workspace Databricks), alors les liens seront créés directement entre les structures du Dictionnaire.
Si l'option "Récupérer les Workflows" est sélectionnée, les liens de lineage seront créés autour de tous les Workflows faisant partie du périmètre du connecteur. Si un Workflow ne fait pas partie du périmètre (appartenant à un autre workspace Databricks), alors les liens seront créés directement entre les structures du Dictionnaire.

Lorsqu'un objet Data Processing est impliqué dans le lineage, le connecteur Databricks tire partie des Data Processing Items, afin de fournir une correspondance précise entre les objets en entrée et en sortie. Le nom des objets Data Processing Items créés par le connecteur sont des noms techniques, construits selon les noms des objets en entrée et en sortie, ils ne représentent rien de réel et ne viennent pas de Databricks. Ces noms restent identiques dans le temps tant que les objets en entrée et en sortie ne changent pas.

Note : la Gestion des Objets Orphelins ne supporte pas encore les objets Data Processing Items. Cela signifie que si vous avez d'anciens Data Processing Items, ils ne seront pas nettoyés par le traitement de Gestion des Objets Orphelins. Cela est identifié par l'équipe qui est en train de travailler sur une évolution de cette fonctionnalité pour gérer ces objets.

Périmètre

Objet Databricks	Module DataGalaxy	Objet DataGalaxy	Attributs DataGalaxy	Commentaires
Catalog	Dictionnaire	Modèle	Date de création de l'objet source, Date de la dernière modification	Le connecteur permet de se connecteur sur une version Standard ou Unity catalog. Pour une version Standard, les schémas auront pour parent un modèle par défaut nommé "hive_metastore". Les catalogues et les schémas vides ainsi que le schéma technique "information_schema" ne sont pas importés.
Schema (Database)	Dictionnaire	Modèle
Table	Dictionnaire	Table	Date de création de l'objet source, Date de la dernière modification de l'objet source, Taille du stockage actuel, Unité de stockage, Partitionné, Type technique	Le connecteur permet de remonter les liens entre les tables (ou vues) et les notebooks lorsque la version utilisée de Databricks est celle d'Unity catalog et que le lineage est activé dessus (Capture and view data lineage with Unity Catalog).
View	Dictionnaire	Vue	Date de création de l'objet source, Requête, Type technique
Column	Dictionnaire	Colonne	Clé de partition
Folder	Traitements	Flux	Type technique	Les flux et traitements sont importés dans un flux racine dans le module Traitement (à créer ou à sélectionner lors du paramétrage d'une connexion). Le connecteur permet de remonter les liens entre les tables (ou vues) et les notebooks lorsque la version utilisée de Databricks est celle d'Unity catalog et que le lineage est activé dessus (Capture and view data lineage with Unity Catalog).
Notebook	Traitements	Traitements	Type technique
Workflows*	Traitements	Traitements		Le lineage autour des workflows est également disponible sur les workspaces Unity*

* Ces objets ne sont disponibles qu'en activant le mode URN du connecteur.

Des attributs complémentaires sont également renseignés selon la technologie et par type d'objet. Pour les faire apparaître dans les écrans DataGalaxy, il peut être nécessaire d'adapter les écrans des objets concernés. Consultez cet article pour en savoir plus sur la personnalisation des écrans.

Périmètre détaillé

Entrée (module Dictionnaire)

Catalog, schema, table et view

Depuis la page d'accueil de votre compte Databricks, ces éléments sont visibles dans la rubrique "Catalog" située à gauche.

Column

En cliquant sur une table ou une vue donnée, vous aurez le détail des colonnes qui la composent.

Entrée (module Traitements)

Folders

Depuis la page d'accueil de votre compte Databricks, les folders sont visibles dans la rubrique "Workspace" située à gauche. Seront remontés les dossiers contenus dans le dossier "Workspace". Les dossiers "User" et "Repos" seront ignorés lors de l'import.

Notebooks

Les notebooks sont visibles en cliquant sur un dossier. Ils apparaîtrons alors dans la partie centrale de l'écran.

Workflows (uniquement avec la version Unity Catalog de Databricks)

Depuis la page d'accueil de votre compte Databricks, les workflows sont visibles dans la rubrique "Jobs et Pipelines" située à gauche.

En cliquant sur un job donné vous aurez les détails qui y sont associés, et notamment le linéage associé, avec les tables upstream et downstream (ce qui correspondra dans DataGalaxy à des liens avec des tables).

Vous retrouverez également cette information et ouvrant l'onglet "linéage" d'une table donnée de la rubrique "Catalog".

Sortie (module Dictionnaire)

Catalog, schema, table, view et column

Sortie (module Traitements)

Folders et Notebooks

Configuration de la connexion

Côté Databricks

Le connecteur Databricks exploite le driver JDBC fourni par Databricks ainsi que l'API REST de Unity Catalog. La connexion à une instance Databricks nécessite donc un cluster pour exécuter les commandes SQL via le driver JDBC. Vous pouvez soit utiliser un cluster interactif soit un cluster SQL Warehouse. L'accès aux informations de connexion d'un cluster est disponible ici. Afin d'optimiser les temps de traitement, vous pouvez allumer le cluster en amont du lancement du connecteur.

Pour s'authentifier sur le cluster Databricks, trois modes sont disponibles :

L'authentification par jeton (token)

La procédure détaillée de génération d'un jeton est disponible ici. Le jeton est associé à un utilisateur qui doit avoir accès aux tables que vous souhaitez remonter par le connecteur (en clair, lorsque vous vous connectez avec le compte associé au token, si vous ne voyez pas ce que vous souhaitez remonter alors l'import avec ce token ne remontera pas non plus les objets manquants).

Pour générer un token suivez les étapes suivantes :

Connectez-vous à l'aide du User auquel vous voulez associer le token
Depuis la page d'accueil, cliquez sur l'icône utilisateur en haut à droite puis sur "Settings"
Ouvrez le menu "Developer" puis cliquez sur le bouton "Manage" d'"Access tokens"
Générez votre token en lui attribuant une description et une durée de vie
Conservez le token généré, vous pouvez maintenant l'utiliser pour configurer votre connexion DataGalaxy

L'authentification par Service Principal Entra ID (Azure AD)

Afin d'utiliser les service principals sur Azure Databricks, un utilisateur Admin doit d'abord créer une nouvelle application Microsoft Entra ID (anciennement Azure AD) en suivant les étapes suivantes :

Accédez au portail Azure (par exemple en cliquant sur l'icône utilisateur depuis votre compte Databricks puis sur "Azure Portal")
Une fois sur le portail Azure, dans la barre de recherche trouvez et cliquez sur "Microsoft Entra ID"
Cliquez ensuite sur "+ Add" puis "App registration"
Rentrez les informations nécessaires, sans oublier de choisir pour la section "Supported account types" l'option "Accounts in this organizational directory only (Single tenant)"
Une fois l'application créée, n'oubliez pas de copier/coller l'"Application (client) ID" et le "Directory (tenant) ID" avant de cliquer à gauche sur "Certificates and secrets"
Dans "Certificates and secrets", générez un secret grâce à "+ New client secret". Dans la fenêtre de droite rentrez une description et une date d'expiration avant de cliquer sur "Add"
Conservez le secret généré, vous pouvez maintenant l'utiliser pour configurer votre connexion DataGalaxy

Une fois l'application créée dans Microsoft Entra ID, il va falloir la lier à votre compte Databricks en suivant les opérations suivantes :

Depuis la page d'accueil, cliquez sur l'icône utilisateur en haut à droite puis sur "Settings"
Ouvrez le menu "Identité et accès" puis cliquez sur le bouton "Manage" de "Service Principals"
Vous aurez ensuite la possibilité de créer un service principal avec le bouton "Add service principal"
Il vous suffira alors de copier le Microsoft Entra Application ID" pour associer votre Application Azure au compte Azure Databricks

L'authentification par Service Principal Databricks

Un Service Principal est une identité spécialisée utilisée pour les accès automatiques et les opérations programmées. Vous pouvez gérer les accès d'un Service Principal Databricks de la même manière que vous gérez ceux d'un utilisateur. Pour le créer suivez les étapes suivantes :

Depuis la page d'accueil, cliquez sur l'icône utilisateur en haut à droite puis sur "Settings"
Ouvrez le menu "Identité et accès" puis cliquez sur le bouton "Manage" de "Service Principals"
Vous aurez ensuite la possibilité de créer un service principal avec le bouton "Add service principal"
Une fois le service principal créé, cliquer dessus pour accéder à ses détails, et notamment à l'onglet "Secrets" où vous trouverez le bouton "Generate secret". Comme avec le token il vous sera proposé de rentrer une durée de vie à ce secret
Conservez le secret généré, vous pouvez maintenant l'utiliser pour configurer votre connexion DataGalaxy

Détail des droits nécessaires à l'obtention des métadonnées

Nous allons maintenant détailler les autorisations associées aux différents types de métadonnées, divisées en catégories

Catalogue, Schéma, Table/Vue

Pour octroyer les droits nécessaire à votre Service Principal Databricks/Azure, la manipulation sera la même:

Sélectionnez à gauche "Catalog"
Sélectionnez la source à laquelle vous souhaitez donner accès
Aller dans l'onglet "Permissions" et cliquez sur "Grant"
Dans la fenêtre qui s'ouvre ajouter votre Service Principal puis cocher les droits USE CATALOG, USE SCHEMA et SELECT avant de valider (si vous utilisez le mode de récupération des métadonnées "INFORMATION_SCHEMA", remplacez SELECT par BROWSE)
```
Si vous souhaitez gagner en précision vous pouvez attribuer les autorisations USE SCHEMA et SELECT au niveau des schémas et des tables
```

Folder, Notebook (Fonctionnalité - Récupérer les Notebooks)

Pour octroyer les droits nécessaire à votre Service Principal Databricks/Azure, la manipulation sera la même :

Sélectionnez à gauche "Workspace"
Sélectionnez le dossier "Workspace" auquel vous souhaitez donner accès
Cliquez sur le bouton "Share"
Dans la fenêtre qui s'ouvre indiquez le nom de votre Service Principal et donnez-lui le droit "Can View"

Workflow (Fonctionnalité - Récupérer les Workflows)

Pour octroyer les droits nécessaire à votre Service Principal Databricks/Azure, la manipulation sera la même :

Sélectionnez à gauche "Jobs & Pipelines"
Sélectionnez l'élément auquel vous souhaitez donner accès
Dans la fenêtre de droite descendez jusqu'à "Permissions" et cliquez sur "Edit permissions"
Dans la fenêtre qui s'ouvre indiquez le nom de votre Service Principal et donnez-lui le droit "Can View"

Linéage Unity (Fonctionnalité - Récupérer le lineage depuis Unity)

Quand la fonctionnalité "Récupérer le lineage depuis Unity" est activé, avoir les autorisations ci-dessus sur les tables, notebooks et workflows concernés par le linéage suffit pour remonter toutes les informations de linéage qui les relient

Ressource de calcul

Pour donner à votre Service Principal Databricks/Azure le droit d'utiliser la ressource de calcul nécessaire à l'import vers DataGalaxy, voici les étapes à suivre :

Sélectionnez à gauche "SQL Warehouses"
Sélectionnez la ressource que vous souhaitez utiliser pour votre import ou créez-là
Cliquez à droite sur "Permissions"
Dans la fenêtre qui s'ouvre choisissez votre Service Principal et donnez lui le droit "Can Use"
Enfin dans l'onglet "Connexion details" vous trouverez tout ce dont vous avez besoin pour paramétrer la connexion côté DataGalaxy, à savoir le "Server hostname" et le "HTTP path"

Pour plus de précisions concernant les droits des clusters, veuillez consulter le tableau suivant. La gestion des permissions dans Databricks est disponible ici.

Côté DataGalaxy

Les informations suivantes sont demandées pour configurer une connexion:

Paramètre		Obligatoire	Description
Serveur		Oui	Nom du serveur Databricks, exemple : adb-XXXXXXXXXXXXXXXX.X.azuredatabricks.net
Port		Oui	Port de connexion au serveur Databricks, exemple : 443
HTTP Path		Oui	URL des ressources de calcul de Databricks, exemple : sql/protocolv1/o/XXXX/0125-105531-okp9kyqn
Authentification		Oui	Jeton Databricks Service Principal Azure AD Service Principal Databricks
Service Principal Azure AD	Id tenant	Oui	Azure ID Tenant
	Id client	Oui	Azure ID Client
	Secret client	Oui	Azure Secret Client
Service Principal Databricks	Id client	Oui	ID Client du Service Principal Databricks
Service Principal Databricks	Secret client	Oui	Secret du Service Principal Databricks
Jeton Databricks	Mot de passe	Oui	Jeton Databricks Personnel
Filtre - Catalogue		Non	Limite le périmètre à un ou plusieurs catalogues
Fonctionnalité - Récupérer les Notebooks		Non	Les notebooks seront créés dans DataGalaxy en tant que Traitements
Filtre - Filtrer l'arborescence (préfixe)		Non	Pour les notebooks : limite le périmètre pour un dossier donné à partir du préfixe renseigné, exemple de valeur : /Shared Note : le dossier /Users est filtré implicitement.
Fonctionnalité - Récupérer les Workflows*		Non	Les workflows seront créés dans DataGalaxy en tant que Traitements
Fonctionnalité - Méthode de récupération des métadonnées Tables/Vues*		Oui	DESC TABLE: méthode "classique" de récupération des métadonnées, nécessite le droit "SELECT" sur les tables des catalogues concernés INFORMATION_SCHEMA: cette méthode va remonter moins de métadonnées et ne fonctionne qu'en mode URN et lorsque le Unity Catalog est activé. Par contre elle ne nécessite pas le droit "SELECT" mais "BROWSE" uniquement
Fonctionnalité - Récupérer le lineage depuis Unity		Non	Le lineage présent dans Unity est remonté dans DataGalaxy
Fonctionnalité - Profondeur d’historique de lineage (jours)		Non	Nombre de jours depuis lesquels on remonte nos évenements de lineage
Fonctionnalité - Catalogue système spécifique		Non	Utiliser un catalogue système spécifique pour la récupération du lineage
Fonctionnalité - Client driver JDBC		Non	Utiliser le client Thrift (= option par défaut en Auto) : configure UseThriftClient=1 dans le driver JDBC. Databricks va déprécier cette option dans le futur; Utiliser les API Statement Execution : configure UseThriftClient=0 dans le driver JDBC. Utilisez ce paramétrage si vous rencontrez des soucis avec le client Thrift. Encore jeune chez Databricks, des effets de bord sont possibles, ce n'est donc pas encore l'option par défaut. Plus d'informations dans la documentation Databricks.

⚠ La récupération du lineage peut significativement augmenter la durée d'exécution du connecteur et par conséquent les coûts associés au cluster de calcul utilisé.

* Uniquement en mode URN

Du mode standard au mode URN

Différences

En mode Standard le nom de votre objet racine sera celui que vous lui donnerez lorsque vous créez la connexion (ou de l'objet racine du module Dictionnaire que vous ciblerez). En mode URN le nom de l'objet racine sera le nom de serveur Databricks.
- Mode Standard
- Mode URN
En mode Standard, dans le module "Traitements", vos objets projets "Flux" et "Traitement" seront regroupés directement sous votre objet racine. En mode URN ces mêmes objets seront regroupés un niveau plus bas dans la hiérarchie, sous un objet nommé "Workspace". Un objet supplémentaire nommé "Workflows" fera également son apparition au même niveau que l'objet "Workspace"
- Mode Standard
- Mode URN

Guide de migration

Ce guide a pour but de vous indiquer les étapes à suivre pour passer votre objet racine et tous les objets Databricks qu'il contient du mode Standard au mode URN. Une fois ces étapes effectuées, vous serez en mesure de réaliser tous vos futurs imports en mode URN et de profiter des nouvelles fonctionnalités associées à ce mode.

Descendre d'un niveau les objets contenus dans votre objet racine Databricks du module "Traitements"
- Ouvrir le menu associé à votre objet racine (”Databricks” ici) et choisir l’option “+ Créer un enfant”. Il sera de type “Flux” et vous le nommerez "Workspace"
- Une fois cela fait il vous faudra déplacer chacun de vos autres objets (”Shared” et "Test" ici) en ouvrant leurs menus associés et en choisissant l’option “Déplacer”. Vous ciblerez l’objet créé juste avant, “Workspace”
- Si vous ne réalisez pas cette opération, lors de l'import en mode URN final sur votre objet racine vous créerez des doublons de tous les objets remontés depuis Databricks
Si ce n'est pas encore le cas, associer aux sources “Database” du module "Dictionnaire" l'attribut "URN". Faites de même pour les objets "Flux" du module "Traitement"
Associer à vos objets racine des modules "Dictionnaire" et "Traitement" l'URN correspondant
- A ce propos nous conseillons de suivre les étapes suivantes pour éviter toute erreur:
  - Réaliser un import en mode URN, lequel va créer un nouvel objet racine dans chaque module pour lequel l'attribut URN sera renseigné
  - Copier lesdits attributs URN
  - Supprimer les objets racine que vous venez d'importer en mode URN ainsi que tous leurs enfants (vu qu'un URN doit être unique, si vous ne supprimez pas cet objet racine avant d'assigner son URN à un autre objet la plateforme retournera une erreur)
  - Coller les URNs pour renseigner les attribut URN de vos objets racine qui sont encore en mode Standard dans chacun des modules
Réaliser un nouvel import en mode URN
- Cette fois-ci tous les attributs URN des enfants sous vos objets racine des deux modules devraient être renseignés

Félicitations, vous avez migré du mode Standard au mode URN et êtes en mesure de profiter de toutes les nouvelles fonctionnalités offertes par celui-ci !

Exécution du connecteur

Etape 1: Installation

Télécharger le connecteur DataGalaxy depuis le portail (voir ici)
Extraire l'archive du connecteur dans le répertoire de votre choix
Télécharger le plug-in Databricks depuis le portail et le copier dans le répertoire /lib du connecteur

Etape 2: Exécution du connecteur

Après avoir démarré le connecteur, accéder aux connecteurs du Dictionnaire ou des Traitements

S'il a été correctement installé, le plug-in Databricks apparaît dans la liste

Complétez les champs correspondants à l'aide des informations de connexion données ci-dessus

Jeton Databricks:

Service Principal Azure AD:

Service Principal Databricks:

Cliquez sur "Test" pour tester la connexion
Une fois le test de connexion passé vous pouvez suivre les étapes pour finaliser votre import.

Ce connecteur est également disponible en mode online, pour plus de précisions consulter cette page:

[HowTo] Exécution du Connecteur Online.

Releases

Date	Plugin Version	DataGalaxy release	Desktop connector version (minimum)	Description
28/05/2026	6.7.0	v3.345.0	5.15.9	Path of the system catalog made configurable
05/05/2026	6.6.1	v3.337.0	5.15.9	Lineage history depth configurable in days
24/04/2026	6.5.3	v3.332.1	5.15.9	Updated internal dependencies
14/04/2026	6.5.2	v3.329.3	5.15.8	Adding option to use the new Statement Execution APIs client instead of Thrift client in the Databricks' JDBC driver
19/03/2026	6.4.6	v3.322.0	5.15.7	Bugfix regarding jobRunId parameter
03/11/2025	6.4.2	v3.273.1	5.13.0	Improve connector's resilience when retrieving lineage information
17/10/2025	6.4.1	v3.268.2	5.13.0	Allow the user to choose between two metadata retrieval methods
03/10/2025	6.3.1	v3.262.0	5.13.0	Fix a bug preventing from authenticating to EntraID in CLI mode with the --password argument
23/09/2025	6.3.0	v3.254.0	5.13.0	Addition of the option to filter out or not the "/Users" folder
25/08/2025	6.2.0	v3.245.0	5.13.0	Addition of new retrieval option for lineage
04/08/2025	6.1.3	v3.228.1	5.13.0	Fix issue with Notebook retrieval
31/07/2025	6.1.2	v3.220.1	5.7	Fixed a bug related to the retriavel of the lineage in standard mode
07/06/2025	6.0.15	v3.178.1	5.6.2	- Fixed http proxy configuration with JDBC driver - Fixed unnecessary creation of Processing root object in URN mode even if no children have to be created
27/05/2025	6.0.13	v3.172.5	5.6.1	- Fixed a bug related to retrieving lineage from another unity workspace - FIxed a bug related to views
20/05/2025	6.0.11	v3.171.0	5.5.13	- New lineage behavior: all lineage can be imported, independently of choosing to create Notebooks and Workflows in DataGalaxy. - Activated the possibility of using URN imports for everybody
04/04/2025	5.1.0	v3.154.6	5.5.5	Optimized how data is handled in URN mode
21/01/2025	4.0.12	v3.125.0	5.2.9	Improved resiliency of the connector
9/01/2025	4.0.11	v3.116.1	5.2.8	Fixed a bug regarding CSV imports and improved logs
16/10/2024	3.0.3	v3.85.1	5.2.6	System catalogs are now filtered out and error logging is improved
20/09/2024	3.0.2	v3.77.1	5.2.6	Fixed a bug regarding external tables that are views
23/08/2024	3.0.1	v3.69.0	5.2.3	Updated the logger to show more information when using verbose mode
26/07/2024	3.0.0	v3.62.0	5.0.3	Migrated from java 11 to java 17
04/07/2024	2.4.2	v3.56.0		Fixed a bug where some connexion fields where not loaded from a saved connection
04/07/2024	2.4.1	3.56.0		Updated a dependency
15/05/2024	2.4.0	v3.46.0		Addition of Databricks Service Principal authentication
16/04/2024	2.3.0	v3.40.0		Addition of Entra ID (Azure AD) Service Principal authentication

French

Périmètre, attributs et représentation dans DataGalaxy

Objets

Instance

Catalogue

Schéma

Table (Managed ou External)

Vue (incluant Materialized View)

Colonne

Répertoire du Workspace

Notebook

Workflow

Liens

Périmètre

Périmètre détaillé

Entrée (module Dictionnaire)

Entrée (module Traitements)

Sortie (module Dictionnaire)

Sortie (module Traitements)

Configuration de la connexion

Côté Databricks

L'authentification par jeton (token)

L'authentification par Service Principal Entra ID (Azure AD)

L'authentification par Service Principal Databricks

Détail des droits nécessaires à l'obtention des métadonnées

Côté DataGalaxy

Du mode standard au mode URN

Différences

Guide de migration

Exécution du connecteur

Etape 1: Installation

Etape 2: Exécution du connecteur

Releases

Table des matières

Articles en rapport