Traitement des données

Schéma general EFD

Données sources

Plusieurs sources de données sont téléchargées et exploitées:

  • Transparence Santé
  • le Répertoire Partagé des Professionnels de Santé (RPPS)

Transparence Santé

Les entreprises déclarent chaque semestre les conventions, avantages et rémunérations:

  • Les déclarations correspondant au 1er semestre doivent être transmises au plus tard le 1er septembre.
  • Les déclarations correspondant au 2ème semestre doivent être transmises au plus tard le 1er mars de l'année suivante.

À noter que le système permet aussi de déclarer et de faire des corrections au fil de l'eau.

Les déclarations sont ensuite traitées et vérifiées, avant d'être intégrées dans Transparence Santé. Certaines déclarations sont rejetées en erreur, et doivent être corrigées par l'industriel (ces vérifications sont trop laxistes). In fine, toutes les déclarations doivent être mises en ligne au plus tard le 1er octobre pour le premier semestre, et 1er avril de l'année suivante pour le second semestre.

Chaque nuit, un export des données de la base est publiée sur le site data.gouv.fr.

RPPS

L'annuaire santé (RPPS) est également téléchargé et nettoyé (essentiellement pour supprimer les doublons).

Il permet d'obtenir des informations fiables sur les professionnels bénéficiaires, notamment les professions, les spécialités des professionnels, ainsi que la structure dans laquelle ils travaillent.

Les données du RPPS ne remplacent jamais les données de Transparence Santé, mais sont ajoutées en plus.

Nettoyage des données

Chaque nuit, Euros For Docs réalise un nettoyage des données. Le code informatique utilisé est disponible sur Gitlab

Le format des données est décrit de manière globale dans ce tableur en ligne Nous avons notamment beaucoup renommé les champs, pour améliorer la clarté.

Rattachement des conventions

Les déclarations de rémunérations et d'avantages ont un champ permettant d'indiquer le numéro d'une convention à laquelle elles sont liées.

Le remplissage de ce champ est obligatoire pour les rémunérations, et facultatif pour les avantages. Ce qui correspond au fait que toute rémunération doit se faire dans le cadre d'un contrat, tandis qu'un avantage peut être offert sans cadre contractuel.

Une convention peut ainsi être associée à 0, 1 ou plusieurs rémunérations et avantages.

Par exemple, si un médecin est payé pour présenter à un congrès, l'industriel pourra déclarer

  • une convention ;
  • une rémunération ;
  • un avantage pour le transport ;
  • un ou plusieurs avantages pour l'hospitalité (nuit d'hôtel, repas) ;
  • un avantage pour l'inscription au congrès.

Nous utilisons les champs convention_liee, identifiant_unique et entreprise_ts_id pour rapprocher les conventions et les avantages / rémunérations. Une fois la convention identifiée, son ID est stockée dans le champs convention_ts_id.

Il y a cependant un pourcentage résiduel de rémunérations que nous ne parvenons pas à relier à une convention, pour les années récentes, entre 3 et 5 %.

Éviter les doubles comptes

Toute les rémunérations et avantages indiquent un montant. Les conventions peuvent - ou non - indiquer un montant global, à priori le total des rémunérations et avantages liés.

Ce point est une difficulté majeure dans l'utilisation de la base Transparence-Santé, qui empêche a priori de sommer les montants des conventions avec ceux des rémunérations et avantages, au risque de compter certains montants deux fois.

Pour résoudre ce problème et faciliter l'usage des données, EurosForDocs met rattache les rémunérations et avantages avec la convention liée

  • 4 nouvelles colonnes indiquent pour chaque convention le nombre et le montant des rémunérations et avantage liés.
  • La colonne principale de montant pour chaque convention est le montant déclaré pour la convention, moins le montant des avantages et rémunérations liés, avec un résultat minimum à zéro.

Ces transformations permettent de sommer les montants des déclarations toutes catégories confondues, sans double compte, à l'exception des erreurs indiquées plus bas.

Pour information lorsque l'on étudie une convention

  • Le montant déclaré initialement dans chaque convention est sauvegardé dans une nouvelle colonne (montant_declare_convention).
  • Un montant total de la convention est calculé dans une nouvelle colonnne montant_total_convention, comme le maximum entre le montant déclaré pour la convention, et la somme des montants des rémunérations et avantages liés

Contrats sans montant

A contrario, certaines conventions ont un montant déclaré nul (ou vide), sans que l'on ne retrouve de rémunération ni d'avantages liés.

On ne peut donc pas connaître le montant de ces conventions, alors qu'il est obligatoire depuis 2017 de déclarer les rémunérations liées aux conventions (cf fin de la partie sur la qualité des données); et rien ne justifie qu'une entreprise déclare des conventions sans montant - fut-il prévisionnel.

Ces conventions sont indentifiées par la valeur True dans la colonne indicatrice montant_masque. Cette colonne permet de calculer un nombre de contrat sans montant traçable.

Avantages mal rattachés à leur convention

Les avantages pointent souvent vers des conventions dont le numéro n'existe pas dans Transparence-Santé, car l'existence de ces conventions n'est pas vérifiée avant d'intégrer les avantages à la base.

Par conséquent

  • le montant de certains avantages est compté en double lorsqu'il est déclaré aussi dans la convention et que le lien est mal renseigné
  • une parties des conventions sans montant traçable a bien un avantage (donc un montant) déclaré en lien, mais l'erreur de numéro ne permet pas d'identifier ce montant

À noter que ce problème technique n'existe (presque) pas pour les rémunérations, car l'existence des conventions liées est vérifiée de façon stricte avant d'intégrer les rémunérations à la base.

Regroupement des entreprises

Si vous cherchez "Pfizer" sur transparence-sante.gouv.fr, vous verrez que Pfizer utilise des dizaines de comptes différents pour faire ses déclarations. Chaque entreprise déclarante peut avoir une entreprise "mère" pour représenter les différentes filiales, mais en pratique, toutes les entreprises n'utilisent pas ce système. Nous avons donc regroupé les entreprises à la main pour présenter les données de manière plus claire. Voir les détails des regroupements manuels ici

Dans le format TS, il n'y a que les infos de l'entreprise déclarante, et l'ID de la l'entreprise mère. Or dans presque toutes les cas, l'entreprise mère, si elle existe, est plus pertinente que l'entreprise déclarante. Nous avons donc ajoutés quelques champs, qui se réfèrent à l'entreprise mère si elle existe, sinon à l'entreprise déclarante. Ces champs sont préfixés par entreprise_. Les champs originaux, qui se réfèrent à l'entreprise déclarante, sont eux préfixés par declarant_.

Nettoyages de forme

De nombreux nettoyage de forme sont réalisés:

  • ben_identifiant:
    • les valeurs entre crochets sont corrigées: [10003757720] devient 10003757720
    • les valeurs abérrantes sont enlevés ('N/A', '0', 'Non renseigné', etc.)
  • ben_type_identifiant
    • ben_type_identifiant est supprimé s'il n'y a pas d'identifiant
    • les identifiants identifiés comme 'RPPS/ADELI' sont séparés en deux types distinct, 'RPPS' (11 chiffres) et 'ADELI (9 caractères)'
    • les identifiants marqués comme type 'Autre', mais qui ont exactement 11 chiffres, dont le dernier est bien le chiffre de vérification sont marqués comme 'RPPS'
  • motif_lien_interet
    • les valeurs de ce champs (pourtant toujours choisi parmi une liste de valeurs!) sont particulièrement hétéroclites. Une harmonisation est donc faite:
      • suppression des doubles espaces
      • remplacement des apostrophes rondes par des droites
      • remplacement des tirets longs par des tirets standards.
  • Jusqu'à récemment, les declarations étaient tres mal catégorisés, presque toutes dans la catégorie 'Autre', avec un texte libre. Nous avons catégorisés les valeurs habituelles de ce champ libre pour catégoriser les déclarations. Voir détails de ce mapping ici.
  • Les rémunérations ne sont pas catégorisés dans TS, dans l'idée elles sont toujours liées a une convention qui elle, est catégorisée. Nous appliquons la catégorie de la convention liée à la rémunération pour pouvoir faire des stats plus facilement.
Note : Les données sont traités selon la méthodologie ELT, donc chargées en base avant le nettoyage. Il est toujours possible de regarder les données sources, qui sont conservés dans la table raw_declaration

Fichiers nettoyés

Les données nettoyées sont téléchargeables en suivant les liens suivants :

Ils sont soumis aux mêmes restrictions d'usage que les fichiers sources (voir la page d'avertissements).

  • Ne pas hésiter à poser des questions si vous utilisez ces données.
  • Le format de ces fichiers est amené à changer sans avertissement.