Plusieurs sources de données sont téléchargées et exploitées:
Les entreprises déclarent chaque semestre les conventions, avantages et rémunérations:
À noter que le système permet aussi de déclarer et de faire des corrections au fil de l'eau.
Les déclarations sont ensuite traitées et vérifiées, avant d'être intégrées dans Transparence Santé. Certaines déclarations sont rejetées en erreur, et doivent être corrigées par l'industriel (ces vérifications sont trop laxistes). In fine, toutes les déclarations doivent être mises en ligne au plus tard le 1er octobre pour le premier semestre, et 1er avril de l'année suivante pour le second semestre.
Chaque nuit, un export des données de la base est publiée sur le site data.gouv.fr.
L'annuaire santé (RPPS) est également téléchargé et nettoyé (essentiellement pour supprimer les doublons).
Il permet d'obtenir des informations fiables sur les professionnels bénéficiaires, notamment les professions, les spécialités des professionnels, ainsi que la structure dans laquelle ils travaillent.
Les données du RPPS ne remplacent jamais les données de Transparence Santé, mais sont ajoutées en plus.
Chaque nuit, Euros For Docs réalise un nettoyage des données. Le code informatique utilisé est disponible sur Gitlab
Le format des données est décrit de manière globale dans ce tableur en ligne Nous avons notamment beaucoup renommé les champs, pour améliorer la clarté.
Les déclarations de rémunérations et d'avantages ont un champ permettant d'indiquer le numéro d'une convention à laquelle elles sont liées.
Le remplissage de ce champ est obligatoire pour les rémunérations, et facultatif pour les avantages. Ce qui correspond au fait que toute rémunération doit se faire dans le cadre d'un contrat, tandis qu'un avantage peut être offert sans cadre contractuel.
Une convention peut ainsi être associée à 0, 1 ou plusieurs rémunérations et avantages.
Par exemple, si un médecin est payé pour présenter à un congrès, l'industriel pourra déclarer
Nous utilisons les champs convention_liee
, identifiant_unique
et entreprise_ts_id
pour rapprocher les conventions et les avantages / rémunérations.
Une fois la convention identifiée, son ID est stockée dans le champs convention_ts_id
.
Il y a cependant un pourcentage résiduel de rémunérations que nous ne parvenons pas à relier à une convention, pour les années récentes, entre 3 et 5 %.
Toute les rémunérations et avantages indiquent un montant. Les conventions peuvent - ou non - indiquer un montant global, à priori le total des rémunérations et avantages liés.
Ce point est une difficulté majeure dans l'utilisation de la base Transparence-Santé, qui empêche a priori de sommer les montants des conventions avec ceux des rémunérations et avantages, au risque de compter certains montants deux fois.
Pour résoudre ce problème et faciliter l'usage des données, EurosForDocs met rattache les rémunérations et avantages avec la convention liée
montant
pour chaque convention est le montant déclaré pour la convention, moins le montant des avantages et rémunérations liés, avec un résultat minimum à zéro.Ces transformations permettent de sommer les montants des déclarations toutes catégories confondues, sans double compte, à l'exception des erreurs indiquées plus bas.
Pour information lorsque l'on étudie une convention
montant_declare_convention
).montant_total_convention
, comme le maximum entre le montant déclaré pour la convention, et la somme des montants des rémunérations et avantages liésA contrario, certaines conventions ont un montant déclaré nul (ou vide), sans que l'on ne retrouve de rémunération ni d'avantages liés.
On ne peut donc pas connaître le montant de ces conventions, alors qu'il est obligatoire depuis 2017 de déclarer les rémunérations liées aux conventions (cf fin de la partie sur la qualité des données); et rien ne justifie qu'une entreprise déclare des conventions sans montant - fut-il prévisionnel.
Ces conventions sont indentifiées par la valeur True
dans la colonne indicatrice montant_masque
.
Cette colonne permet de calculer un nombre de contrat sans montant traçable.
Les avantages pointent souvent vers des conventions dont le numéro n'existe pas dans Transparence-Santé, car l'existence de ces conventions n'est pas vérifiée avant d'intégrer les avantages à la base.
Par conséquent
À noter que ce problème technique n'existe (presque) pas pour les rémunérations, car l'existence des conventions liées est vérifiée de façon stricte avant d'intégrer les rémunérations à la base.
Si vous cherchez "Pfizer" sur transparence-sante.gouv.fr, vous verrez que Pfizer utilise des dizaines de comptes différents pour faire ses déclarations. Chaque entreprise déclarante peut avoir une entreprise "mère" pour représenter les différentes filiales, mais en pratique, toutes les entreprises n'utilisent pas ce système. Nous avons donc regroupé les entreprises à la main pour présenter les données de manière plus claire. Voir les détails des regroupements manuels ici
Dans le format TS, il n'y a que les infos de l'entreprise déclarante, et l'ID de la l'entreprise mère. Or dans presque toutes les cas, l'entreprise mère, si elle existe, est plus pertinente que l'entreprise déclarante.
Nous avons donc ajoutés quelques champs, qui se réfèrent à l'entreprise mère si elle existe, sinon à l'entreprise déclarante. Ces champs sont préfixés par entreprise_
.
Les champs originaux, qui se réfèrent à l'entreprise déclarante, sont eux préfixés par declarant_
.
De nombreux nettoyage de forme sont réalisés:
raw_declaration
Les données nettoyées sont téléchargeables en suivant les liens suivants :
Ils sont soumis aux mêmes restrictions d'usage que les fichiers sources (voir la page d'avertissements).