Powered by OpenAIRE graph
Found an issue? Give us feedback
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/ ZENODOarrow_drop_down
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
ZENODO
Dataset . 2025
License: CC BY
Data sources: ZENODO
ZENODO
Dataset . 2025
License: CC BY
Data sources: Datacite
addClaim

Das Public Use File des Forschungsdatenzentrum Gesundheit

The Health Data Lab's Public Use File
Authors: Kühnel, Lisa; Pauly, Hannah; Pakusa, Wied; Fehrmann-Böhne, Steffen; Heß, Steffen; Brachem, Christian;

Das Public Use File des Forschungsdatenzentrum Gesundheit

Abstract

Das Forschungsdatenzentrum Gesundheit Das Forschungsdatenzentrum (FDZ) Gesundheit hat sich zum Ziel gesetzt, die medizinische Versorgung in Deutschland und der EU zu verbessern. Dies geschieht durch neue Forschung, die durch den Zugang zu Krankenversicherungsdaten ermöglicht wird. Die Datennutzung wird jedoch von strengen Datenschutzbestimmungen eingeschränkt. Folgende Schritte sind für die Datennutzung notwendig: Forschende können den Zugang zu Gesundheitsdaten gemäß §303e SGB V beantragen. Nach Genehmigung erhalten Forschende Zugriff auf eine sichere Verarbeitungsumgebungen im Sinne des Europäischen Gesundheitsdatenraums (EHDS). In diesen Umgebungen werden anonymisierte, synthetische oder pseudonymisierte Daten für die Entwicklung von Algorithmen verwendet. Die endgültigen Analysen werden unter strenger Aufsicht auf dem gesamten Originaldatensatz durchgeführt, um den Datenschutz zu gewährleisten. Für weitere Informationen zum FDZ Gesundheit können Sie unsere Website besuchen. Das Public Use File Um den Herausforderungen des zeitaufwändigen Antragsverfahrens zu begegnen und den Forschenden die Möglichkeit zu geben, sich mit der Datenstruktur vertraut zu machen, hat das FDZ ein Public Use File (PUF) entwickelt. Das PUF ist ein anonymisierter Datensatz, der aus den Originaldaten der Krankenkassen abgeleitet wurde. Er behält die univariaten Verteilungen der Originaldaten bei, entfernt aber die Korrelationen zwischen den Variablen, um den Datenschutz zu gewährleisten. Der Datensatz enthält realistische Fehler aus den Originaldaten, was seinen Nutzen für vorläufige Analysen, Softwareentwicklung und Testskripte erhöht. Das PUF ist ein öffentliches Datenprodukt des Forschungsdatenzentrum Gesundheit. Um die Publikation des Datenprodukts zu ermöglichen, muss der Datensatz anonym sein. Um Anonymität zu erreichen, haben wir folgende Methoden angewandt: Auflösung aller Korrelationen zwischen Variablen Vergröberung von Variablen, bei denen ein Wert nicht mindesten k-mal vorkommt Ersetzung der Pseudonyme durch zufällige (aber theoretisch gültige) Werte Veröffentlichung einer Stichprobe (1%) Veröffentlichung nur eines Berichtsjahres pro Datenmodell Der vollständige Code zur Erstellung des Public Use Files ist ebenfalls öffentlich einsehbar in diesem Github Repository. Die Daten sind in drei Datenmodellen verfügbar. Eine genaue Beschreibung der Datenmodelle und dem Inhalt der einzelnen Variablen ist in unserer Datensatzbeschreibung einsehbar. Wir stellen pro Datenmodell eine ZIP-Datei bereit, welche alle Tabellen dieses Datenmodells enthält. Zusätzlich ist in jeder Tabelle eine Spalte "Datenmodell" enthalten, welche die Zugehörigkeit zum Datenmodell eindeutig kennzeichnet. Hinweise Einlesen der Dateien Beim Einlesen der Dateien bitte auf die in der Datensatzbeschreibung angegebenen Datentypen achten und explizit angeben, andernfalls werden zum Beispiel führende Nullen abgeschnitten. Beispiel (Python): import pandas as pd df_sa451 = pd.read_csv('DM1/SA451.csv', dtype={'SA451_VSID': str, 'SA451_PHARMAZENTRALNUMMER': str}) VSID und PSID Die Identifier-Variablen VSID und PSID sind nicht im gleichen Verhältnis wie in den Orginaldaten vorhanden. Es gibt deutlich mehr PSIDs die mehr als eine VSID zugeordnet hat. In den Echtdaten ist dies ein Hinweis auf einen Krankenkassenwechsel. Versionierung v1.0.0 initialer Release v1.1.0 Hinzufügen der Satzart SA131 für Datenmodell 2 Hinzufügen von doppelten PSIDs für Datenmodell 2 v2.0.0 Hinzufügen vom Public Use File für Datenmodell 3 Formatänderung der PSID für alle Datenmodelle Ändern der VSID für Datenmodell 2 (war vorher identisch mit DM1) Kontakt Bei Fragen oder Anregungen wenden Sie sich gerne an fdz@bfarm.de.

Related Organizations
  • BIP!
    Impact byBIP!
    selected citations
    These citations are derived from selected sources.
    This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    0
    popularity
    This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
    Average
    influence
    This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    Average
    impulse
    This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
    Average
Powered by OpenAIRE graph
Found an issue? Give us feedback
selected citations
These citations are derived from selected sources.
This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Citations provided by BIP!
popularity
This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
BIP!Popularity provided by BIP!
influence
This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Influence provided by BIP!
impulse
This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
BIP!Impulse provided by BIP!
0
Average
Average
Average