Powered by OpenAIRE graph
Found an issue? Give us feedback
addClaim

Synthea→OMOP DWH + Feature Engineering + ML (Pre-) Diabetes Prediction (Notebook Release V13)

Authors: Scholz, Luisa; Schweizer, Georg Rainer;

Synthea→OMOP DWH + Feature Engineering + ML (Pre-) Diabetes Prediction (Notebook Release V13)

Abstract

Dieses Deposit enthält eine reproduzierbare Projektpipeline zur Verarbeitung synthetischer Gesundheitsdaten auf Basis von Synthea in Richtung eines OMOP Common Data Model (OMOP CDM)-nahen Data-Warehouse-Workflows. Der Fokus liegt auf einer nachvollziehbaren Datenkette von Rohdaten über Qualitätsprüfungen und Mapping-/Coverage-Auswertungen bis hin zu abgeleiteten Feature-Tabellen und (optional) Machine-Learning-Auswertungen. Die Abläufe sind in einem Notebook-basierten Workflow umgesetzt und in Phasen dokumentiert (Phase 0/A/B/C), sodass einzelne Schritte isoliert überprüft und wiederholt werden können. Inhalt und Struktur Das Deposit wird als Release-Paket bereitgestellt (Dissemination/Access Copy) und enthält insbesondere: Dokumentation (u. a. README.md) mit Projektstruktur, Ausführungslogik und Reproduktionshinweisen Phase-Reports als Markdown-Dateien (docs/phase_reports/phase0_report.md, phaseA_report.md, phaseB_report.md, phaseC_report.md) mit den wichtigsten Outputs und Kennzahlen pro Phase Run-Metadaten / Provenance: run_manifest.json mit Laufkontext (Notebook-Version, Zeitstempel, Pfade, Konfiguration/Parameter) Fixity / Integrität: checksums.sha256 sowie sip_manifest.json (Dateiliste inkl. Größe/Hash), um spätere Integritätsprüfungen zu ermöglichen Ausgewählte Ergebnisartefakte (z. B. Quality-/Coverage-Tabellen, Feature-Exporte, Modellmetriken), soweit im Paket enthalten und im Report referenziert Die Archivlogik orientiert sich an einem OAIS-nahen Minimalmodell: SIP (Submission Information Package): kuratiertes Arbeits-/Abgabepaket (Doku, Reports, Metadaten, ausgewählte Outputs) AIP/DIP: Verpackungen zur stabilen Langzeitablage bzw. zum Teilen/Publizieren (z. B. AIP als tar.gz, DIP als zip) Datenbasis und Einschränkungen (Lizenz/Größe) Das Projekt verwendet synthetische Daten aus Synthea. Bestimmte große oder lizenzkritische Abhängigkeiten werden nicht im Deposit mitpubliziert, insbesondere: OHDSI/Athena OMOP Vocabulary-Dateien (typischerweise ausgeschlossen aus Lizenz-/Terms-of-Use-Gründen sowie wegen Größe)Stattdessen wird der Bezug dieser Ressourcen über die Dokumentation beschrieben und die verwendete Vokabular-Version (soweit möglich) im Projekt dokumentiert. Ebenfalls üblicherweise ausgeschlossen sind große, reproduzierbare Zwischenstände (z. B. Cache-Verzeichnisse oder entpackte Roh-CSV-Bestände), sofern diese nicht zwingend zur Bewertung/Validierung benötigt werden. Reproduzierbarkeit Die Reproduzierbarkeit wird durch mehrere Ebenen unterstützt: Klare Phasenstruktur (0/A/B/C) mit zugehörigen Reports und Artefakten Run-Manifest (run_manifest.json) als Provenance- und Konfigurationsquelle (Version, Laufzeit, Parameter, relevante Pfade) Fixity-Checks über checksums.sha256 und sip_manifest.json (Hash-basierte Integritätsprüfung der Paketdateien) Die Reproduktionsschritte sind in README.md beschrieben (u. a. Abhängigkeiten, erwartete Verzeichnisstruktur und Hinweise zu extern zu beschaffenden Vokabular-Dateien). Zweck und Zielgruppe Das Paket dient als nachvollziehbares Beispiel für: ETL-orientierte Verarbeitung synthetischer Gesundheitsdaten Qualitäts- und Coverage-Auswertungen (Data Quality Checks, Mapping Coverage) Ableitung von Feature-Tabellen für analytische Auswertungen/ML Archivierungs- und Publikationsfähigkeit (FAIR-orientierte Dokumentation, Provenance, Fixity) Zielgruppe sind Studierende/Lehrende sowie Reviewer mit Grundkenntnissen in Python, SQLite und OMOP-naher Datenmodellierung, die eine reproduzierbare Pipeline prüfen oder als Vorlage adaptieren möchten. Zitation und Versionierung Dieses Deposit entspricht einer bestimmten Notebook-/Release-Version (z. B. V13) und einem eindeutigen Laufzeitstempel. Bei späteren Änderungen werden neue Versionen als separate Releases publiziert; die Provenance wird über run_manifest.json fortgeführt.

Die Verarbeitung erfolgt in einer modularen, phasenbasierten Notebook-Struktur: (Phase 0) Setup, Download/Import und Rohdatenpersistenz (RAW_DB), (Phase A/B) Qualitätsprüfungen, Codesystem-Erkennung sowie Mapping-/Coverage-Auswertungen und Aufbau eines OMOP-nahen Data-Warehouse (DWH_DB), (Phase C) Ableitung standardisierter Exporte/Feature-Tabellen und optionaler ML-Auswertungen. Alle wesentlichen Outputs werden als Markdown-Reports je Phase abgespeichert; Provenance wird über ein run_manifest.json und Integrität über SHA-256-Checksums dokumentiert. Lizenzkritische und große externe Ressourcen (insbesondere OHDSI/Athena Vokabular-Dateien) werden nicht mitpubliziert, sondern in der Dokumentation als externe Abhängigkeit referenziert.

Keywords

ETL, SQLite, OMOP CDM, Synthea, FAIR

  • BIP!
    Impact byBIP!
    selected citations
    These citations are derived from selected sources.
    This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    0
    popularity
    This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
    Average
    influence
    This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    Average
    impulse
    This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
    Average
Powered by OpenAIRE graph
Found an issue? Give us feedback
selected citations
These citations are derived from selected sources.
This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Citations provided by BIP!
popularity
This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
BIP!Popularity provided by BIP!
influence
This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Influence provided by BIP!
impulse
This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
BIP!Impulse provided by BIP!
0
Average
Average
Average