Powered by OpenAIRE graph
Found an issue? Give us feedback
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/ ZENODOarrow_drop_down
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
ZENODO
Dataset . 2021
License: CC 0
Data sources: Datacite
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
ZENODO
Dataset . 2021
License: CC 0
Data sources: ZENODO
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
ZENODO
Dataset . 2025
License: CC 0
Data sources: ZENODO
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
ZENODO
Dataset . 2026
License: CC 0
Data sources: ZENODO
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
ZENODO
Dataset . 2025
License: CC 0
Data sources: Datacite
ZENODO
Dataset . 2025
License: CC 0
Data sources: Datacite
versions View all 4 versions
addClaim

Corpus der Plenarprotokolle des Deutschen Bundestages (CPP-BT)

Authors: Fobbe, Sean;

Corpus der Plenarprotokolle des Deutschen Bundestages (CPP-BT)

Abstract

Überblick Das Corpus der Plenarprotokolle des Deutschen Bundestages (CPP-BT) ist einer der größten, frei verfügbaren Datensätze von Plenarprotokollen des Deutschen Bundestages. Er ist eine Zusammenstellung aller Plenarprotokolle bis zur 18. Wahlperiode, die im XML-Format auf dem Open Data Portal des Deutschen Bundestages am jeweiligen Stichtag veröffentlicht waren. Bitte beachten Sie das beiliegende Codebook! Es enthält wichtige Informationen zur korrekten Nutzung des Datensatzes. Es hilft auch bei der Entscheidung, welche Variante für Sie am besten geeignet ist. In der Regel empfehle ich für quantitative Forschung die CSV-Dateien und für traditionelle Forschung die TXT-Sammlung. Der CPP-BT ist der Zwillings-Korpus des Corpus der Drucksachen des Deutschen Bundestages (CDRS-BT) Beide Korpora bauen auf der gleichen Datenstruktur auf, wurden nach den gleichen Prinzipien mit größtenteils identischem Code konstruiert und sind vollständig miteinander kompatibel. Durch die Verbindung beider Korpora können Sie Plenarprotokolle und Drucksachen — und damit alle Vorgänge des Bundestages — in einheitlichen Analysen untersuchen. Beachten Sie aber bitte, dass der CDRS-BT zusätzliche Variablen enthält, weil die Datengrundlage reichhaltiger ist. Aktualisierung Dieser Datensatz wird mehrmals pro Wahlperiode aktualisiert. Benachrichtigungen über neue und aktualisierte Datensätze veröffentliche ich immer zeitnah auf Mastodon unter @seanfobbe@fediscience.org Features Die Stärken dieses Datensatzes sind der gewaltige Umfang, fortlaufende Aktualisierung, Urheberrechtsfreiheit und die sowohl für traditionelle Forschung als auch für quantitative Studien geeigneten Formate (CSV, TXT, XML). Im ZIP-Archiv ANALYSE stelle ich zudem 23 hochwertige Diagramme und Tabellen für alle Zwecke zur Verfügung. Jedes Diagramm liegt in einem für den Druck (PDF) und das Web (PNG) optimierten Format vor. Tabellen sind im CSV-Format bereitgestellt und sind damit sowohl für Menschen als auch für Maschinen gut lesbar. Eckdaten Stichtag: 17. Februar 2021 Inhaltlicher Umfang: 4106 Plenarprotokolle / ~310 Millionen Tokens (Version 2021-02-17) Zeitlicher Umfang: 1949 bis 2017 (Version 2021-02-17) Wahlperioden: 1. bis 18. Wahlperiode (Version 2021-02-17) Formate: CSV, TXT und XML Source Code und Compilation Report Der gesamte Erstellungs-Prozess ist vollautomatisiert und detailliert dokumentiert. Mit jeder Kompilierung des vollständigen Datensatzes wird auch ein umfangreicher Compilation Report in einem attraktiv designten PDF-Format erstellt (ähnlich dem Codebook). Der Compilation Report enthält den vollständigen Source Code, dokumentiert relevante Rechenergebnisse, gibt sekundengenaue Zeitstempel an und ist mit einem klickbaren Inhaltsverzeichnis versehen. Er ist zusammen mit dem Source Code hinterlegt. Wenn Sie sich für Details des Erstellungs-Prozesses interessieren, lesen Sie diesen bitte zuerst. Der vollständige Source Code — sowohl für die Erstellung des Datensatzes, als auch für das Codebook — ist öffentlich einsehbar und dauerhaft erreichbar im wissenschaftlichen Archiv des CERN unter diesem Link hinterlegt: https://doi.org/10.5281/zenodo.4542666 Kryptographische Signaturen Die Integrität und Echtheit der einzelnen Archive des Datensatzes sind durch eine Zwei- Phasen-Signatur sichergestellt. In Phase I werden während der Kompilierung für jedes ZIP-Archiv Hash-Werte in zwei verschiedenen Verfahren (SHA2-256 und SHA3-512) berechnet und in einer CSV-Datei dokumentiert. In Phase II wird diese CSV-Datei mit meinem persönlichen geheimen GPG-Schlüssel signiert. Dieses Verfahren stellt sicher, dass die Kompilierung von jedermann durchgeführt werden kann, insbesondere im Rahmen von Replikationen, die persönliche Gewähr für Ergebnisse aber dennoch vorhanden bleibt. Die während der Kompilierung des Datensatzes erstellte CSV-Datei mit den Hash-Prüfsummen ist mit meiner persönlichen GPG-Signatur versehen. Der mit dieser Version korrespondierende Public Key ist sowohl mit dem Datensatz als auch mit dem Source Code hinterlegt. Er hat folgende Kenndaten: Name: Sean Fobbe (fobbe-data@posteo.de) Fingerabdruck: FE6F B888 F0E5 656C 1D25 3B9A 50C4 1384 F44A 4E42 Kein Urheberrecht: Public Domain An den Plenarprotokollen besteht gem. § 5 Abs. 1 UrhG kein Urheberrecht, da sie amtliche Werke sind. § 5 UrhG ist auf amtliche Datenbanken analog anzuwenden (BGH, Beschluss vom 28.09.2006 - I ZR 261/03, "Sächsischer Ausschreibungsdienst"). Alle eigenen Beiträge (z.B. durch Zusammenstellung und Anpassung der Metadaten) und damit den gesamten Datensatz stelle ich gemäß einer CC0 1.0 Universal Public Domain License vollständig urheberrechtsfrei. Disclaimer Dieser Datensatz ist eine private wissenschaftliche Initiative und steht in keiner Verbindung zum Deutschen Bundestag oder anderen amtlichen Stellen der Bundesrepublik Deutschland. Alternativen Wenn Sie mit einem nach einzelnen Redebeiträgen disaggregierten Korpus arbeiten möchten empfehle ich besonders die Open Discourse und GermaParl Korpora. Achtung: Für Open Discourse sind ~200 Mio Tokens Umfang angegeben, der CPP-BT hat einen Umfang von ~310 Mio Tokens. Es dürfte sich hier um einen erheblichen inhaltlichen Unterschied handeln, der aber wissenschaftlich noch nicht genauer aufgearbeitet wurde. Richter, F.; Koch, P.; Franke, O.; Kraus, J.; Kuruc, F.; Thiem, A.; Högerl, J.; Heine, S.; Schöps, K., 2020, "Open Discourse", https://doi.org/10.7910/DVN/FIKIBO, Harvard Dataverse Blaette, Andreas (2020): GermaParl. Download and Augment the Corpus of Plenary Protocols of the German Bundestag. R package version 1.4.1. https://CRAN.R-project.org/package=GermaParl Blaette, Andreas (2020): GermaParl. Linguistically Annotated and Indexed Corpus of Plenary Protocols of the German Bundestag. CWB corpus version 1.0.6. https://doi.org/10.5281/zenodo.3735141 Rauh, Christian; Schwalbach, 2020, "The ParlSpeech V2 data set: Full-text corpora of 6.3 million parliamentary speeches in the key legislative chambers of nine representative democracies", https://doi.org/10.7910/DVN/L4OAKN, Harvard Dataverse, V1 Open Knowledge Foundation, "Offenes Parlament", https://offenesparlament.de/daten/ Weitere Open Access Veröffentlichungen (Fobbe) Website — www.seanfobbe.de Open Data — zenodo.org/communities/sean-fobbe-data/ Source Code — zenodo.org/communities/sean-fobbe-code/ Volltexte regulärer Publikationen — zenodo.org/communities/sean-fobbe-publications/ Kontakt Fehler gefunden? Anregungen? Melden Sie diese entweder im Issue Tracker auf GitHub oder schreiben Sie mir eine E-Mail an fobbe-data@posteo.de

Keywords

Politik, Chemical Sciences not elsewhere classified, Science Policy, Immunology, Plant Biology, Marine Biology, Biochemistry, Microbiology, Inorganic Chemistry, Germany, Genetics, Gesetzgebung, Fraktion, Gesetz, Deutschland, Molecular Biology, Pharmacology, Abgeordneter, Evolutionary Biology, Bundestag, Ecology, Deutscher Bundestag, Rede, Computational Biology, Parlament, Cell Biology, Regierung, Plenarprotokoll, Bundesrepublik Deutschland, Parliament, Infectious Diseases, Legislative, Verordnung, Debatte, Neuroscience, Biotechnology, Developmental Biology

  • BIP!
    Impact byBIP!
    selected citations
    These citations are derived from selected sources.
    This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    0
    popularity
    This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
    Average
    influence
    This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    Average
    impulse
    This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
    Average
    OpenAIRE UsageCounts
    Usage byUsageCounts
    visibility views 242
    download downloads 131
  • 242
    views
    131
    downloads
    Powered byOpenAIRE UsageCounts
Powered by OpenAIRE graph
Found an issue? Give us feedback
visibility
download
selected citations
These citations are derived from selected sources.
This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Citations provided by BIP!
popularity
This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
BIP!Popularity provided by BIP!
influence
This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Influence provided by BIP!
impulse
This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
BIP!Impulse provided by BIP!
views
OpenAIRE UsageCountsViews provided by UsageCounts
downloads
OpenAIRE UsageCountsDownloads provided by UsageCounts
0
Average
Average
Average
242
131
Related to Research communities
Science and Innovation Policy Studies