Dataset představuje přílohou k diplomové práci s názvem “Tematické modelování publikační činnosti České akademie věd a umění v letech 1890–1910”. Součástí je popis postupu stažení, analýzy a přípravy dat a samotného modelování témat, které bylo provedeno v rámci výzkumné části práce. Data a scripty byly zveřejněny také na platformě GitHub: https://github.com/kerschfilip/tematicke_modelovani_cavu Reference diplomové práce:KERSCH, Filip. Tematické modelování publikační činnosti České akademie věd a umění v letech 1890–1910. Online. Praha, 2023. Diplomová práce. Univerzita Karlova. Filozofická fakulta. Ústav informačních studií a knihovnictví. Vedoucí práce Jindřich Marek. ---- The dataset is an appendix to the thesis entitled “Topic modelling of the publication activities of the Czech Academy of Sciences and Arts in the years 1890–1910”. It includes a description of the procedure of downloading, analysis and preparation of data and the actual modelling of topics, which was carried out within the research part of the thesis. The data and scripts were also published on GitHub: https://github.com/kerschfilip/tematicke_modelovani_cavu --- Struktura a popis adresáře datasetu:Structure and description of the dataset: |-- README.Rmd |-- README.html |-- data_download | \-- data_download.R #slouží ke stažení dat z digitální knihovny | \-- uuid_ae767058-435d-11dd-b505-00145e5790ea #stažené textové přepisy Rozprav I. třídy | \-- TEXT_OCR_vol_{rok vydání}_No_{číslo}_{uuid}.txt #soubor s textovým přepisem | \-- uuid_ae767057-435d-11dd-b505-00145e5790ea #stažené textové přepisy Rozprav II. třídy | \-- TEXT_OCR_vol_{rok vydání}_No_{číslo}_{uuid}.txt #soubor s textovým přepisem | \-- uuid_ae74754a-435d-11dd-b505-00145e5790ea #stažené textové přepisy Rozprav III. třídy | \-- TEXT_OCR_vol_{rok vydání}_No_{číslo}_{uuid}.txt #soubor s textovým přepisem | \-- ae767058-435d-11dd-b505-00145e5790ea_prehled.json #struktura a metadata Rozprav I. třídy | \-- ae767057-435d-11dd-b505-00145e5790ea_prehled.json #struktura a metadata Rozprav II. třídy | \-- ae74754a-435d-11dd-b505-00145e5790ea_prehled.json #struktura a metadata Rozprav III. třídy |-- data_exploration | \-- data_exploration.R #slouží k vytvoření přehledu o stažených datech | \-- data_exploration_report.Rmd #formátování reportu s přehledem o stažených datech | \-- data_exploration_report.html #report o stažených datech ve formátu HTML | \-- ae767058-435d-11dd-b505-00145e5790ea_prehled_public.json #struktura a metadata Rozprav I. třídy (1890-1910) | \-- ae767057-435d-11dd-b505-00145e5790ea_prehled_public.json #struktura a metadata Rozprav II. třídy (1890-1910) | \-- ae74754a-435d-11dd-b505-00145e5790ea_prehled_public.json #struktura a metadata Rozprav III. třídy (1890-1910) | \-- combined_issues_publication_year.json #společná matice číslo - rok vydání pro všechny Rozpravy |-- data_preparation | \-- remove_short_words.R #slouží k odstranění krátkých slov | \-- send_to_udpipe.R #slouží k obohacení dat nástrojem UDPipe2 | \-- rozpravy_trida_1 #upravené textové přepisy Rozprav I. třídy | \-- TEXT_OCR_vol_{rok vydání}_No_{číslo}_{uuid}.txt #soubor s textovým přepisem | \-- PREPARED_TEXT_OCR_vol_{rok vydání}_No_{číslo}_{uuid}.txt #zkrácený soubor s textovým přepisem | \-- NOUNS_PREPARED_TEXT_OCR_vol_{rok vydání}_No_{číslo}_{uuid}.txt #soubor s podstatnými jmény z textového přepisu | \-- CoNLLU_PREPARED_TEXT_OCR_vol_{rok vydání}_No_{číslo}_{uuid}.json #soubor s obohacenými daty z nástroje UDPipe 2 | \-- rozpravy_trida_2 #upravené textové přepisy Rozprav II. třídy | \-- TEXT_OCR_vol_{rok vydání}_No_{číslo}_{uuid}.txt #soubor s textovým přepisem | \-- PREPARED_TEXT_OCR_vol_{rok vydání}_No_{číslo}_{uuid}.txt #zkrácený soubor s textovým přepisem | \-- NOUNS_PREPARED_TEXT_OCR_vol_{rok vydání}_No_{číslo}_{uuid}.txt #soubor s podstatnými jmény z textového přepisu | \-- CoNLLU_PREPARED_TEXT_OCR_vol_{rok vydání}_No_{číslo}_{uuid}.json #soubor s obohacenými daty z nástroje UDPipe 2 | \-- rozpravy_trida_3 #upravené textové přepisy Rozprav III. třídy | \-- TEXT_OCR_vol_{rok vydání}_No_{číslo}_{uuid}.txt #soubor s textovým přepisem | \-- PREPARED_TEXT_OCR_vol_{rok vydání}_No_{číslo}_{uuid}.txt #zkrácený soubor s textovým přepisem | \-- NOUNS_PREPARED_TEXT_OCR_vol_{rok vydání}_No_{číslo}_{uuid}.txt #soubor s podstatnými jmény z textového přepisu | \-- CoNLLU_PREPARED_TEXT_OCR_vol_{rok vydání}_No_{číslo}_{uuid}.json #soubor s obohacenými daty z nástroje UDPipe 2 |-- topic_model | \-- LDA.Rmd #dokument popisující spuštění LDA a vizualizaci výsledků | \-- LDA.html #dokument popisující spuštění LDA a vizualizaci výsledků ve formátu HTML | \-- combined_issues_publication_year.json #společná matice číslo - rok vydání pro všechny Rozpravy | \-- data #složka s daty | \-- LDA_PREPARED_NOUNS_PREPARED_TEXT_OCR_vol_{rok vydání}_No_{číslo}_{uuid}.txt #soubor s podstatnými jmény připravený na vstup LDA | \-- klasifikace_temat.xlsx #přiřazení rozpoznaných témat ke klasifikaci FORD | \-- topic_model.RData #uložené prostředí R se všemi proměnnými a funkcemi
<script type="text/javascript">
<!--
document.write('<div id="oa_widget"></div>');
document.write('<script type="text/javascript" src="https://www.openaire.eu/index.php?option=com_openaire&view=widget&format=raw&projectId=10.5281/zenodo.10395969&type=result"></script>');
-->
</script>
<script type="text/javascript">
<!--
document.write('<div id="oa_widget"></div>');
document.write('<script type="text/javascript" src="https://www.openaire.eu/index.php?option=com_openaire&view=widget&format=raw&projectId=10.5281/zenodo.10395969&type=result"></script>');
-->
</script>
handle: 11025/30455
Rozhovor s PhDr. Miroslavem Breitfelderem, Ph.D. z Katedry historie Fakulty pedagogické Západočeské univerzity v Plzni o tom, v čem spočívá práce historika, vedla PhDr. Lucie Rohlíková, Ph.D.
<script type="text/javascript">
<!--
document.write('<div id="oa_widget"></div>');
document.write('<script type="text/javascript" src="https://www.openaire.eu/index.php?option=com_openaire&view=widget&format=raw&projectId=11025/30455&type=result"></script>');
-->
</script>
citations | 0 | |
popularity | Average | |
influence | Average | |
impulse | Average |
<script type="text/javascript">
<!--
document.write('<div id="oa_widget"></div>');
document.write('<script type="text/javascript" src="https://www.openaire.eu/index.php?option=com_openaire&view=widget&format=raw&projectId=11025/30455&type=result"></script>');
-->
</script>
Dataset představuje přílohou k diplomové práci s názvem “Tematické modelování publikační činnosti České akademie věd a umění v letech 1890–1910”. Součástí je popis postupu stažení, analýzy a přípravy dat a samotného modelování témat, které bylo provedeno v rámci výzkumné části práce. Data a scripty byly zveřejněny také na platformě GitHub: https://github.com/kerschfilip/tematicke_modelovani_cavu Reference diplomové práce:KERSCH, Filip. Tematické modelování publikační činnosti České akademie věd a umění v letech 1890–1910. Online. Praha, 2023. Diplomová práce. Univerzita Karlova. Filozofická fakulta. Ústav informačních studií a knihovnictví. Vedoucí práce Jindřich Marek. ---- The dataset is an appendix to the thesis entitled “Topic modelling of the publication activities of the Czech Academy of Sciences and Arts in the years 1890–1910”. It includes a description of the procedure of downloading, analysis and preparation of data and the actual modelling of topics, which was carried out within the research part of the thesis. The data and scripts were also published on GitHub: https://github.com/kerschfilip/tematicke_modelovani_cavu --- Struktura a popis adresáře datasetu:Structure and description of the dataset: |-- README.Rmd |-- README.html |-- data_download | \-- data_download.R #slouží ke stažení dat z digitální knihovny | \-- uuid_ae767058-435d-11dd-b505-00145e5790ea #stažené textové přepisy Rozprav I. třídy | \-- TEXT_OCR_vol_{rok vydání}_No_{číslo}_{uuid}.txt #soubor s textovým přepisem | \-- uuid_ae767057-435d-11dd-b505-00145e5790ea #stažené textové přepisy Rozprav II. třídy | \-- TEXT_OCR_vol_{rok vydání}_No_{číslo}_{uuid}.txt #soubor s textovým přepisem | \-- uuid_ae74754a-435d-11dd-b505-00145e5790ea #stažené textové přepisy Rozprav III. třídy | \-- TEXT_OCR_vol_{rok vydání}_No_{číslo}_{uuid}.txt #soubor s textovým přepisem | \-- ae767058-435d-11dd-b505-00145e5790ea_prehled.json #struktura a metadata Rozprav I. třídy | \-- ae767057-435d-11dd-b505-00145e5790ea_prehled.json #struktura a metadata Rozprav II. třídy | \-- ae74754a-435d-11dd-b505-00145e5790ea_prehled.json #struktura a metadata Rozprav III. třídy |-- data_exploration | \-- data_exploration.R #slouží k vytvoření přehledu o stažených datech | \-- data_exploration_report.Rmd #formátování reportu s přehledem o stažených datech | \-- data_exploration_report.html #report o stažených datech ve formátu HTML | \-- ae767058-435d-11dd-b505-00145e5790ea_prehled_public.json #struktura a metadata Rozprav I. třídy (1890-1910) | \-- ae767057-435d-11dd-b505-00145e5790ea_prehled_public.json #struktura a metadata Rozprav II. třídy (1890-1910) | \-- ae74754a-435d-11dd-b505-00145e5790ea_prehled_public.json #struktura a metadata Rozprav III. třídy (1890-1910) | \-- combined_issues_publication_year.json #společná matice číslo - rok vydání pro všechny Rozpravy |-- data_preparation | \-- remove_short_words.R #slouží k odstranění krátkých slov | \-- send_to_udpipe.R #slouží k obohacení dat nástrojem UDPipe2 | \-- rozpravy_trida_1 #upravené textové přepisy Rozprav I. třídy | \-- TEXT_OCR_vol_{rok vydání}_No_{číslo}_{uuid}.txt #soubor s textovým přepisem | \-- PREPARED_TEXT_OCR_vol_{rok vydání}_No_{číslo}_{uuid}.txt #zkrácený soubor s textovým přepisem | \-- NOUNS_PREPARED_TEXT_OCR_vol_{rok vydání}_No_{číslo}_{uuid}.txt #soubor s podstatnými jmény z textového přepisu | \-- CoNLLU_PREPARED_TEXT_OCR_vol_{rok vydání}_No_{číslo}_{uuid}.json #soubor s obohacenými daty z nástroje UDPipe 2 | \-- rozpravy_trida_2 #upravené textové přepisy Rozprav II. třídy | \-- TEXT_OCR_vol_{rok vydání}_No_{číslo}_{uuid}.txt #soubor s textovým přepisem | \-- PREPARED_TEXT_OCR_vol_{rok vydání}_No_{číslo}_{uuid}.txt #zkrácený soubor s textovým přepisem | \-- NOUNS_PREPARED_TEXT_OCR_vol_{rok vydání}_No_{číslo}_{uuid}.txt #soubor s podstatnými jmény z textového přepisu | \-- CoNLLU_PREPARED_TEXT_OCR_vol_{rok vydání}_No_{číslo}_{uuid}.json #soubor s obohacenými daty z nástroje UDPipe 2 | \-- rozpravy_trida_3 #upravené textové přepisy Rozprav III. třídy | \-- TEXT_OCR_vol_{rok vydání}_No_{číslo}_{uuid}.txt #soubor s textovým přepisem | \-- PREPARED_TEXT_OCR_vol_{rok vydání}_No_{číslo}_{uuid}.txt #zkrácený soubor s textovým přepisem | \-- NOUNS_PREPARED_TEXT_OCR_vol_{rok vydání}_No_{číslo}_{uuid}.txt #soubor s podstatnými jmény z textového přepisu | \-- CoNLLU_PREPARED_TEXT_OCR_vol_{rok vydání}_No_{číslo}_{uuid}.json #soubor s obohacenými daty z nástroje UDPipe 2 |-- topic_model | \-- LDA.Rmd #dokument popisující spuštění LDA a vizualizaci výsledků | \-- LDA.html #dokument popisující spuštění LDA a vizualizaci výsledků ve formátu HTML | \-- combined_issues_publication_year.json #společná matice číslo - rok vydání pro všechny Rozpravy | \-- data #složka s daty | \-- LDA_PREPARED_NOUNS_PREPARED_TEXT_OCR_vol_{rok vydání}_No_{číslo}_{uuid}.txt #soubor s podstatnými jmény připravený na vstup LDA | \-- klasifikace_temat.xlsx #přiřazení rozpoznaných témat ke klasifikaci FORD | \-- topic_model.RData #uložené prostředí R se všemi proměnnými a funkcemi
<script type="text/javascript">
<!--
document.write('<div id="oa_widget"></div>');
document.write('<script type="text/javascript" src="https://www.openaire.eu/index.php?option=com_openaire&view=widget&format=raw&projectId=10.5281/zenodo.10395969&type=result"></script>');
-->
</script>
<script type="text/javascript">
<!--
document.write('<div id="oa_widget"></div>');
document.write('<script type="text/javascript" src="https://www.openaire.eu/index.php?option=com_openaire&view=widget&format=raw&projectId=10.5281/zenodo.10395969&type=result"></script>');
-->
</script>
handle: 11025/30455
Rozhovor s PhDr. Miroslavem Breitfelderem, Ph.D. z Katedry historie Fakulty pedagogické Západočeské univerzity v Plzni o tom, v čem spočívá práce historika, vedla PhDr. Lucie Rohlíková, Ph.D.
<script type="text/javascript">
<!--
document.write('<div id="oa_widget"></div>');
document.write('<script type="text/javascript" src="https://www.openaire.eu/index.php?option=com_openaire&view=widget&format=raw&projectId=11025/30455&type=result"></script>');
-->
</script>
citations | 0 | |
popularity | Average | |
influence | Average | |
impulse | Average |
<script type="text/javascript">
<!--
document.write('<div id="oa_widget"></div>');
document.write('<script type="text/javascript" src="https://www.openaire.eu/index.php?option=com_openaire&view=widget&format=raw&projectId=11025/30455&type=result"></script>');
-->
</script>