Advanced search in
Research products
arrow_drop_down
Searching FieldsTerms
Any field
arrow_drop_down
includes
arrow_drop_down
Include:
265 Research products, page 1 of 27

  • Publications
  • SE
  • Publikationer från KTH
  • Digital Humanities and Cultural Heritage

10
arrow_drop_down
Date (most recent)
arrow_drop_down
  • Open Access English
    Authors: 
    Fredrik Bertilsson;
    Publisher: KTH, Historiska studier av teknik, vetenskap och miljö
    Country: Sweden

    This chapter explores knowledge associated with the humanities that hasbeen developed in practice-oriented research domains of the Swedishgovernment to help solve societal challenges. I study the Swedish NationalDefense Research Establishment [Försvarets forskningsanstalt] (FOA). Theconcept of “borderline humanities” refers to research activities that didnot abide by academic distinctions between the humanities, the socialsciences, and the natural sciences. The study shows how knowledge onhuman culture, history, language, and beliefs developed in a researchenvironment that drew on diverse fields of both research and practice.The chapter brings to the fore shared themes and concepts betweendifferent research fields and draws attention to how this affects the viewof research impact. QC 20220815

  • Publication . Part of book or chapter of book . 2022
    Open Access
    Authors: 
    Roberts, Peder;
    Publisher: Routledge
    Country: Sweden

    QC 20221011 ERC StG 716211

  • Open Access English
    Authors: 
    Sverker Sörlin;
    Publisher: KTH, Historiska studier av teknik, vetenskap och miljö
    Country: Sweden

    This article discusses David Lowenthal's last book, Quest for the Unity of Knowledge, which was published posthumously by Routledge in 2019 (available in print from November 2018). The book is based on a series of lectures that he gave while a visiting fellow with the KTH Royal Institute of Technology’s Environmental Humanities Laboratory in Stockholm in 2012. Aimed at a general academic audience, it is an erudite and passionate overview showing how ingrained bias towards unity or diversity shapes major issues in education, religion, genetics, race relations, heritage governance, and environmental policy. Quest for the Unity of Knowledge explores the Two Cultures debate, initiated by C.P. Snow, concerning the gulf between the sciences and the humanities. It covers areas such as conservation, ecology, history of ideas, museology, landscape, and heritage studies, aligning with Lowenthal's career-long research interests, and serving as well as a meta-comment to the emerging Environmental Humanities. QC 20220412

  • Open Access
    Authors: 
    Tirza Meyer;
    Publisher: Brill | Nijhoff
    Country: Sweden

    In the late twentieth century, as the United Nations struggled to come up with a new legal system for the oceans, one woman saw the opportunity to promote radical new ideas of justice and internationalism. Ocean governance expert Elisabeth Mann Borgese (1918–2002) spent decades working with the United Nations Law of the Sea Convention. Throughout this sprawling series of global conferences, she navigated allegiances and enmities, intrigues and setbacks, fighting determinedly to develop a just ocean order. Featuring extensive research and new interviews with Mann Borgese’s colleagues and family, this book explores timeless questions of justice and international collaboration and asks whether the extraordinary drive and vision of a single person can influence the course of international law. QC 20220412

  • Open Access English
    Authors: 
    Stahre, Mattias;
    Publisher: KTH, Skolan för elektroteknik och datavetenskap (EECS)
    Country: Sweden

    The use of Deep Learning methods for Document Understanding has been embraced by the research community in recent years. A requirement for Deep Learning methods and especially Transformer Networks, is access to large datasets. The objective of this thesis was to evaluate a state-of-the-art model for Document Layout Analysis on a public and custom dataset. Additionally, the objective was to build a pipeline for building a dataset specifically for Visually Rich Documents. The research methodology consisted of a literature study to find the state-of-the-art model for Document Layout Analysis and a relevant dataset used to evaluate the chosen model. The literature study also included research on how existing datasets in the domain were collected and processed. Finally, an evaluation framework was created. The evaluation showed that the chosen multi-modal transformer network, LayoutLMv2, performed well on the Docbank dataset. The custom build dataset was limited by class imbalance, although good performance for the larger classes. The annotator tool and its auto-tagging feature performed well and the proposed pipelined showed great promise for creating datasets with Visually Rich Documents. In conclusion, this thesis project answers the research questions and suggests two main opportunities. The first is to encourage others to build datasets with Visually Rich Documents using a similar pipeline to the one presented in this paper. The second is to evaluate the possibility of creating the visual token information for LayoutLMv2 as part of the transformer network rather than using a separate CNN. Användningen av Deep Learning-metoder för dokumentförståelse har anammats av forskarvärlden de senaste åren. Ett krav för Deep Learning-metoder och speciellt Transformer Networks är tillgång till stora datamängder. Syftet med denna avhandling var att utvärdera en state-of-the-art modell för analys av dokumentlayout på en offentligt tillgängligt dataset. Dessutom var målet att bygga en pipeline för att bygga en dataset specifikt för Visuallt Rika Dokument. Forskningsmetodiken bestod av en litteraturstudie för att hitta modellen för Document Layout Analys och ett relevant dataset som användes för att utvärdera den valda modellen. Litteraturstudien omfattade också forskning om hur befintliga dataset i domänen samlades in och bearbetades. Slutligen skapades en utvärderingsram. Utvärderingen visade att det valda multimodala transformatornätverket, LayoutLMv2, fungerade bra på Docbank-datasetet. Den skapade datasetet begränsades av klassobalans även om bra prestanda för de större klasserna erhölls. Annotatorverktyget och dess autotaggningsfunktion fungerade bra och den föreslagna pipelinen visade sig vara mycket lovande för att skapa dataset med VVisuallt Rika Dokument.svis besvarar detta examensarbete forskningsfrågorna och föreslår två huvudsakliga möjligheter. Den första är att uppmuntra andra att bygga datauppsättningar med Visuallt Rika Dokument med en liknande pipeline som den som presenteras i denna uppsats. Det andra är att utvärdera möjligheten att skapa den visuella tokeninformationen för LayoutLMv2 som en del av transformatornätverket snarare än att använda en separat CNN.

  • Open Access English
    Authors: 
    Feldstein Jacobs, Adam;
    Publisher: KTH, Skolan för elektroteknik och datavetenskap (EECS)
    Country: Sweden

    Podcasts are an exponentially growing audio medium where useful and relevant content should be served, which requires new methods of information sorting. This thesis is the first to look into the state-of-art problem of segmenting podcasts into chapters (structurally and topically coherent sections). Podcast segmentation is a more difficult problem than segmenting structured text due to spontaneous speech and transcription errors from automatic speech recognition systems. This thesis used author-provided timestamps from podcast descriptions as labels to perform supervised learning. Binary classification is performed on sentences from podcast transcripts. A general framework is delivered for creating a dataset with 21 436 podcast episodes, training a supervised model, and for evaluation. The framework managed to address technical challenges such as a high data imbalance (there are few chapter transitions per episode), and finding an appropriate context size (how many sentences are shown to the model during inference). The proposed model outperformed a baseline model in quantitative metrics and in a human evaluation with 100 transitions. The solution provided in this thesis can be used to chapterize podcasts, which has many downstream applications, such as segment sorting, summarization, and information retrieval. Podcasts är ett exponentiellt växande ljudmedium där användbart och relevant innehåll är viktigt, vilket kräver nya metoder för sortering av information. Detta examensarbete är det första projektet som antar utmaningen att segmentera podcasts in i kapitel (strukturellt och tematiskt sammanhängande avsnitt). Podcastsegmentering är ett svårare problem än att segmentera strukturerad text på grund av spontant tal och fel i transkriberingssystem. Detta projekt använde kapiteltider från podcastbeskrivningar som signaler för att kunna göra supervised learning. Binär klassificering görs på meningar från podcast-transkript. Denna uppsats levererar ett ramverk för att skapa ett dataset med 21 436 podcasts, träna en supervised maskininlärningsmodell samt för utvärdering. Ramverket lyckades lösa tekniska utmaningar såsom obalanserad data (det är få kapitelövergångar i varje podcast) och att hitta en rimlig kontextstorlek (hur många meningar som modellen ser för varje inferens). Den tränade modellen var bättre än en slumpmässig referensmodell i både kvantitativa mätningar samt i en mänsklig utvärdering för 100 kapitelövergångar. Slutligen, detta examensarbete har resulterat i en lösning som kan kapitelindela podcasts, vilket har många applikationer såsom sortering av segment, summering, och informationssökning.

  • Open Access English
    Authors: 
    Båth, Jacob;
    Publisher: KTH, Skolan för elektroteknik och datavetenskap (EECS)
    Country: Sweden

    School teachers spend approximately 30 percent of their time grading exams and other assessments. With an increasingly digitized education, a research field have been initiated that aims to reduce the time spent on grading by automating it. This is an easy task for multiple-choice questions but much harder for open-ended questions requiring free-text answers, where the latter have shown to be superior for knowledge assessment and learning consolidation. While results in previous work have presented promising results of up to 90 percent grading accuracy, it is still problematic using a system that gives the wrong grade in 10 percent of the cases. This has given rise to a research field focusing on assisting teachers in the grading process, instead of fully replacing them. Cluster analysis has been the most popular tool for this, grouping similar answers together and letting teachers process groups of answers at once, instead of evaluating each question one-at-a-time. This approach has shown evidence to decrease the time spent on grading substantially, however, the methods for performing the clustering vary widely between studies, leaving no apparent methodology choice for real-use implementation. Using several techniques for pre-processing, text representation and choice of clustering algorithm, this work compared various methods for clustering free-text answers by evaluating them on a dataset containing almost 400 000 student answers. The results showed that using all of the tested pre-processing techniques led to the best performance, although the difference to using minimum pre-processing were small. Sentence embeddings were the text representation approach that performed the best, however, it remains to be answered how it should be used when spelling and grammar is part of the assessment, as it lacks the ability to identify such errors. A suitable choice of clustering algorithm is one where the number of clusters can be specified, as determining this automatically proved to be difficult. Teachers can then easily adjust the number of clusters based on their judgement. Skollärare spenderar ungefär 30 procent av sin tid på rättning av prov och andra bedömningar. I takt med att mer utbildning digitaliseras, försöker forskare hitta sätt att automatisera rättning för att minska den administrativa bördan för lärare. Flervalsfrågor har fördelen att de enkelt kan rättas automatiskt, medan öppet ställda frågor som kräver ett fritt formulerat svar har visat sig vara ett bättre verktyg för att mäta elevers förståelse. Dessa typer av frågor är däremot betydligt svårare att rätta automatiskt, vilket lett till forskning inom automatisk rättning av dessa. Även om tidigare forskning har lyckats uppnå resultat med upp till 90 procents träffsäkerhet, är det fortfarande problematiskt att det blir fel i de resterande 10 procenten av fallen. Detta har lett till forskning som fokuserar på underlätta för lärare i rättningen, istället för att ersätta dem. Klusteranalys har varit det mest populära tillvägagångssättet för att åstadkomma detta, där liknande svar grupperas tillsammans, vilket möjliggör rättning av flera svar samtidigt. Denna metod har visat sig minska rättningstiden signifikant, däremot har metoderna för att göra klusteranalysen varierat brett, vilket gör det svårt att veta hur en implementering i ett verkligt scenario bör se ut. Genom att använda olika tekniker för textbearbetning, textrepresentation och val av klusteralgoritm, jämför detta arbete olika metoder för att klustra fritext-svar, genom att utvärdera dessa på nästan 400 000 riktiga elevsvar. Resultatet visar att mer textbearbetning generellt är bättre, även om skillnaderna är små. Användning av så kallade sentence embeddings ledde till bäst resultat när olika tekniker för textrepresentation jämfördes. Däremot har denna teknik svårare att identifiera grammatik- och stavningsfel, hur detta ska hanteras är en fråga för framtida forskning. Ett lämpligt val av klustringsalgoritm är en där antalet kluster kan bestämmas av användaren, då det visat sig svårt att bestämma det automatiskt. Lärare kan då justera antalet kluster ifall det skulle vara för få eller för många.

  • Publication . Bachelor thesis . 2022
    Open Access English
    Authors: 
    Despinoy, Eva;
    Publisher: KTH, Skolan för elektroteknik och datavetenskap (EECS)
    Country: Sweden

    Social media is a significant factor in information distribution today, and this information landscape contains a lot of different posts that compete for the user’s attention. Different factors can help catch the interest of the user, and one of them is the headline of the message. The headline can be more or less eye-catching, which can make the reader more or less interested in interacting with the post. The theme of this study is the automatized creation of eye-catching headlines that stay truthful to the content of the articles using Automatic Text Summarization. The exact method used consisted of fine-tuning the BART model, which is an existing model for Text Summarization. Other papers have been written using different models to solve this problem with more or less success, however, none have used this method. It was deemed an interesting method as it is less time- and energy-consuming than creating and training a new model entirely from scratch and therefore could be easily replicated if the results were positive. The BartForConditionalGeneration model implemented by the HuggingFace library was fine-tuned, using the Popular News Articles by Web.io. This method showed positive results. The resulting headlines were deemed faithful to the original ones, with a ROUGE-2 recall score of 0.541. They were comparably eye-catching to the human-written headlines, with the human respondents ranking them almost the same, with an average rank of 1.692 for the human-written headlines, and 1.821 for fine-tuned BART, and also getting an average score of 3.31 on a 1 to 5 attractiveness score scale. They were also deemed very comprehensible, with an average score of 0.95 on a scale from 0 to 1. Sociala medier är idag en viktig faktor i distributionen av information. Detta nya landskap innehåller många olika inlägg som tävlar om användarens uppmärksamhet. Olika faktorer kan hjälpa till att fånga användarens blick till specifika inlägg eller artiklar, och en av dessa faktorer är rubriken. Rubriken kan vara mer eller mindre fängslande, och göra läsaren mer eller mindre intresserad av att interagera med inlägget. Temat för denna studie är att automatiskt skapa iögonfallande och intressanta rubriker, som beskriver innehå llet i artiklarna på ett korrekt sätt. Den valda metoden är automatisk textsamman fattning, och mer specifikt finjusterades BART-modellen, som är en existerande modell för textsammanfattning. Andra metoder har använts tidigare för att lösa denna problematik med mer eller mindre framgång, men ingen studie hade använt den här. Den ansågs vara intressant eftersom den är mindre tids- och energikrävande än vad det skulle vara att skapa en ny modell från grunden, och därför skulle den lätt kunna replikeras om resultatet var positivt. BartForConditionalGeneration-modellen implementerad av HuggingFace-bib lioteket finjusterades därför med hjälp av artiklar och rubriker från datasetet ’Popular News Articles’ av Web.io. Metoden visade positiva resultat. De resulterande rubrikerna ansågs trogna de ursprungliga, med en ROUGE-2 recall score på 0,541. De var jämförbart iögonfallande gentemot de mänskligt skrivna rubrikerna, då respondenterna rankade dem nästan likadant, med en genomsnittlig rankning på 1,692 för de mänskligt skrivna rubrikerna och 1,821 för rubrikerna som finjusterade BART genererade. De fick också ett genomsnittligt betyg av 3,31 på en poängskala från 1 till 5. De ansågs dessutom vara mycket lättbegripliga, med ett medelpoäng på 0,95 på en skala från 0 till 1.

  • Open Access English
    Authors: 
    Kjellberg, Gustav;
    Publisher: KTH, Skolan för elektroteknik och datavetenskap (EECS)
    Country: Sweden

    The use of Machine Learning (ML) in business has increased significantly over the past years. Creating high quality and robust models requires a lot of data, which is at times infeasible to obtain. As more people are becoming concerned about their data being misused, data privacy is increasingly strengthened. In 2018, the General Data Protection Regulation (GDPR), was announced within the EU. Models that use either sensitive or personal data to train need to obtain that data in accordance with the regulatory rules, such as GDPR. One other data related issue is that enterprises who wish to collaborate on model building face problems when it requires them to share their private corporate data [36, 38]. In this thesis we will investigate how one might overcome the issue of directly accessing private data when training ML models by employing Federated Learning (FL) [38]. The concept of FL is to allow several silos, i.e. separate parties, to train models with the same objective, using their local data and then with the learned model parameters create a central model. The objective of the central model is to obtain the information learned by the separate models, without ever accessing the raw data itself. This is achieved by averaging the separate models’ weights into the central model. FL thus facilitates opportunities to train a model on large amounts of data from several sources, without the need of having access to the data itself. If one can create a model with this methodology, that is not significantly worse than a model trained on the raw data, then positive effects such as strengthened data privacy, cross-enterprise collaboration and more could be attainable. In this work we have used a financial data set consisting of 25242 equity research reports, provided by Skandinaviska Enskilda Banken (SEB). Each report has a recommendation label, either Buy, Sell or Hold, making this a multi-class classification problem. To evaluate the feasibility of FL we fine-tune the pre-trained Transformer model AlbertForSequenceClassification [37] on the classification task. We create one baseline model using the entire data set and an FL model with different experimental settings, for which the data is distributed both uniformly and non-uniformly. The baseline model is used to benchmark the FL model. Our results indicate that the best FL setting only suffers a small reduction in performance. The baseline model achieves an accuracy of 83.5% compared to 82.8% for the best FL model setting. Further, we find that with an increased number of clients, the performance is worsened. We also found that our FL model was not sensitive to non-uniform data distributions. All in all, we show that FL results in slightly worse generalisation compared to the baseline model, while strongly improving on data privacy, as the central model never accesses the clients’ data. Företags nyttjande av maskininlärning har de senaste åren ökat signifikant och för att kunna skapa högkvalitativa modeller krävs stora mängder data, vilket kan vara svårt att insamla. Parallellt med detta så ökar också den allmänna förståelsen för hur användandet av data missbrukas, vilket har lätt till ett ökat behov av starkare datasäkerhet. 2018 så trädde General Data Protection Regulation (GDPR) i kraft inom EU, vilken bland annat ställer krav på hur företag skall hantera persondata. Företag med maskininlärningsmodeller som på något sätt använder känslig eller personlig data behöver således ha fått tillgång till denna data i enlighet med de rådande lagar och regler som omfattar datahanteringen. Ytterligare ett datarelaterat problem är då företag önskar att skapa gemensamma maskininlärningsmodeller som skulle kräva att de delar deras bolagsdata [36, 38]. Denna uppsats kommer att undersöka hur Federerad Inlärning [38] kan användas för att skapa maskinlärningsmodeller som överkommer dessa datasäkerhetsrelaterade problem. Federerad Inlärning är en metod för att på ett decentraliserat vis träna maskininlärningsmodeller. Detta omfattar att låta flera aktörer träna en modell var. Varje enskild aktör tränar respektive modell på deras isolerade data och delar sedan endast modellens parametrar till en central modell. På detta vis kan varje enskild modell bidra till den gemensamma modellen utan att den gemensamma modellen någonsin haft tillgång till den faktiska datan. Givet att en modell, skapad med Federerad Inlärning kan uppnå liknande resultat som en modell tränad på rådata, så finns många positiva fördelar så som ökad datasäkerhet och ökade samarbeten mellan företag. Under arbetet har ett dataset, bestående av 25242 finansiella rapporter tillgängliggjort av Skandinaviska Ensilda Banken (SEB) använts. Varje enskild rapport innefattar en rekommendation, antingen Köp, Sälj eller Håll, vilket innebär att vi utför muliklass-klassificering. Med datan tränas den förtränade Transformermodellen AlbertForSequence- Classification [37] på att klassificera rapporterna. En Baseline-modell, vilken har tränats på all rådata och flera Federerade modellkonfigurationer skapades, där bland annat varierande fördelningen av data mellan aktörer från att vara jämnt fördelat till vara ojämnt fördelad. Resultaten visar att den bästa Federerade modellkonfigurationen endast presterar något sämre än Baseline-modellen. Baselinemodellen uppnådde en klassificeringssäkerhet på 83.5% medan den bästa Federerade modellen uppnådde 82.8%. Resultaten visar också att den Federerade modellen inte var känslig mot att variera fördelningen av datamängd mellan aktorerna, samt att med ett ökat antal aktörer så minskar klassificeringssäkerheten. Sammanfattningsvis så visar vi att Federerad Inlärning uppnår nästan lika goda resultat som Baseline-modellen, samtidigt så bidrar metoden till avsevärt bättre datasäkerhet då den centrala modellen aldrig har tillgång till rådata.

  • Open Access English
    Authors: 
    Sörlin, Sverker; Paglia, Eric;
    Publisher: KTH, Historiska studier av teknik, vetenskap och miljö
    Country: Sweden

    QC 20220317

Advanced search in
Research products
arrow_drop_down
Searching FieldsTerms
Any field
arrow_drop_down
includes
arrow_drop_down
Include:
265 Research products, page 1 of 27
  • Open Access English
    Authors: 
    Fredrik Bertilsson;
    Publisher: KTH, Historiska studier av teknik, vetenskap och miljö
    Country: Sweden

    This chapter explores knowledge associated with the humanities that hasbeen developed in practice-oriented research domains of the Swedishgovernment to help solve societal challenges. I study the Swedish NationalDefense Research Establishment [Försvarets forskningsanstalt] (FOA). Theconcept of “borderline humanities” refers to research activities that didnot abide by academic distinctions between the humanities, the socialsciences, and the natural sciences. The study shows how knowledge onhuman culture, history, language, and beliefs developed in a researchenvironment that drew on diverse fields of both research and practice.The chapter brings to the fore shared themes and concepts betweendifferent research fields and draws attention to how this affects the viewof research impact. QC 20220815

  • Publication . Part of book or chapter of book . 2022
    Open Access
    Authors: 
    Roberts, Peder;
    Publisher: Routledge
    Country: Sweden

    QC 20221011 ERC StG 716211

  • Open Access English
    Authors: 
    Sverker Sörlin;
    Publisher: KTH, Historiska studier av teknik, vetenskap och miljö
    Country: Sweden

    This article discusses David Lowenthal's last book, Quest for the Unity of Knowledge, which was published posthumously by Routledge in 2019 (available in print from November 2018). The book is based on a series of lectures that he gave while a visiting fellow with the KTH Royal Institute of Technology’s Environmental Humanities Laboratory in Stockholm in 2012. Aimed at a general academic audience, it is an erudite and passionate overview showing how ingrained bias towards unity or diversity shapes major issues in education, religion, genetics, race relations, heritage governance, and environmental policy. Quest for the Unity of Knowledge explores the Two Cultures debate, initiated by C.P. Snow, concerning the gulf between the sciences and the humanities. It covers areas such as conservation, ecology, history of ideas, museology, landscape, and heritage studies, aligning with Lowenthal's career-long research interests, and serving as well as a meta-comment to the emerging Environmental Humanities. QC 20220412

  • Open Access
    Authors: 
    Tirza Meyer;
    Publisher: Brill | Nijhoff
    Country: Sweden

    In the late twentieth century, as the United Nations struggled to come up with a new legal system for the oceans, one woman saw the opportunity to promote radical new ideas of justice and internationalism. Ocean governance expert Elisabeth Mann Borgese (1918–2002) spent decades working with the United Nations Law of the Sea Convention. Throughout this sprawling series of global conferences, she navigated allegiances and enmities, intrigues and setbacks, fighting determinedly to develop a just ocean order. Featuring extensive research and new interviews with Mann Borgese’s colleagues and family, this book explores timeless questions of justice and international collaboration and asks whether the extraordinary drive and vision of a single person can influence the course of international law. QC 20220412

  • Open Access English
    Authors: 
    Stahre, Mattias;
    Publisher: KTH, Skolan för elektroteknik och datavetenskap (EECS)
    Country: Sweden

    The use of Deep Learning methods for Document Understanding has been embraced by the research community in recent years. A requirement for Deep Learning methods and especially Transformer Networks, is access to large datasets. The objective of this thesis was to evaluate a state-of-the-art model for Document Layout Analysis on a public and custom dataset. Additionally, the objective was to build a pipeline for building a dataset specifically for Visually Rich Documents. The research methodology consisted of a literature study to find the state-of-the-art model for Document Layout Analysis and a relevant dataset used to evaluate the chosen model. The literature study also included research on how existing datasets in the domain were collected and processed. Finally, an evaluation framework was created. The evaluation showed that the chosen multi-modal transformer network, LayoutLMv2, performed well on the Docbank dataset. The custom build dataset was limited by class imbalance, although good performance for the larger classes. The annotator tool and its auto-tagging feature performed well and the proposed pipelined showed great promise for creating datasets with Visually Rich Documents. In conclusion, this thesis project answers the research questions and suggests two main opportunities. The first is to encourage others to build datasets with Visually Rich Documents using a similar pipeline to the one presented in this paper. The second is to evaluate the possibility of creating the visual token information for LayoutLMv2 as part of the transformer network rather than using a separate CNN. Användningen av Deep Learning-metoder för dokumentförståelse har anammats av forskarvärlden de senaste åren. Ett krav för Deep Learning-metoder och speciellt Transformer Networks är tillgång till stora datamängder. Syftet med denna avhandling var att utvärdera en state-of-the-art modell för analys av dokumentlayout på en offentligt tillgängligt dataset. Dessutom var målet att bygga en pipeline för att bygga en dataset specifikt för Visuallt Rika Dokument. Forskningsmetodiken bestod av en litteraturstudie för att hitta modellen för Document Layout Analys och ett relevant dataset som användes för att utvärdera den valda modellen. Litteraturstudien omfattade också forskning om hur befintliga dataset i domänen samlades in och bearbetades. Slutligen skapades en utvärderingsram. Utvärderingen visade att det valda multimodala transformatornätverket, LayoutLMv2, fungerade bra på Docbank-datasetet. Den skapade datasetet begränsades av klassobalans även om bra prestanda för de större klasserna erhölls. Annotatorverktyget och dess autotaggningsfunktion fungerade bra och den föreslagna pipelinen visade sig vara mycket lovande för att skapa dataset med VVisuallt Rika Dokument.svis besvarar detta examensarbete forskningsfrågorna och föreslår två huvudsakliga möjligheter. Den första är att uppmuntra andra att bygga datauppsättningar med Visuallt Rika Dokument med en liknande pipeline som den som presenteras i denna uppsats. Det andra är att utvärdera möjligheten att skapa den visuella tokeninformationen för LayoutLMv2 som en del av transformatornätverket snarare än att använda en separat CNN.

  • Open Access English
    Authors: 
    Feldstein Jacobs, Adam;
    Publisher: KTH, Skolan för elektroteknik och datavetenskap (EECS)
    Country: Sweden

    Podcasts are an exponentially growing audio medium where useful and relevant content should be served, which requires new methods of information sorting. This thesis is the first to look into the state-of-art problem of segmenting podcasts into chapters (structurally and topically coherent sections). Podcast segmentation is a more difficult problem than segmenting structured text due to spontaneous speech and transcription errors from automatic speech recognition systems. This thesis used author-provided timestamps from podcast descriptions as labels to perform supervised learning. Binary classification is performed on sentences from podcast transcripts. A general framework is delivered for creating a dataset with 21 436 podcast episodes, training a supervised model, and for evaluation. The framework managed to address technical challenges such as a high data imbalance (there are few chapter transitions per episode), and finding an appropriate context size (how many sentences are shown to the model during inference). The proposed model outperformed a baseline model in quantitative metrics and in a human evaluation with 100 transitions. The solution provided in this thesis can be used to chapterize podcasts, which has many downstream applications, such as segment sorting, summarization, and information retrieval. Podcasts är ett exponentiellt växande ljudmedium där användbart och relevant innehåll är viktigt, vilket kräver nya metoder för sortering av information. Detta examensarbete är det första projektet som antar utmaningen att segmentera podcasts in i kapitel (strukturellt och tematiskt sammanhängande avsnitt). Podcastsegmentering är ett svårare problem än att segmentera strukturerad text på grund av spontant tal och fel i transkriberingssystem. Detta projekt använde kapiteltider från podcastbeskrivningar som signaler för att kunna göra supervised learning. Binär klassificering görs på meningar från podcast-transkript. Denna uppsats levererar ett ramverk för att skapa ett dataset med 21 436 podcasts, träna en supervised maskininlärningsmodell samt för utvärdering. Ramverket lyckades lösa tekniska utmaningar såsom obalanserad data (det är få kapitelövergångar i varje podcast) och att hitta en rimlig kontextstorlek (hur många meningar som modellen ser för varje inferens). Den tränade modellen var bättre än en slumpmässig referensmodell i både kvantitativa mätningar samt i en mänsklig utvärdering för 100 kapitelövergångar. Slutligen, detta examensarbete har resulterat i en lösning som kan kapitelindela podcasts, vilket har många applikationer såsom sortering av segment, summering, och informationssökning.

  • Open Access English
    Authors: 
    Båth, Jacob;
    Publisher: KTH, Skolan för elektroteknik och datavetenskap (EECS)
    Country: Sweden

    School teachers spend approximately 30 percent of their time grading exams and other assessments. With an increasingly digitized education, a research field have been initiated that aims to reduce the time spent on grading by automating it. This is an easy task for multiple-choice questions but much harder for open-ended questions requiring free-text answers, where the latter have shown to be superior for knowledge assessment and learning consolidation. While results in previous work have presented promising results of up to 90 percent grading accuracy, it is still problematic using a system that gives the wrong grade in 10 percent of the cases. This has given rise to a research field focusing on assisting teachers in the grading process, instead of fully replacing them. Cluster analysis has been the most popular tool for this, grouping similar answers together and letting teachers process groups of answers at once, instead of evaluating each question one-at-a-time. This approach has shown evidence to decrease the time spent on grading substantially, however, the methods for performing the clustering vary widely between studies, leaving no apparent methodology choice for real-use implementation. Using several techniques for pre-processing, text representation and choice of clustering algorithm, this work compared various methods for clustering free-text answers by evaluating them on a dataset containing almost 400 000 student answers. The results showed that using all of the tested pre-processing techniques led to the best performance, although the difference to using minimum pre-processing were small. Sentence embeddings were the text representation approach that performed the best, however, it remains to be answered how it should be used when spelling and grammar is part of the assessment, as it lacks the ability to identify such errors. A suitable choice of clustering algorithm is one where the number of clusters can be specified, as determining this automatically proved to be difficult. Teachers can then easily adjust the number of clusters based on their judgement. Skollärare spenderar ungefär 30 procent av sin tid på rättning av prov och andra bedömningar. I takt med att mer utbildning digitaliseras, försöker forskare hitta sätt att automatisera rättning för att minska den administrativa bördan för lärare. Flervalsfrågor har fördelen att de enkelt kan rättas automatiskt, medan öppet ställda frågor som kräver ett fritt formulerat svar har visat sig vara ett bättre verktyg för att mäta elevers förståelse. Dessa typer av frågor är däremot betydligt svårare att rätta automatiskt, vilket lett till forskning inom automatisk rättning av dessa. Även om tidigare forskning har lyckats uppnå resultat med upp till 90 procents träffsäkerhet, är det fortfarande problematiskt att det blir fel i de resterande 10 procenten av fallen. Detta har lett till forskning som fokuserar på underlätta för lärare i rättningen, istället för att ersätta dem. Klusteranalys har varit det mest populära tillvägagångssättet för att åstadkomma detta, där liknande svar grupperas tillsammans, vilket möjliggör rättning av flera svar samtidigt. Denna metod har visat sig minska rättningstiden signifikant, däremot har metoderna för att göra klusteranalysen varierat brett, vilket gör det svårt att veta hur en implementering i ett verkligt scenario bör se ut. Genom att använda olika tekniker för textbearbetning, textrepresentation och val av klusteralgoritm, jämför detta arbete olika metoder för att klustra fritext-svar, genom att utvärdera dessa på nästan 400 000 riktiga elevsvar. Resultatet visar att mer textbearbetning generellt är bättre, även om skillnaderna är små. Användning av så kallade sentence embeddings ledde till bäst resultat när olika tekniker för textrepresentation jämfördes. Däremot har denna teknik svårare att identifiera grammatik- och stavningsfel, hur detta ska hanteras är en fråga för framtida forskning. Ett lämpligt val av klustringsalgoritm är en där antalet kluster kan bestämmas av användaren, då det visat sig svårt att bestämma det automatiskt. Lärare kan då justera antalet kluster ifall det skulle vara för få eller för många.

  • Publication . Bachelor thesis . 2022
    Open Access English
    Authors: 
    Despinoy, Eva;
    Publisher: KTH, Skolan för elektroteknik och datavetenskap (EECS)
    Country: Sweden

    Social media is a significant factor in information distribution today, and this information landscape contains a lot of different posts that compete for the user’s attention. Different factors can help catch the interest of the user, and one of them is the headline of the message. The headline can be more or less eye-catching, which can make the reader more or less interested in interacting with the post. The theme of this study is the automatized creation of eye-catching headlines that stay truthful to the content of the articles using Automatic Text Summarization. The exact method used consisted of fine-tuning the BART model, which is an existing model for Text Summarization. Other papers have been written using different models to solve this problem with more or less success, however, none have used this method. It was deemed an interesting method as it is less time- and energy-consuming than creating and training a new model entirely from scratch and therefore could be easily replicated if the results were positive. The BartForConditionalGeneration model implemented by the HuggingFace library was fine-tuned, using the Popular News Articles by Web.io. This method showed positive results. The resulting headlines were deemed faithful to the original ones, with a ROUGE-2 recall score of 0.541. They were comparably eye-catching to the human-written headlines, with the human respondents ranking them almost the same, with an average rank of 1.692 for the human-written headlines, and 1.821 for fine-tuned BART, and also getting an average score of 3.31 on a 1 to 5 attractiveness score scale. They were also deemed very comprehensible, with an average score of 0.95 on a scale from 0 to 1. Sociala medier är idag en viktig faktor i distributionen av information. Detta nya landskap innehåller många olika inlägg som tävlar om användarens uppmärksamhet. Olika faktorer kan hjälpa till att fånga användarens blick till specifika inlägg eller artiklar, och en av dessa faktorer är rubriken. Rubriken kan vara mer eller mindre fängslande, och göra läsaren mer eller mindre intresserad av att interagera med inlägget. Temat för denna studie är att automatiskt skapa iögonfallande och intressanta rubriker, som beskriver innehå llet i artiklarna på ett korrekt sätt. Den valda metoden är automatisk textsamman fattning, och mer specifikt finjusterades BART-modellen, som är en existerande modell för textsammanfattning. Andra metoder har använts tidigare för att lösa denna problematik med mer eller mindre framgång, men ingen studie hade använt den här. Den ansågs vara intressant eftersom den är mindre tids- och energikrävande än vad det skulle vara att skapa en ny modell från grunden, och därför skulle den lätt kunna replikeras om resultatet var positivt. BartForConditionalGeneration-modellen implementerad av HuggingFace-bib lioteket finjusterades därför med hjälp av artiklar och rubriker från datasetet ’Popular News Articles’ av Web.io. Metoden visade positiva resultat. De resulterande rubrikerna ansågs trogna de ursprungliga, med en ROUGE-2 recall score på 0,541. De var jämförbart iögonfallande gentemot de mänskligt skrivna rubrikerna, då respondenterna rankade dem nästan likadant, med en genomsnittlig rankning på 1,692 för de mänskligt skrivna rubrikerna och 1,821 för rubrikerna som finjusterade BART genererade. De fick också ett genomsnittligt betyg av 3,31 på en poängskala från 1 till 5. De ansågs dessutom vara mycket lättbegripliga, med ett medelpoäng på 0,95 på en skala från 0 till 1.

  • Open Access English
    Authors: 
    Kjellberg, Gustav;
    Publisher: KTH, Skolan för elektroteknik och datavetenskap (EECS)
    Country: Sweden

    The use of Machine Learning (ML) in business has increased significantly over the past years. Creating high quality and robust models requires a lot of data, which is at times infeasible to obtain. As more people are becoming concerned about their data being misused, data privacy is increasingly strengthened. In 2018, the General Data Protection Regulation (GDPR), was announced within the EU. Models that use either sensitive or personal data to train need to obtain that data in accordance with the regulatory rules, such as GDPR. One other data related issue is that enterprises who wish to collaborate on model building face problems when it requires them to share their private corporate data [36, 38]. In this thesis we will investigate how one might overcome the issue of directly accessing private data when training ML models by employing Federated Learning (FL) [38]. The concept of FL is to allow several silos, i.e. separate parties, to train models with the same objective, using their local data and then with the learned model parameters create a central model. The objective of the central model is to obtain the information learned by the separate models, without ever accessing the raw data itself. This is achieved by averaging the separate models’ weights into the central model. FL thus facilitates opportunities to train a model on large amounts of data from several sources, without the need of having access to the data itself. If one can create a model with this methodology, that is not significantly worse than a model trained on the raw data, then positive effects such as strengthened data privacy, cross-enterprise collaboration and more could be attainable. In this work we have used a financial data set consisting of 25242 equity research reports, provided by Skandinaviska Enskilda Banken (SEB). Each report has a recommendation label, either Buy, Sell or Hold, making this a multi-class classification problem. To evaluate the feasibility of FL we fine-tune the pre-trained Transformer model AlbertForSequenceClassification [37] on the classification task. We create one baseline model using the entire data set and an FL model with different experimental settings, for which the data is distributed both uniformly and non-uniformly. The baseline model is used to benchmark the FL model. Our results indicate that the best FL setting only suffers a small reduction in performance. The baseline model achieves an accuracy of 83.5% compared to 82.8% for the best FL model setting. Further, we find that with an increased number of clients, the performance is worsened. We also found that our FL model was not sensitive to non-uniform data distributions. All in all, we show that FL results in slightly worse generalisation compared to the baseline model, while strongly improving on data privacy, as the central model never accesses the clients’ data. Företags nyttjande av maskininlärning har de senaste åren ökat signifikant och för att kunna skapa högkvalitativa modeller krävs stora mängder data, vilket kan vara svårt att insamla. Parallellt med detta så ökar också den allmänna förståelsen för hur användandet av data missbrukas, vilket har lätt till ett ökat behov av starkare datasäkerhet. 2018 så trädde General Data Protection Regulation (GDPR) i kraft inom EU, vilken bland annat ställer krav på hur företag skall hantera persondata. Företag med maskininlärningsmodeller som på något sätt använder känslig eller personlig data behöver således ha fått tillgång till denna data i enlighet med de rådande lagar och regler som omfattar datahanteringen. Ytterligare ett datarelaterat problem är då företag önskar att skapa gemensamma maskininlärningsmodeller som skulle kräva att de delar deras bolagsdata [36, 38]. Denna uppsats kommer att undersöka hur Federerad Inlärning [38] kan användas för att skapa maskinlärningsmodeller som överkommer dessa datasäkerhetsrelaterade problem. Federerad Inlärning är en metod för att på ett decentraliserat vis träna maskininlärningsmodeller. Detta omfattar att låta flera aktörer träna en modell var. Varje enskild aktör tränar respektive modell på deras isolerade data och delar sedan endast modellens parametrar till en central modell. På detta vis kan varje enskild modell bidra till den gemensamma modellen utan att den gemensamma modellen någonsin haft tillgång till den faktiska datan. Givet att en modell, skapad med Federerad Inlärning kan uppnå liknande resultat som en modell tränad på rådata, så finns många positiva fördelar så som ökad datasäkerhet och ökade samarbeten mellan företag. Under arbetet har ett dataset, bestående av 25242 finansiella rapporter tillgängliggjort av Skandinaviska Ensilda Banken (SEB) använts. Varje enskild rapport innefattar en rekommendation, antingen Köp, Sälj eller Håll, vilket innebär att vi utför muliklass-klassificering. Med datan tränas den förtränade Transformermodellen AlbertForSequence- Classification [37] på att klassificera rapporterna. En Baseline-modell, vilken har tränats på all rådata och flera Federerade modellkonfigurationer skapades, där bland annat varierande fördelningen av data mellan aktörer från att vara jämnt fördelat till vara ojämnt fördelad. Resultaten visar att den bästa Federerade modellkonfigurationen endast presterar något sämre än Baseline-modellen. Baselinemodellen uppnådde en klassificeringssäkerhet på 83.5% medan den bästa Federerade modellen uppnådde 82.8%. Resultaten visar också att den Federerade modellen inte var känslig mot att variera fördelningen av datamängd mellan aktorerna, samt att med ett ökat antal aktörer så minskar klassificeringssäkerheten. Sammanfattningsvis så visar vi att Federerad Inlärning uppnår nästan lika goda resultat som Baseline-modellen, samtidigt så bidrar metoden till avsevärt bättre datasäkerhet då den centrala modellen aldrig har tillgång till rådata.

  • Open Access English
    Authors: 
    Sörlin, Sverker; Paglia, Eric;
    Publisher: KTH, Historiska studier av teknik, vetenskap och miljö
    Country: Sweden

    QC 20220317

Send a message
How can we help?
We usually respond in a few hours.