
handle: 11250/3178090
This study combines stylometry and machine learning methods to determine whether parts of a text have been contract cheated. It explores the performance of different machine learning models, the impact of choosing the correct characteristics from the text, and a method that samples the text using a technique called rolling attribution. The research aims to provide a feasible method to increase the chances of a student getting caught when using contract cheating and, as such, preserve the integrity of academic work. This was achieved by developing three treatment designs, where the two first provided a baseline to which the third could be compared. The final experiments were run on 124 students individually to evaluate the rolling attribution method with and without partial contract cheating. The study shows that the machine learning models support vector machine and logistic regression, utilizing lexical and syntactic text characteristics, successfully identify text containing partial contract cheating 71% of the time. Additionally, it also measures the success rate when it cannot accuse a non-cheating student of cheating. This results in the method detecting a partial contract cheating text 10% of the time. These detection rates could increase the probability of a cheater being caught. By increasing the probability of detection, the perceived risk associated with partial contract cheating rises, potentially discouraging students from engaging in it. The study also discovers areas for improvement, both in the rolling attribution technique and in the relationship between the rolling attribution parameters and performance. It discovers that there is no relationship between the rolling attribution parameters and the performance, which was not expected. Additionally, it discovers that the rolling attribution technique, which, combined with the machine learning method, has a design flaw that causes misclassification. The study presents solutions and highlights the necessary development needed within the field to withstand more advanced contract cheating techniques, i.e., using artificial intelligence tools.
Denne studien kombinerer stylometri og maskinlæringsmetoder for å avgjøre om deler av en tekst er blitt utsatt for kontraktjuks (contract cheating). Den utforsker ytelsen til ulike maskinlæringsmodeller, effekten av ulike tekstegenskaper, og metoden rullende attribusjon. Masteroppgaven utforsker gjennomførbare tekniske metoder som kan øke sannsynligheten for at en student blir tatt for kontraktjukt. Målet er å øke den tilknyttede risikoen som skulle redusere antall tilfeller og bevare integriteten til akademisk arbeid. Dette ble gjennomført ved å utvikle tre design som bygger på hverandre. De siste eksperimentene benytter 124 studenter til å evaluere rullende attribusjon, med og ut delvis kontraktjuks. Studien viser at maskinlæringsmodellene Support Vector Machine og Logistic Regression, ved bruk av ordbasert og setningsbasert karakteristikk i tekst, identifiserer delvis kontraktjuks i 71% av tilfellene. Dette er også testet i tilfeller hvor metoden ikke kan feilklassifisere en ikke-juksende student for å jukse. I det sistnevnte tilfellet, er deteksjonsraten på 10%. Disse deteksjonsraten kan bidra til å øke sannsynligheten for at en juksende student blir oppdaget. Ved å øke sannsynligheten, er målet å påvirke deres syn på risiko og dermed redusere tilfellene. Studien avdekker også områder for forbedring. Først og fremst, oppdager den at det ikke er en sammenheng mellom endringer i teknikkens parametre og ytelsen. Dette resultatet er uforventet fordi den motbeviser teorien. Dernest, avdekker den at det finnes en designutfordring som forårsaker feilklassifisering. Dette oppstår som følge av å kombinere maskinlæring og den rullende attribusjonsteknikken. Oppgaven presenterer forslag til forbedringer og viser tydelig at feltet trenger videre utvikling for å motstå mer avansert kontratkjuks, slik som ved bruk av kunstig intelligens.
| selected citations These citations are derived from selected sources. This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | 0 | |
| popularity This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network. | Average | |
| influence This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | Average | |
| impulse This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network. | Average |
