<script type="text/javascript">
<!--
document.write('<div id="oa_widget"></div>');
document.write('<script type="text/javascript" src="https://www.openaire.eu/index.php?option=com_openaire&view=widget&format=raw&projectId=undefined&type=result"></script>');
-->
</script>
Opinnäytetyön tavoitteena oli toteuttaa Python-ohjelma, joka vertailee kahden aineiston merkkijonoja keskenään ja luoda yhtäläisyyksien pohjalta uusi pandas-taulukko. Työ toteutettiin toimeksiantona, jonka antoi XAMK Datalab Kouvola, Dataamo-hanke. Opinnäytetyössä tutkitaan ohjelmassa esiintyviä tekniikoita ja käsitteitä. Työssä keskitytään erityisesti sumeaan logiikkaan ja Levenšteinin etäisyyteen, joiden pohjalta on rakennettu työssä käytettävä FuzzyWuzzy-kirjasto, jonka avulla merkkijonojen vertailu toteutetaan. Teoriaosuudessa käsitellään myös pandas, jonka DataFrame-objektina ohjelman tulokset palautetaan. Käsitteiden ja tekniikoiden esittelyn jälkeen käydään läpi ohjelman ensimmäisen version toimintaperiaate, ohjelman uuden version toteutus sekä ohjelman versioiden välinen vertailu. Ohjelma jakautuu kolmeen suurempaan funktioon, joiden vaiheet käydään tarkemmin läpi. Ohjelman toteutuksen jälkeen suoritetaan vielä testejä, joilla vertaillaan ohjelman ensimmäistä ja tässä työssä toteutettua versiota ja vedetään yhteen tästä saadut tulokset. Ohjelman tavoitteena on vertailla patenttihakemuksien tekijöitä ja yrityksien nimiä keskenään ja näiden merkkijonojen ollessa tarpeeksi lähellä toisiaan lisätä yhtäläisyys pandas-taulukkoon. Ohjelma myös mahdollisesti muokkaa läpikäytävää dataa haluttuun muotoon erilaisilla RegEx-toiminnoilla. Lopuksi yhtäläisyyksien pohjalta luotu taulukko voidaan lähettää esimerkiksi haluttuun tietokantaan. Tavoitteet tässä opinnäytetyössä täyttyivät kaikilta osin. Työn lopputuloksena saatiin merkkijonoja vertaileva Python-ohjelma, joka on toiminnaltaan ja tehokkuudeltaan edeltävää versiotaan parempi. Toimeksiantaja sai käyttöönsä ohjelman, jota se voi käyttää hankkeessaan ja mahdollisesti vielä jatkokehittää tulevaisuudessa. Työn lopussa käydään läpi ajatuksia, joita projekti herätti, sekä minkälaisia valmiuksia se antaa tulevaisuuden työuraa ajatellen.
Tietojenkäsittelyn koulutus, Liiketalouden ammattikorkeakoulututkinto, ohjelmointi, fi=Tietojenkäsittely|sv=Informationsbehandling|en=Business Information Technology|, sumea logiikka, tietotekniikka, Python
Tietojenkäsittelyn koulutus, Liiketalouden ammattikorkeakoulututkinto, ohjelmointi, fi=Tietojenkäsittely|sv=Informationsbehandling|en=Business Information Technology|, sumea logiikka, tietotekniikka, Python
citations This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | 0 | |
popularity This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network. | Average | |
influence This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | Average | |
impulse This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network. | Average |