Powered by OpenAIRE graph
Found an issue? Give us feedback
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/ Theseusarrow_drop_down
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
Theseus
Other ORP type . 2023
Data sources: Theseus
addClaim

This Research product is the result of merged Research products in OpenAIRE.

You have already added 0 works in your ORCID record related to the merged Research product.

Merkkijonojen vertailu sumeaa logiikkaa hyödyntäen

Authors: Hämäläinen, Joni;

Merkkijonojen vertailu sumeaa logiikkaa hyödyntäen

Abstract

Opinnäytetyön tavoitteena oli toteuttaa Python-ohjelma, joka vertailee kahden aineiston merkkijonoja keskenään ja luoda yhtäläisyyksien pohjalta uusi pandas-taulukko. Työ toteutettiin toimeksiantona, jonka antoi XAMK Datalab Kouvola, Dataamo-hanke. Opinnäytetyössä tutkitaan ohjelmassa esiintyviä tekniikoita ja käsitteitä. Työssä keskitytään erityisesti sumeaan logiikkaan ja Levenšteinin etäisyyteen, joiden pohjalta on rakennettu työssä käytettävä FuzzyWuzzy-kirjasto, jonka avulla merkkijonojen vertailu toteutetaan. Teoriaosuudessa käsitellään myös pandas, jonka DataFrame-objektina ohjelman tulokset palautetaan. Käsitteiden ja tekniikoiden esittelyn jälkeen käydään läpi ohjelman ensimmäisen version toimintaperiaate, ohjelman uuden version toteutus sekä ohjelman versioiden välinen vertailu. Ohjelma jakautuu kolmeen suurempaan funktioon, joiden vaiheet käydään tarkemmin läpi. Ohjelman toteutuksen jälkeen suoritetaan vielä testejä, joilla vertaillaan ohjelman ensimmäistä ja tässä työssä toteutettua versiota ja vedetään yhteen tästä saadut tulokset. Ohjelman tavoitteena on vertailla patenttihakemuksien tekijöitä ja yrityksien nimiä keskenään ja näiden merkkijonojen ollessa tarpeeksi lähellä toisiaan lisätä yhtäläisyys pandas-taulukkoon. Ohjelma myös mahdollisesti muokkaa läpikäytävää dataa haluttuun muotoon erilaisilla RegEx-toiminnoilla. Lopuksi yhtäläisyyksien pohjalta luotu taulukko voidaan lähettää esimerkiksi haluttuun tietokantaan. Tavoitteet tässä opinnäytetyössä täyttyivät kaikilta osin. Työn lopputuloksena saatiin merkkijonoja vertaileva Python-ohjelma, joka on toiminnaltaan ja tehokkuudeltaan edeltävää versiotaan parempi. Toimeksiantaja sai käyttöönsä ohjelman, jota se voi käyttää hankkeessaan ja mahdollisesti vielä jatkokehittää tulevaisuudessa. Työn lopussa käydään läpi ajatuksia, joita projekti herätti, sekä minkälaisia valmiuksia se antaa tulevaisuuden työuraa ajatellen.

Country
Finland
Keywords

Tietojenkäsittelyn koulutus, Liiketalouden ammattikorkeakoulututkinto, ohjelmointi, fi=Tietojenkäsittely|sv=Informationsbehandling|en=Business Information Technology|, sumea logiikka, tietotekniikka, Python

  • BIP!
    Impact byBIP!
    citations
    This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    0
    popularity
    This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
    Average
    influence
    This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    Average
    impulse
    This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
    Average
Powered by OpenAIRE graph
Found an issue? Give us feedback
citations
This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Citations provided by BIP!
popularity
This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
BIP!Popularity provided by BIP!
influence
This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Influence provided by BIP!
impulse
This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
BIP!Impulse provided by BIP!
0
Average
Average
Average