Powered by OpenAIRE graph
Found an issue? Give us feedback
ZENODOarrow_drop_down
ZENODO
Article . 2025
License: CC BY
Data sources: Datacite
ZENODO
Article . 2025
License: CC BY
Data sources: Datacite
versions View all 2 versions
addClaim

This Research product is the result of merged Research products in OpenAIRE.

You have already added 0 works in your ORCID record related to the merged Research product.

A Tamil Lexical Analysis Framework Based on Tolkappiyam Linguistic Rules தொல்காப்பிய மொழியியல் விதிகளை அடிப்படையாகக் கொண்ட தமிழ் சொல்லியல் பகுப்பாய்வுகக் கட்டமைப்பு

Authors: Thangasamy, Sathiyaraj; Chinnaudayar Navaneethakrishnan, Subalalitha; ANTHONYSAMY, VINOTH; A, John Paul Boopathi; Rajendran, Nithya; Rajendran, Nallathambi; P, KAVITHA; +3 Authors

A Tamil Lexical Analysis Framework Based on Tolkappiyam Linguistic Rules தொல்காப்பிய மொழியியல் விதிகளை அடிப்படையாகக் கொண்ட தமிழ் சொல்லியல் பகுப்பாய்வுகக் கட்டமைப்பு

Abstract

In today's generation, frequent spelling mistakes in Tamil necessitate advanced tools for accurate linguistic analysis and correction. This study proposes a Tamil lexical analysis framework grounded in the linguistic principles of Tolkappiyam, focusing on MeiMayakkam, a rule governing consonant-vowel harmony. Tolkappiyar's twelve rules on word formation have been reclassified into nine categories and further refined into nineteen rules based on consonantal sequences. By applying these rules, we evaluate the validity of Tamil word formations, demonstrated with examples like 'பக்கம்' ('pəkkəm') versus 'பக்மம்' ('pəkməm'). A computational analysis of over 53,617 Tamil proper names was conducted to identify words compliant with MeiMayakkam phonotactics. This framework lays the groundwork for developing Tamil linguistic tools akin to advanced NLP platforms such as Grammarly, AntConc, SpaCy, and TextRazor, offering precise phonological and syntactic validation. This study contributes to improving Tamil language technology through the creation of robust lexical analysis frameworks, enabling intelligent text analysis and correction. இன்றைய தலைமுறையில், தமிழில் அடிக்கடி ஏற்படும் எழுத்துப் பிழைகள் துல்லியமான மொழியியல் பகுப்பாய்வு மற்றும் திருத்தத்திற்கான மேம்பட்ட கருவிகளின் அவசியத்தை உணர்த்துகின்றன. இந்த ஆய்வு, தொல்காப்பியத்தின் மொழியியல் கோட்பாடுகளை அடிப்படையாகக் கொண்ட தமிழ் சொல்லியல் பகுப்பாய்வுக் கட்டமைப்பை முன்மொழிகிறது, குறிப்பாக மெய்மயக்கம் என்ற மெய்-உயிர்மை இணக்க விதிகளை மையமாகக் கொண்டது. தொல்காப்பியரின் பன்னிரண்டு சொற்புருவாக்க விதிகள் ஒன்பது பிரிவுகளாக மறுவகைப்படுத்தப்பட்டு, மெய்யொலித் தொடர்ச்சிகளின் அடிப்படையில் பத்தொன்பது விதிகளாக மேலும் செம்மைப்படுத்தப்பட்டுள்ளன. இந்த விதிகளைப் பயன்படுத்துவதன் மூலம், 'பக்கம்' ('pəkkəm') மற்றும் 'பக்மம்' ('pəkməm') போன்ற எடுத்துக்காட்டுகளுடன் தமிழ் சொற்களின் சரியான உருவாக்கத்தை மதிப்பிடுகிறோம். 53,617 க்கும் மேற்பட்ட தமிழ் சொந்தப் பெயர்களின் கணினி பகுப்பாய்வு மெய்மயக்கம் ஒலிப்பியல் விதிகளுக்கு இணங்காத சொற்களை அடையாளம் காண மேற்கொள்ளப்பட்டது. இந்தக் கட்டமைப்பானது Grammarly, AntConc, SpaCy மற்றும் TextRazor போன்ற மேம்பட்ட NLP தளங்களைப் போன்ற தமிழ் மொழியியல் கருவிகளை உருவாக்குவதற்கான அடித்தளத்தை அமைக்கிறது, துல்லியமான ஒலியியல் மற்றும் தொடரியல் சரிபார்ப்பை வழங்குகிறது. வலுவான சொல்லியல் பகுப்பாய்வுக் கட்டமைப்புகளை உருவாக்குவதன் மூலம், அறிவார்ந்த உரை பகுப்பாய்வு மற்றும் திருத்தத்தைச் செயல்படுத்துவதன் மூலம், இந்த ஆய்வு தமிழ் மொழி தொழில்நுட்பத்தை மேம்படுத்துவதற்கு பங்களிக்கிறது.

Keywords

AntConc, Algorithm, Tolkappiyar, Grammarly, SpaCy, TextRazor, MeiMayakkam, Tolkappiyam, Machined Rules

Powered by OpenAIRE graph
Found an issue? Give us feedback