
L'extraction automatique d'informations à partir de documents scientifiques publiés en ligne est utile dans diverses applications telles que le marquage, l'indexation Web et l'optimisation des moteurs de recherche. En conséquence, l'extraction automatique d'informations est devenue l'un des domaines de recherche les plus en vogue dans le domaine de l'exploration de textes. Bien que diverses techniques d'extraction d'informations aient été proposées dans la littérature, leur efficacité exige des documents spécifiques au domaine avec un format statique et bien défini. De plus, leur exactitude est remise en question avec une légère modification du format. Pour surmonter ces problèmes, un nouveau cadre ontologique pour l'extraction d'informations (OFIE) utilisant une base de règles floue (FRB) et une désambiguïsation au sens des mots (WSD) est proposé. L'approche proposée est validée avec un domaine documentaire beaucoup plus large provenant de services de publication bien connus tels que IEEE, ACM, Elsevier et Springer. Nous avons également comparé l'approche d'extraction d'informations proposée à des techniques de pointe. Les résultats de l'expérience montrent que l'approche proposée est moins sensible aux changements dans le format du document et a une précision moyenne significativement meilleure de 89,14% et un score F de 89%.
La extracción automática de información de documentos científicos publicados en línea es útil en diversas aplicaciones, como el etiquetado, la indexación web y la optimización de motores de búsqueda. Como resultado, la extracción automática de información se ha convertido en una de las áreas de investigación más importantes en la minería de textos. Aunque en la literatura se han propuesto diversas técnicas de extracción de información, su eficiencia exige documentos específicos de dominio con formato estático y bien definido. Además, su precisión se ve desafiada con una ligera modificación en el formato. Para superar estos problemas, se propone un marco ontológico novedoso para la extracción de información (OFIE) utilizando una base de reglas difusa (FRB) y una desambiguación del sentido de las palabras (WSD). El enfoque propuesto se valida con un dominio de documentos significativamente más amplio procedente de servicios de publicación conocidos como IEEE, ACM, Elsevier y Springer. También hemos comparado el enfoque de extracción de información propuesto con las técnicas más avanzadas. Los resultados del experimento muestran que el enfoque propuesto es menos sensible a los cambios en el formato del documento y tiene una precisión media significativamente mejor del 89,14% y una puntuación F del 89%.
Automatic information extraction from online published scientific documents is useful in various applications such as tagging, web indexing and search engine optimization. As a result, automatic information extraction has become among the hottest areas of research in text mining. Although various information extraction techniques have been proposed in the literature, their efficiency demands domain specific documents with static and well-defined format. Furthermore, their accuracy is challenged with a slight modification in the format. To overcome these issues, a novel ontological framework for information extraction (OFIE) using fuzzy rule-base (FRB) and word sense disambiguation (WSD) is proposed. The proposed approach is validated with a significantly wider document domains sourced from well-known publishing services such as IEEE, ACM, Elsevier, and Springer. We have also compared the proposed information extraction approach against state-of-the-art techniques. The results of the experiment show that the proposed approach is less sensitive to changes in the document format and has a significantly better average accuracy of 89.14% and F-score as 89%.
يعد الاستخراج التلقائي للمعلومات من الوثائق العلمية المنشورة عبر الإنترنت مفيدًا في العديد من التطبيقات مثل وضع العلامات وفهرسة الويب وتحسين محركات البحث. ونتيجة لذلك، أصبح الاستخراج التلقائي للمعلومات من بين أهم مجالات البحث في مجال التنقيب عن النصوص. على الرغم من اقتراح تقنيات مختلفة لاستخراج المعلومات في الأدبيات، إلا أن كفاءتها تتطلب مستندات محددة المجال بتنسيق ثابت ومحدد جيدًا. علاوة على ذلك، يتم الطعن في دقتها مع تعديل طفيف في التنسيق. للتغلب على هذه المشكلات، يُقترح إطار وجودي جديد لاستخراج المعلومات (OFIE) باستخدام قاعدة قواعد غامضة (FRB) وإزالة الغموض عن معنى الكلمات (WSD). يتم التحقق من صحة النهج المقترح من خلال نطاقات مستندات أوسع بكثير يتم الحصول عليها من خدمات نشر معروفة مثل IEEE و ACM و Elsevier و Springer. لقد قارنا أيضًا نهج استخراج المعلومات المقترح بأحدث التقنيات. تُظهر نتائج التجربة أن النهج المقترح أقل حساسية للتغييرات في تنسيق المستند ولديه متوسط دقة أفضل بكثير بنسبة 89.14 ٪ ودرجة F بنسبة 89 ٪.
FOS: Computer and information sciences, Information extraction, Web Data Extraction, Word (group theory), Search engine indexing, Extraction, Search engine, Mathematical analysis, Web Data Extraction and Crawling Techniques, Artificial Intelligence, FOS: Mathematics, semi structure scientific documents, Information retrieval, Data mining, fuzzy rule base, Web Crawling, Domain (mathematical analysis), Linguistics, Computer science, TK1-9971, FOS: Philosophy, ethics and religion, Automatic Keyword Extraction from Textual Data, Philosophy, word sense disambiguation, ontological framework, Computer Science, Physical Sciences, Information Retrieval, FOS: Languages and literature, Electrical engineering. Electronics. Nuclear engineering, Textual Data, Mathematics, Information Systems
FOS: Computer and information sciences, Information extraction, Web Data Extraction, Word (group theory), Search engine indexing, Extraction, Search engine, Mathematical analysis, Web Data Extraction and Crawling Techniques, Artificial Intelligence, FOS: Mathematics, semi structure scientific documents, Information retrieval, Data mining, fuzzy rule base, Web Crawling, Domain (mathematical analysis), Linguistics, Computer science, TK1-9971, FOS: Philosophy, ethics and religion, Automatic Keyword Extraction from Textual Data, Philosophy, word sense disambiguation, ontological framework, Computer Science, Physical Sciences, Information Retrieval, FOS: Languages and literature, Electrical engineering. Electronics. Nuclear engineering, Textual Data, Mathematics, Information Systems
| selected citations These citations are derived from selected sources. This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | 21 | |
| popularity This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network. | Top 10% | |
| influence This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | Top 10% | |
| impulse This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network. | Top 10% |
