IKEECONF-2011-030

Title:Αυτόματη Αναγνώριση Ονοματικών Οντοτήτων για Εξαγωγή και Ανάκτηση Πληροφοριών
Authors:Arvanitis P., Αρβανίτης Π., Γιούλη Παρασκευή, Μπούτσης Σωτήρης, Δεμοίρος Ιάσων, Αντωνόπουλος Βασίλης, Παπαγεωργίου Χάρης, Πιπερίδης Στέλιος, Χιδίρογλου Άλκηστις, Κοπιδάκης Μιχάλης
Abstract:Στόχος της παρούσας εργασίας είναι η παρουσίαση ενός εργαλείου αναγνώρισης και κατηγοριοποίησης Ονοματικών Οντοτήτων (ΟΟ) σε ελληνικά Κείμενα, το οποίο - μαζί με εργαλεία επιφανειακής συντακτικής ανάλυσης και επίλυσης συναναφορών - θα ενσωματωθεί σε συστήματα εξαγωγής και ανάκτησης πληροφοριών (Information Extraction & Retrieval). Το εν λόγω εργαλείο αναπτύσσεται στα πλαίσια του προγράμματος ΠΕΝΕΔ “oikONOMiA” στο Ινστιτούτο Επεξεργασίας Λόγου και σε συνεργασία με το Εθνικό και Καποδιστριακό Παν/μιο Αθηνών και το Αριστοτέλειο Παν/μιο Θεσσαλονίκης.

In this paper, we describe work in progress for the development of a named entity recognizer for Greek. The system aims at information extraction applications where large scale text processing is needed. Speed of analysis, system robustness, and results accuracy have been the basic guidelines for the system’s design. Our system is an automated pipeline of linguistic components for Greek text processing based on pattern matching techniques. Non-recursive regular expressions have been implemented on top of it in order to capture different types of named entities. For development and testing purposes, we collected a corpus of financial texts from several web sources and manually annotated part of it. Overall precision and recall are 86% and 81% respectively.
Department: Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης, Φιλοσοφική Σχολή, Τμήμα Γαλλικής Γλώσσας και Φιλολογίας
Keywords:Ονοματικές οντότητες, Εργαλείο αναγνώρισης, Σύστημα εξαγωγής πληροφορίας, Σύστημα ανάκτησης πληροφορίας, Ονοματικές οντότητες, Εργαλείο αναγνώρισης, Σύστημα εξαγωγής πληροφορίας, Σύστημα ανάκτησης πληροφορίας
Conference Data:21η Ετήσιας Συνάντησης Εργασίας του Τομέα Γλωσσολογίας του Τμήματος Φιλολογίας του Α.Π.Θ., Θεσσαλονίκη, Ελλάδα

 Record created 2011-10-18, last modified 2011-10-19