Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/14909
Title: Πληροφοριακό Σύστημα Ενημέρωσης Δικτύου Βιβλιογραφικών Αναφορών Από Τον Ιστό Με Τεχνικές Εξαγωγής Πληροφορίας, Τεχνολογίας Λογισμικού Και Ταιριάσματος Όμοιων Εγγραφών
Authors: Γεώργιος Παπαδάκης
Σελλής Τιμολέων
Keywords: εξαγωγή πληροφορίας
citation matching
name disambiguation
mixed citation problem
split citation problem
string distance metrics
Issue Date: 18-Oct-2007
Abstract: Η αξιολόγηση του ερευνητικού τους έργου και ο προσδιορισμός της απήχησης που αυτό έχει απασχολούσε ανέκαθεν τους επιστήμονες. Στα μέσα της δεκαετίας του 1950 προτάθηκε για το σκοπό αυτό η μέθοδος των βιβλιογραφικών αναφορών (citations), η οποία στις μέρες μας είναι καθολικά αποδεκτή ως η πιο αξιόπιστη. Απαιτείται ωστόσο ιδιαίτερη προσπάθεια και κόπος για να καταφέρει κανείς να συγκεντρώσει τα citations για όλες τις δημοσιευμένες εργασίες του, ακόμα και στην σημερινή εποχή του Διαδικτύου. Χρειάζεται άλλωστε να συνδυάσει πληροφορίες από πλήθος ετερογενών πηγών. Είναι επομένως επιτακτική η ανάγκη για αυτοματοποίηση της διαδικασίας αυτής. Από τις ιδιαίτερα αξιόλογες προσπάθειες που έχουν γίνει προς αυτή την κατεύθυνση, καμία δεν έχει καταφέρει να λύσει επιτυχώς το σύνολο των προβλημάτων που πρέπει να αντιμετωπίσει μια προσπάθεια αυτοματοποίησης. Σε αυτά συγκαταλέγονται η ελεύθερη πρόσβαση και επεξεργασία (parsing) των πρωτογενών πηγών πληροφοριών (εκδοτικοί οίκοι κλπ), το ταίριασμα των διαφορετικών βιβλιογραφικών αναφορών που αναφέρονται στην ίδια δημοσίευση (citation matching) και ο εντοπισμός των διαφορετικών επιστημόνων που συμμετέχουν στη συγγραφή ενός συνόλου δημοσιεύσεων (name disambiguation). Για την ακρίβεια, το name disambiguation επιμερίζεται στον εντοπισμό εκείνων των ονομάτων που, παρ’ όλο που ταυτίζονται, αντιστοιχούν στην πραγματικότητα σε διαφορετικούς επιστήμονες (mixed citation problem) και των ονομάτων που, παρ’ όλο που διαφέρουν, αντιστοιχούν στην πραγματικότητα στον ίδιο επιστήμονα (split citation problem). Αντικείμενο αυτής της διπλωματικής είναι η ανάπτυξη, με βάση τις αρχές της τεχνολογίας λογισμικού, ενός συστήματος ανάλυσης βιβλιογραφικών αναφορών που αντιμετωπίζει το σύνολο των παραπάνω προβλημάτων (στην περίπτωσή μας βέβαια το πρώτο πρόβλημα ανάγεται στην εξαγωγή πληροφορίας από ακαδημαϊκές μηχανές αναζήτησης). Σε αυτό το πλαίσιο αναπτύχθηκαν πρωτότυποι αλγόριθμοι για την επίλυση τόσο του citation matching όσο και του name disambiguation. Οι αλγόριθμοι αυτοί βασίζονται στις τεχνικές ταιριάσματος όμοιων εγγραφών και διαφοροποιούνται από τους προτεινόμενους στη βιβλιογραφία, καθώς δεν προορίζονται για εφαρμογή σε ένα περιορισμένο σύνολο δεδομένων. Αντίθετα, στόχος είναι να χρησιμοποιηθούν σε μια εφαρμογή πραγματικού χρόνου, ώστε να επιτυγχάνουν σε αποδεκτό χρόνο υψηλή απόδοση σε οποιαδήποτε δεδομένα. Αν και είναι εξαιρετικά δύσκολο να υπολογιστεί η αποτελεσματικότητα και η αξιοπιστία μιας τέτοιας εφαρμογής, τα πρώτα αποτελέσματα είναι ικανοποιητικά, αφήνοντας παράλληλα αρκετά περιθώρια βελτίωσης.
URI: http://artemis-new.cslab.ece.ntua.gr:8080/jspui/handle/123456789/14909
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File SizeFormat 
DT2007-0151.pdf841.62 kBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.