Πληροφοριακό Σύστημα Ενημέρωσης Δικτύου Βιβλιογραφικών Αναφορών Από Τον Ιστό Με Τεχνικές Εξαγωγής Πληροφορίας, Τεχνολογίας Λογισμικού Και Ταιριάσματος Όμοιων Εγγραφών

Γεώργιος Παπαδάκης

Εθνικό Μετσόβιο Πολυτεχνείο

Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

Καλώς ήρθατε στο Άρτεμις

Σκοπός του Άρτεμις είναι η συστηματική αρχειοθέτηση και διαδοση της πνευματικής παραγωγής της Σχολής Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών του Εθνικού Μετσόβιου Πολυτεχνείου, με τη βοήθεια της τεχνολογίας των ψηφιακών βιβλιοθηκών.

Παρακαλώ χρησιμοποιήστε αυτό το αναγνωριστικό για να παραπέμψετε ή να δημιουργήσετε σύνδεσμο προς αυτό το τεκμήριο: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/14909

Τίτλος:	Πληροφοριακό Σύστημα Ενημέρωσης Δικτύου Βιβλιογραφικών Αναφορών Από Τον Ιστό Με Τεχνικές Εξαγωγής Πληροφορίας, Τεχνολογίας Λογισμικού Και Ταιριάσματος Όμοιων Εγγραφών
Συγγραφείς:	Γεώργιος Παπαδάκης Σελλής Τιμολέων
Λέξεις κλειδιά:	εξαγωγή πληροφορίας citation matching name disambiguation mixed citation problem split citation problem string distance metrics
Ημερομηνία έκδοσης:	18-Οκτ-2007
Περίληψη:	Η αξιολόγηση του ερευνητικού τους έργου και ο προσδιορισμός της απήχησης που αυτό έχει απασχολούσε ανέκαθεν τους επιστήμονες. Στα μέσα της δεκαετίας του 1950 προτάθηκε για το σκοπό αυτό η μέθοδος των βιβλιογραφικών αναφορών (citations), η οποία στις μέρες μας είναι καθολικά αποδεκτή ως η πιο αξιόπιστη. Απαιτείται ωστόσο ιδιαίτερη προσπάθεια και κόπος για να καταφέρει κανείς να συγκεντρώσει τα citations για όλες τις δημοσιευμένες εργασίες του, ακόμα και στην σημερινή εποχή του Διαδικτύου. Χρειάζεται άλλωστε να συνδυάσει πληροφορίες από πλήθος ετερογενών πηγών. Είναι επομένως επιτακτική η ανάγκη για αυτοματοποίηση της διαδικασίας αυτής. Από τις ιδιαίτερα αξιόλογες προσπάθειες που έχουν γίνει προς αυτή την κατεύθυνση, καμία δεν έχει καταφέρει να λύσει επιτυχώς το σύνολο των προβλημάτων που πρέπει να αντιμετωπίσει μια προσπάθεια αυτοματοποίησης. Σε αυτά συγκαταλέγονται η ελεύθερη πρόσβαση και επεξεργασία (parsing) των πρωτογενών πηγών πληροφοριών (εκδοτικοί οίκοι κλπ), το ταίριασμα των διαφορετικών βιβλιογραφικών αναφορών που αναφέρονται στην ίδια δημοσίευση (citation matching) και ο εντοπισμός των διαφορετικών επιστημόνων που συμμετέχουν στη συγγραφή ενός συνόλου δημοσιεύσεων (name disambiguation). Για την ακρίβεια, το name disambiguation επιμερίζεται στον εντοπισμό εκείνων των ονομάτων που, παρ’ όλο που ταυτίζονται, αντιστοιχούν στην πραγματικότητα σε διαφορετικούς επιστήμονες (mixed citation problem) και των ονομάτων που, παρ’ όλο που διαφέρουν, αντιστοιχούν στην πραγματικότητα στον ίδιο επιστήμονα (split citation problem). Αντικείμενο αυτής της διπλωματικής είναι η ανάπτυξη, με βάση τις αρχές της τεχνολογίας λογισμικού, ενός συστήματος ανάλυσης βιβλιογραφικών αναφορών που αντιμετωπίζει το σύνολο των παραπάνω προβλημάτων (στην περίπτωσή μας βέβαια το πρώτο πρόβλημα ανάγεται στην εξαγωγή πληροφορίας από ακαδημαϊκές μηχανές αναζήτησης). Σε αυτό το πλαίσιο αναπτύχθηκαν πρωτότυποι αλγόριθμοι για την επίλυση τόσο του citation matching όσο και του name disambiguation. Οι αλγόριθμοι αυτοί βασίζονται στις τεχνικές ταιριάσματος όμοιων εγγραφών και διαφοροποιούνται από τους προτεινόμενους στη βιβλιογραφία, καθώς δεν προορίζονται για εφαρμογή σε ένα περιορισμένο σύνολο δεδομένων. Αντίθετα, στόχος είναι να χρησιμοποιηθούν σε μια εφαρμογή πραγματικού χρόνου, ώστε να επιτυγχάνουν σε αποδεκτό χρόνο υψηλή απόδοση σε οποιαδήποτε δεδομένα. Αν και είναι εξαιρετικά δύσκολο να υπολογιστεί η αποτελεσματικότητα και η αξιοπιστία μιας τέτοιας εφαρμογής, τα πρώτα αποτελέσματα είναι ικανοποιητικά, αφήνοντας παράλληλα αρκετά περιθώρια βελτίωσης.
URI:	http://artemis-new.cslab.ece.ntua.gr:8080/jspui/handle/123456789/14909
Εμφανίζεται στις συλλογές:	Διπλωματικές Εργασίες - Theses

Αρχεία σε αυτό το τεκμήριο:

Αρχείο	Μέγεθος	Μορφότυπος
DT2007-0151.pdf	841.62 kB	Adobe PDF	Εμφάνιση/Άνοιγμα

Δείξε την πλήρη περιγραφή του τεκμηρίου

Όλα τα τεκμήρια του δικτυακού τόπου προστατεύονται από πνευματικά δικαιώματα.