Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18486
Title: Orchestration for the Geo-Distributed Execution of ML Workflows on Multiple Kubernetes Clusters with Kubeflow
Authors: Καλεμκερής, Φοίβος Ευστράτιος
Κοζύρης Νεκτάριος
Keywords: Kubeflow
Split Pipelines
Data Migration
Caching
Kubernetes
Argo Workflows
Issue Date: 17-Oct-2022
Abstract: Η ανάπτυξη ροών εργασίας μηχανικής μάθησης είναι μια δύσκολη και χρονοβόρα διαδικασία, ενώ η διαχείρισή αυτών στο υπολογιστικό νέφος και η μεταφορά τους ανάμεσα σε διαφορετικά περιβάλλοντα απαιτεί συχνά προηγμένες τεχνικές δεξιότητες. Το Kubeflow, ένα έργο ανοικτού κώδικα που γρήγορα αναδεικνύεται ως η de facto πλατφόρμα για εγγενείς στο νέφος (cloud-native) εργασίες μηχανικής μάθησης (MLOps), φιλοδοξεί να δώσει λύση σε αυτά τα προβλήματα, επιτρέποντας την εύκολη, φορητή και κλιμακούμενη ανάπτυξη ροών εργασίας μηχανικής μάθησης στο Kubernetes. Μέχρι τώρα, χρησιμοποιούσαμε το Kale, ένα Python εργαλείο υψηλού επιπέδου, για την ενορχήστρωση των δομικών στοιχείων του Kubeflow, εντός της ίδιας συστοιχίας (cluster). Η τρέχουσα προσέγγιση, ωστόσο, ενδεχομένως αποτυγχάνει να εξυπηρετήσει ορισμένα ενδιαφέροντα σενάρια, συνηθισμένα σε μεγάλες επιχειρήσεις, που συχνά περιλαμβάνουν ξεχωριστές συστοιχίες που στοχεύουν σε διαφορετικά στάδια ανάπτυξης (ανάπτυξη, παραγωγή) ή κύκλους ζωής ροής εργασιών μηχανικής μάθησης (προεπεξεργασία δεδομένων, εκπαίδευση μοντέλου, εξυπηρέτηση αιτημάτων), έχοντας έτσι πολύ διαφορετικές απαιτήσεις και προδιαγραφές. Κάποιες συστοιχίες μπορεί να παρέχουν πρόσβαση σε περιορισμένες υπηρεσίες όπως λίμνες δεδομένων (data lakes) και αποθετήρια αντικειμένων, ενώ άλλες μπορεί να επωφελούνται από εξειδικευμένους υπολογιστικούς πόρους (π.χ. κάρτες γραφικών, υπολογιστικές συσκευές υψηλής επίδοσης). Η παρούσα διπλωματική εργασία επικεντρώνεται στο σχεδιασμό και την υλοποίηση ενός μηχανισμού που διευκολύνει την εκτέλεση μιας ολοκληρωμένης ροής εργασίας μηχανικής μάθησης σε διάφορες τοποθεσίες, ενορχηστρώνει τα βήματά της και διαχειρίζεται τις μεταξύ τους εξαρτήσεις. Ειδικότερα, ο στόχος είναι να επιτρέψει την ανάπτυξη ενός κανονικού Kubeflow Pipeline και να προσφέρει το μηχανισμό που θα καταστήσει εφικτή την εκτέλεση των διακριτών τμημάτων αυτού σε διαφορετικές τοποθεσίες. Αυτό θα επιτρέψει ουσιαστικά στους επιστήμονες δεδομένων να εκπαιδεύουν το μοντέλο τους σε μια τοποθεσία κοντά στα δεδομένα, αξιοποιώντας οποιαδήποτε διαθέσιμη εξειδικευμένη υποδομή, και να το "σερβίρουν" σε κάποια άλλη, πιο κοντά στην τελική προβλεπτική εφαρμογή. Για να το επιτύχουμε αυτό, θα αξιοποιήσουμε τις υπάρχουσες παροχές των Kubeflow Pipelines, όπως η κρυφή μνήμη (caching), και θα αναπτύξουμε έναν μηχανισμό για τη μεταφορά των εξαρτήσεων μεταξύ των βημάτων από τη μία τοποθεσία στην επόμενη.
URI: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18486
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File Description SizeFormat 
phoevos-thesis.pdf7.05 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.