Please use this identifier to cite or link to this item:
http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19903| Title: | Deployment of Machine Learning Models in Distributed Systems using Kubernetes Framework |
| Authors: | Γιαννούκος, Ορέστης Μαρινάκης Ευάγγελος |
| Keywords: | Μηχανική Μάθηση Κατανεμημένα Συστήματα ML Ops |
| Issue Date: | 27-Oct-2025 |
| Abstract: | Αυτή η εργασία εξετάζει την ανάπτυξη μοντέλων μηχανικής μάθησης με χρήση cloud- native υποδομών, αξιολογώντας εργαλεία που βασίζονται στο Kubernetes. Η ανάπτυξη μο- ντέλων μηχανικής μάθησης αντιμετωπίζει επιχειρησιακές δυσκολίες: τα περιβάλλοντα δεν αναπαράγονται εύκολα, οι χειροκίνητες ρυθμίσεις είναι πολύπλοκες, η διαχείριση πόρων είναι αναποτελεσματική, και ο έλεγχος εκδόσεων επιρρεπής σε λάθη. Πλατφόρμες cloud- native όπως το Kubeflow υπόσχονται να λύσουν αυτά τα προβλήματα μέσω declarative configuration, αυτόματης κλιμάκωσης και ολοκληρωμένης διαχείρισης μοντέλων. Η έρευνα απαντά σε τρία βασικά ερωτήματα: (1) Απλοποιεί η cloud-native υποδομή την ανάπτυξη μοντέλων σε σχέση με τις παραδοσιακές μεθόδους; (2) Πόση επιπλέον επι- βάρυνση στην απόδοση προκαλεί η ενορχήστρωση του Kubernetes; (3) Ποιες πρακτικές προκλήσεις προκύπτουν κατά την υλοποίηση; Η πειραματική μέθοδος υλοποιεί ολοκλη- ρωμένες ροές εργασίας ML χρησιμοποιώντας τόσο παραδοσιακές λύσεις με βιβλιοθήκες όπως το FastAPI όσο και cloud-native ενορχήστρωση (Kubeflow σε K3s), μετρώντας την απόδοση εκπαίδευσης, τις δυνατότητες εξυπηρέτησης και την πολυπλοκότητα διαχείρισης στο ίδιο υλικό. Τα αποτελέσματα δείχνουν ότι η ενορχήστρωση Kubernetes εισάγει υπολογιστική επι- βάρυνση 18% για εκπαίδευση επιταχυνόμενη με GPU και 0.6% για εκτέλεση μόνο με CPU. Για GPU, παρά την επιβάρυνση, το Kubernetes εκτελείται 16 δευτερόλεπτα πιο γρή- γορα. Αντίθετα, για CPU παρατηρείται περίπου 8 δευτερόλεπτα πρόσθετου χρόνου ενορ- χήστρωσης χωρίς αντίστοιχο όφελος απόδοσης. Όσον αφορά την εξυπηρέτηση μοντέλων, με single-replica deployment έχει 3,6% χαμηλότερη απόδοση, αλλά όταν ενεργοποιηθεί η αυτόματη κλιμάκωση η απόδοση βελτιώνεται κατά 20,3%. Η ανάλυση της πολυπλοκότητας διαχείρισης αποκαλύπτει σημαντική μείωση των απαιτούμενων αρχείων: το InferenceService του KServe χρειάζεται λίγες γραμμές YAML με τρία annotations για αυτόματη κλιμάκωση, ενώ η αντίστοιχη λειτουργικότητα με FastAPI απαιτεί πολλαπλά configuration files. Η ανά- λυση υλοποίησης εντοπίζει προκλήσεις, όπως τις απαιτήσεις ρύθμισης του GPU και την πολυπλοκότητα του service mesh networking. Αυτή η εργασία μετρά εμπειρικά το κόστος και τα οφέλη αξιοποίησης cloud-native ερ- γαλείων για την ανάπτυξη μοντέλων μηχανικής μάθησης, πόσο επηρεάζεται η απόδοση και ποια λειτουργικά πλεονεκτήματα αποκτούμε. Η χρήση τυποποιημένων Kubernetes re- sources υποδηλώνει ότι οι ροές εργασίας μπορούν να μεταφερθούν σε περιβάλλοντα πολ- λαπλών κόμβων, επιτρέποντας την αξιολόγηση της πλατφόρμας χωρίς εξειδικευμένη υπο- δομή. Τα ευρήματα βοηθούν οργανισμούς που εξετάζουν την υιοθέτηση cloud-native λύ- σεων, παρέχοντας μετρήσεις απόδοσης και συγκρίσεις πολυπλοκότητας διαχείρισης. |
| URI: | http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19903 |
| Appears in Collections: | Μεταπτυχιακές Εργασίες - M.Sc. Theses |
Files in This Item:
| File | Description | Size | Format | |
|---|---|---|---|---|
| Deployment_of_Machine_Learning_Models_in_Distributed_Systems_using_Kubernetes_Framework.pdf | 1.37 MB | Adobe PDF | View/Open |
Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.