Deployment of Machine Learning Models in Distributed Systems using Kubernetes Framework

Γιαννούκος, Ορέστης

National Technical University of Athens

School of Electrical and Computer Engineering

Artemis is Live!

Welcome to our digital repository! The aim of Artemis is the systematic archiving and dissemination of the scientific work produced in the School of Electrical and Computer Engineering, National Technical University of Athens, Greece, using the technology of digital libraries.

Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19903

Title:	Deployment of Machine Learning Models in Distributed Systems using Kubernetes Framework
Authors:	Γιαννούκος, Ορέστης Μαρινάκης Ευάγγελος
Keywords:	Μηχανική Μάθηση Κατανεμημένα Συστήματα ML Ops
Issue Date:	27-Oct-2025
Abstract:	Αυτή η εργασία εξετάζει την ανάπτυξη μοντέλων μηχανικής μάθησης με χρήση cloud- native υποδομών, αξιολογώντας εργαλεία που βασίζονται στο Kubernetes. Η ανάπτυξη μο- ντέλων μηχανικής μάθησης αντιμετωπίζει επιχειρησιακές δυσκολίες: τα περιβάλλοντα δεν αναπαράγονται εύκολα, οι χειροκίνητες ρυθμίσεις είναι πολύπλοκες, η διαχείριση πόρων είναι αναποτελεσματική, και ο έλεγχος εκδόσεων επιρρεπής σε λάθη. Πλατφόρμες cloud- native όπως το Kubeflow υπόσχονται να λύσουν αυτά τα προβλήματα μέσω declarative configuration, αυτόματης κλιμάκωσης και ολοκληρωμένης διαχείρισης μοντέλων. Η έρευνα απαντά σε τρία βασικά ερωτήματα: (1) Απλοποιεί η cloud-native υποδομή την ανάπτυξη μοντέλων σε σχέση με τις παραδοσιακές μεθόδους; (2) Πόση επιπλέον επι- βάρυνση στην απόδοση προκαλεί η ενορχήστρωση του Kubernetes; (3) Ποιες πρακτικές προκλήσεις προκύπτουν κατά την υλοποίηση; Η πειραματική μέθοδος υλοποιεί ολοκλη- ρωμένες ροές εργασίας ML χρησιμοποιώντας τόσο παραδοσιακές λύσεις με βιβλιοθήκες όπως το FastAPI όσο και cloud-native ενορχήστρωση (Kubeflow σε K3s), μετρώντας την απόδοση εκπαίδευσης, τις δυνατότητες εξυπηρέτησης και την πολυπλοκότητα διαχείρισης στο ίδιο υλικό. Τα αποτελέσματα δείχνουν ότι η ενορχήστρωση Kubernetes εισάγει υπολογιστική επι- βάρυνση 18% για εκπαίδευση επιταχυνόμενη με GPU και 0.6% για εκτέλεση μόνο με CPU. Για GPU, παρά την επιβάρυνση, το Kubernetes εκτελείται 16 δευτερόλεπτα πιο γρή- γορα. Αντίθετα, για CPU παρατηρείται περίπου 8 δευτερόλεπτα πρόσθετου χρόνου ενορ- χήστρωσης χωρίς αντίστοιχο όφελος απόδοσης. Όσον αφορά την εξυπηρέτηση μοντέλων, με single-replica deployment έχει 3,6% χαμηλότερη απόδοση, αλλά όταν ενεργοποιηθεί η αυτόματη κλιμάκωση η απόδοση βελτιώνεται κατά 20,3%. Η ανάλυση της πολυπλοκότητας διαχείρισης αποκαλύπτει σημαντική μείωση των απαιτούμενων αρχείων: το InferenceService του KServe χρειάζεται λίγες γραμμές YAML με τρία annotations για αυτόματη κλιμάκωση, ενώ η αντίστοιχη λειτουργικότητα με FastAPI απαιτεί πολλαπλά configuration files. Η ανά- λυση υλοποίησης εντοπίζει προκλήσεις, όπως τις απαιτήσεις ρύθμισης του GPU και την πολυπλοκότητα του service mesh networking. Αυτή η εργασία μετρά εμπειρικά το κόστος και τα οφέλη αξιοποίησης cloud-native ερ- γαλείων για την ανάπτυξη μοντέλων μηχανικής μάθησης, πόσο επηρεάζεται η απόδοση και ποια λειτουργικά πλεονεκτήματα αποκτούμε. Η χρήση τυποποιημένων Kubernetes re- sources υποδηλώνει ότι οι ροές εργασίας μπορούν να μεταφερθούν σε περιβάλλοντα πολ- λαπλών κόμβων, επιτρέποντας την αξιολόγηση της πλατφόρμας χωρίς εξειδικευμένη υπο- δομή. Τα ευρήματα βοηθούν οργανισμούς που εξετάζουν την υιοθέτηση cloud-native λύ- σεων, παρέχοντας μετρήσεις απόδοσης και συγκρίσεις πολυπλοκότητας διαχείρισης.
URI:	http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19903
Appears in Collections:	Μεταπτυχιακές Εργασίες - M.Sc. Theses

Files in This Item:

File	Description	Size	Format
Deployment_of_Machine_Learning_Models_in_Distributed_Systems_using_Kubernetes_Framework.pdf		1.37 MB	Adobe PDF	View/Open

Show full item record