Παρακαλώ χρησιμοποιήστε αυτό το αναγνωριστικό για να παραπέμψετε ή να δημιουργήσετε σύνδεσμο προς αυτό το τεκμήριο: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19728
Τίτλος: Data Acquisition, Exploration and Preparation for LLM Training - The Case of the Greek Language
Συγγραφείς: Διβριώτης, Κωνσταντίνος
Στάμου Γιώργος
Λέξεις κλειδιά: Large Language Models
Μεγάλα Γλωσσικά Μοντέλα
Low-Resource Languages
Γλώσσες Χαμηλών Πόρων
Greek Dataset
Ελληνικό Σύνολο Δεδομένων
Pretraining
Προεκπαίδευση
Instruction Tuning
Εκπαίδευση Βάσει Οδηγιών
Data Curation
Επιμέλεια Δεδομένων
Processing Pipeline
Αγωγός Επεξεργασίας Δεδομένων
Ημερομηνία έκδοσης: 2-Ιου-2025
Περίληψη: Large Language Models (LLMs) have emerged as powerful tools in Natural Language Processing, propelled by the ever-expanding scale of model sizes and training datasets. While such resources exist for high-resource languages, low-resource languages such as Greek remain significantly underrepresented in modern LLM research and development. In this thesis, we address this gap by constructing two foundational datasets for Greek LLM development: a pretraining dataset and an instruction tuning dataset. For pretraining, we collected and processed large volumes of conversational data from YouTube transcripts and formal, structured texts from publicly available PDF documents, mostly books and academic material. For instruction tuning, we translated existing high-quality instruction corpora using a custom translation pipeline, ensuring cultural relevance and context-aware conversation in Greek. Throughout the data creation process, we implemented a series of processing steps, including noise removal, formatting normalization, language filtering, and deduplication, leading to the development of a robust processing pipeline. The final datasets, comprising over 2.3 billion words and 6 billion tokens, mark a significant advancement toward training high-quality Greek LLMs. Our work contributes both reusable infrastructure and curated data to support future research and development in Greek NLP.
URI: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19728
Εμφανίζεται στις συλλογές:Διπλωματικές Εργασίες - Theses

Αρχεία σε αυτό το τεκμήριο:
Αρχείο Περιγραφή ΜέγεθοςΜορφότυπος 
Diploma Thesis - Konstantinos Divriotis.pdf1.69 MBAdobe PDFΕμφάνιση/Άνοιγμα


Όλα τα τεκμήρια του δικτυακού τόπου προστατεύονται από πνευματικά δικαιώματα.