Παρακαλώ χρησιμοποιήστε αυτό το αναγνωριστικό για να παραπέμψετε ή να δημιουργήσετε σύνδεσμο προς αυτό το τεκμήριο:
http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19728
Τίτλος: | Data Acquisition, Exploration and Preparation for LLM Training - The Case of the Greek Language |
Συγγραφείς: | Διβριώτης, Κωνσταντίνος Στάμου Γιώργος |
Λέξεις κλειδιά: | Large Language Models Μεγάλα Γλωσσικά Μοντέλα Low-Resource Languages Γλώσσες Χαμηλών Πόρων Greek Dataset Ελληνικό Σύνολο Δεδομένων Pretraining Προεκπαίδευση Instruction Tuning Εκπαίδευση Βάσει Οδηγιών Data Curation Επιμέλεια Δεδομένων Processing Pipeline Αγωγός Επεξεργασίας Δεδομένων |
Ημερομηνία έκδοσης: | 2-Ιου-2025 |
Περίληψη: | Large Language Models (LLMs) have emerged as powerful tools in Natural Language Processing, propelled by the ever-expanding scale of model sizes and training datasets. While such resources exist for high-resource languages, low-resource languages such as Greek remain significantly underrepresented in modern LLM research and development. In this thesis, we address this gap by constructing two foundational datasets for Greek LLM development: a pretraining dataset and an instruction tuning dataset. For pretraining, we collected and processed large volumes of conversational data from YouTube transcripts and formal, structured texts from publicly available PDF documents, mostly books and academic material. For instruction tuning, we translated existing high-quality instruction corpora using a custom translation pipeline, ensuring cultural relevance and context-aware conversation in Greek. Throughout the data creation process, we implemented a series of processing steps, including noise removal, formatting normalization, language filtering, and deduplication, leading to the development of a robust processing pipeline. The final datasets, comprising over 2.3 billion words and 6 billion tokens, mark a significant advancement toward training high-quality Greek LLMs. Our work contributes both reusable infrastructure and curated data to support future research and development in Greek NLP. |
URI: | http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19728 |
Εμφανίζεται στις συλλογές: | Διπλωματικές Εργασίες - Theses |
Αρχεία σε αυτό το τεκμήριο:
Αρχείο | Περιγραφή | Μέγεθος | Μορφότυπος | |
---|---|---|---|---|
Diploma Thesis - Konstantinos Divriotis.pdf | 1.69 MB | Adobe PDF | Εμφάνιση/Άνοιγμα |
Όλα τα τεκμήρια του δικτυακού τόπου προστατεύονται από πνευματικά δικαιώματα.