Εισαγωγή στην Επιστήμη των Δεδομένων-Introduction to Data Science
Πρόγραμμα:
- Μέθοδοι Στατιστικής και Επιστήμης των Δεδομένων
Διάρκεια: 4 Μήνες ( Ώρες)
Μονάδες ECVET: 3.2
Η εκπαιδευτική ενότητα οδηγεί σε Πιστοποιητικό Επιμόρφωσης
Κόστος Σεμιναρίου: 470 €
Αρχικό κόστος σεμιναρίου χωρίς έκπτωση.
Κόστος με έκπτωση στα 330 €
για Ανέργους, Πολύτεκνους-Τρίτεκνους, AMEA, Πτυχιούχους-Φοιτητές ΠαΠει, Εργαζόμενους του Πανεπιστημίου Πειραιά (μόνιμοι ή με σύμβαση), Δημοτικούς Υπαλλήλους. Πληροφορίες
Κόστος με έκπτωση στα 400 €
για Προπτυχιακούς Φοιτητές ΑΕΙ/ΤΕΙ ή άτομα έως 30 ετών που είναι κάτοχοι Ευρωπαϊκής Κάρτας Νέων, Συμμετέχοντες προηγούμενων κύκλων, Εγγραφή σε τουλάχιστον δύο μαθήματα ίδιας περιόδου. Πληροφορίες
ΦΟΡΜΑ ΑΙΤΗΣΗΣ
Για να προχωρήσετε στην παρακολούθηση της συγκεκριμένης διδακτικής ενότητας, παρακαλούμε εγγραφείτε σε αυτό μέσα από την ειδική φόρμα εγγραφής και παρακολούθησης μαθημάτων.
ΠΛΗΡΟΦΟΡΙΕΣ
Διάρκεια: 4 μήνες
Ακαδημαϊκός Υπεύθυνος: Καθ. Ν. Κουρογένης
Εκπαιδευτής Διδακτικής Ενότητας: Καθηγητής Κουρογένης Νικόλαος, Τμήμα Χρηματοοικονομικής & Τραπεζικής Διοικητικής Πανεπιστημίου Πειραιώς
Πληροφορίες Εκπαιδευτικής Ενότητας
Η Επιστήμη των Δεδομένων έχει αναδειχθεί τα τελευταία χρόνια ως ένα πολύ σημαντικό επιστημονικό πεδίο που έχει ως αντικείμενο την κατανόηση πολύπλοκων συστημάτων και την καθοδήγηση στη λήψη αποφάσεων μέσω της ανάλυσης δεδομένων. Συνθέτει στοιχεία από πολλούς άλλους βασικούς επιστημονικούς κλάδους όπως η πληροφορική, η επιστήμη των υπολογιστών, η στατιστική και η τεχνητή νοημοσύνη.
Η διαδικασία που ακολουθείται σε μια εφαρμογή της Επιστήμης των Δεδομένων ξεκινά από ένα ερώτημα που θέλουμε να απαντήσουμε. Στη συνέχεια πρέπει να προσδιοριστούν οι τύποι των δεδομένων που θα μας βοηθούσαν στην απάντηση αυτού του ερωτήματος, καθώς και η διαθεσιμότητά τους. Έχοντας τα δεδομένα διαθέσιμα, θα πρέπει αρχικά να απεικονιστούν και να γίνει μια πρώτη προσπάθεια αναγνώρισης μοτίβων. Το επόμενο στάδιο αφορά στην κατασκευή του κατάλληλου υποδείγματος και στο ταίριασμα (ή εκτίμηση των παραμέτρων του) στα δεδομένα. Στο τελικό στάδιο, τα αποτελέσματα της ανάλυσης θα πρέπει να παρουσιαστούν με τον κατάλληλο τρόπο (οπτικοποίηση) ώστε να αναδεικνύονται τα κεντρικά συμπεράσματα.
Σε αυτό το σεμινάριο ξεκινάμε με μια εισαγωγή στις βασικές έννοιες της Επιστήμης των Δεδομένων. Στη συνέχεια εμβαθύνουμε στα στατιστικά εργαλεία, στον προγραμματισμό και σε ορισμένα βασικά θέματα τεχνητής νοημοσύνης. Στο πλαίσιο του σεμιναρίου ο φοιτητής έρχεται σε μια πρώτη επαφή με τις γλώσσες προγραμματισμού R και SQL.
ΑΝΤΙΚΕΙΜΕΝΟ – ΠΑΡΑΔΟΤΕΟ ΥΛΙΚΟ
- 1ο Μάθημα: Εισαγωγή στη Στατιστική για Ανάλυση Δεδομένων
- Περιγραφική Στατιστική – Descriptive Statistics
Τύποι Δεδομένων. Περιγραφή δεδομένων με γραφήματα και πίνακες. Παρουσίαση των βασικών στατιστικών μέτρων για τη περιγραφή δεδομένων. - Βασικά Στοιχεία Πιθανοτήτων –Basic Probability
Ιδιότητες της Πιθανότητας, ενδεχόμενα, ανεξαρτησία ενδεχομένων, δεσμευμένη πιθανότητα, θεώρημα Bayes.
- Περιγραφική Στατιστική – Descriptive Statistics
- 2ο Μάθημα: Τυχαίες Μεταβλητές
- Βασικά Στοιχεία Τυχαίων Μεταβλητών
Τι είναι οι τυχαίες μεταβλητές, Διακριτές και Συνεχείς τυχαίες μεταβλητές, Κατανομές τυχαίων μεταβλητών, μέτρα και ιδιότητες τυχαίων μεταβλητών (μέσος, διασπορά, …). - Είδη τυχαίων μεταβλητών
Κατανομές Bernoulli, διωνυμικες, Poisson. Κανονικές τυχαίες μεταβλητές. Ο Νόμος των Μεγάλων Αριθμών και το Κεντρικό Οριακό Θεώρημα.
- Βασικά Στοιχεία Τυχαίων Μεταβλητών
- 3ο Μάθημα: Εκτιμητική και Στατιστική Συμπερασματολογία
- Δειγματοληψία και Διαστήματα Εμπιστοσύνης
Μέθοδοι δειγματοληψίας. Σημειακή εκτίμηση. Εκτιμητές. Διαστήματα εμπιστοσύνης. - Έλεγχος Υποθέσεων
Η έννοια του Ελέγχου Υποθέσεων. Πόσο ισχυρά συμπεράσματα βγάζουμε; Πώς καθορίζεται η Μηδενική και η Εναλλακτική υπόθεση; Τύποι σφαλμάτων που μπορεί να προκύψει (σφάλματα τύπου Ι και ΙΙ).
- Δειγματοληψία και Διαστήματα Εμπιστοσύνης
- 4ο Μάθημα: Εισαγωγή στη γλώσσα R για την Επιστήμη των Δεδομένων.
- Ορισμένοι Βασικοί Έλεγχοι
Έλεγχοι για τους μέσους, τις αναλογίες και τη διαφορά μέσων δύο πληθυσμών. Ο έλεγχος Χ2 για ανεξαρτησία. - Βασικά χαρακτηριστικά της R
Ποιά είναι η γλώσσα R. Πώς την εγκαθιστούμε και πώς τη χρησιμοποιούμε.
- Ορισμένοι Βασικοί Έλεγχοι
- 5ο Μάθημα: Χρήσιμες δομές δεδομένων της R
- Γράφοντας τον πρώτο μας κώδικα
Η δομή των εντολών της R. Βασικοί τύποι δεδομένων. Μεταβλητές. - Διανύσματα και Πίνακες στην R
Δημιουργία, ονομασία. Επιλογή στοιχείων από διανύσματα. Βασικές πράξεις χρησιμοποιώντας πίνακες. Η πρώτη μας εφαρμογή. - Factors, Data Frames και Lists
Δημιουργία, επιλογή και σύγκριση κατηγορικών δεδομένων με τη χρήση Factors. Αποθήκευση πινάκων δεδομένων σε Data Frames. Επιλογή στοιχείων από ένα Data Frame και μετατροπή σε Πίνακα. Αποθήκευση δεδομένων διαφορετικών τύπων σε λίστες. - Βασικά πακέτα γραφικών στην R
Δημιουργία γραφημάτων και οπτικοποίηση δεδομένων.
- Γράφοντας τον πρώτο μας κώδικα
- 6ο Μάθημα: Στοιχεία της Επιστήμης των Δεδομένων.
- Οι διαδικασίες στην Επιστήμη των Δεδομένων
Η προσέγγιση και οι βασικές αρχές της Επιστήμης των Δεδομένων. Η διαδικασία που ακολουθούμε στην Επιστήμη των Δεδομένων. - Εισαγωγή και ανάγνωση Δεδομένων στην R
Οι βασικές εντολές ανάγνωσης δεδομένων. - Εισαγωγή στη Μηχανική Μάθηση (Machine Learning)
- Πιθανότητες και Στατιστική στην Επιστήμη των Δεδομένων
Εφαρμογή σε δεδομένα της εύρεσης διαστημάτων εμπιστοσύνης και του ελέγχου υποθέσεων. Η έννοια της συσχέτισης. - Προσομοιώσεις
Δεδομένα που προκύπτουν από προσομοιώσεις. Προσομοιώσεις Monte-Carlo. Re-sampling δεδομένων.
- Οι διαδικασίες στην Επιστήμη των Δεδομένων
- 7ο Μάθημα: Δουλεύοντας με Δεδομένα.
- Προετοιμασία Δεδομένων και Data Ingestion
Τα βασικά επιλογής δεδομένων. Η σημασία του ελέγχου και «ξεκαθαρίσματος» των δεδομένων (data cleaning). - Εισαγωγή Δεδομένων από ιστοσελίδες
Χρήση πακέτων της R. Έλεγχος, καθάρισμα και μετασχηματισμός δεδομένων (data munging). Εφαρμογή με πραγματικές ιστοσελίδες.
- Προετοιμασία Δεδομένων και Data Ingestion
- 8ο Μάθημα: Εισαγωγή στη Γραμμική Παλινδρόμηση
- Το Απλό Γραμμικό Υπόδειγμα
Απλή γραμμική παλινδρόμηση. Βασικές υποθέσεις. Μέθοδοι εκτίμησης. Ερμηνεία των παραμέτρων του υποδείγματος. Ιδιότητες των εκτιμητών
- Το Απλό Γραμμικό Υπόδειγμα
- 9ο Μάθημα: Ανάλυση Πολλαπλής Παλινδρόμησης
- Βασικές υποθέσεις και ερμηνεία των παραμέτρων. Αμεροληψία και αποτελεσματικότητα των εκτιμητών ελαχίστων τετραγώνων. Έλεγχος υποθέσεων. Πολυσυγγραμμικότητα. Omitted Variable Bias. Συνέπεια και ασυμπτωτική αποτελεσματικότητα των εκτιμητών ελαχίστων τετραγώνων.
- Ετεροσκεδαστικότητα
Συνέπειες. Έλεγχοι ετεροσκεδαστικότητας. Επίλυση του προβλήματος.
- 10ο Μάθημα: Ειδικά Θέματα Παλινδρόμησης
- Binary (Dummy) Variables
Όταν κάποιοι από τους regressors είναι Ερμηνεία. Η περίπτωση που η εκξαρτημένη μεταβλητή είναι Binary (το γραμμικό υπόδειγμα πιθανότητας). - Τα υποδείγματα Probit και Logit
- Binary (Dummy) Variables
- 11ο Μάθημα: Αρχές Ανάλυσης Δεδομένων Χρονοσειρών
- Στάσιμες Στοχαστικές Ανελίξεις
Αυτοσυσχέτιση. Ασθενώς Εξαρτημένες Χρονοσειρές - Ορισμένοι Βασικοί Τύποι Ανελίξεων
Ανιλίξεις κινητού μέσου (MA(q)). Αυτοπαλίνδρομες ανελίξεις (AR(p)). Ανελίξεις ARMA(p,q). Ο τελεστής - Ανελίξεις Μοναδιαίας Ρίζας
Ιδιότητες. Έλεγχοι ύπαρξης μοναδιαίας ρίζας. - Προσομοιώσεις Ανελίξεων ARIMA(p,d,q) και έλεγχοι μοναδιαίας ρίζας στην R
- Στάσιμες Στοχαστικές Ανελίξεις
- 12ο Μάθημα: Αρχές Machine Learning
- Εισαγωγή στο Supervised Learning
Βασικές αρχές του Supervised Learning. Βασικές διαφορές με το Unsupervised Learning. Απλά μοντέλα Machine Learning στην R. - Βελτιώνοντας ένα μοντέλο Supervised Learning
Η διαδικασία επιλογής χαρακτηριστικών. Τα προβλήματα της υπερ-παραμετροποίησης (over-parametrization) και τις ανάλυσης φαινομένων σε πολλές διαστάσεις (curse of dimensionality). Τεχνικές για αντιμετώπιση αυτών των προβλημάτων (reguralization, dimensionality reduction).
- Εισαγωγή στο Supervised Learning
- 13ο Μάθημα: Αλγόριθμοι Ταξινόμησης
- Linear Discriminant Analysis (LDA)
- Classification and Regression Trees (CART).
- k-Nearest Neighbors (kNN).
- Support Vector Machines (SVM) with a linear kernel.
- Random Forests (RF)
- Unsupervised Learning στην R
- Μέθοδοι Clustering και Εφαρμογή στην R
- Recommender Systems και Εφαρμογή στην R
- 14ο Μάθημα: Εισαγωγή στις Βάσεις Δεδομένων
- Εισαγωγή στον SQL server
Τύποι δεδομένων και η λέξη NULL. Queries. Queries σε πολλαπλούς πίνακες με την εντολή JOIN. Τελεστές. Subqueries και η εντολή Τροποποίηση δεδομένων. - Επικοινωνώντας με τον SQL server – Βάσεις Δεδομένων και η R
- Εισαγωγή στον SQL server
Η παρακολούθηση γίνεται αποκλειστικά από το Διαδίκτυο μέσω απλού εκπαιδευτικού λογισμικού (πλατφόρμα ασύγχρονης τηλεκπαίδευσης), παρέχεται ψηφιακό εκπαιδευτικό υλικό και συνεχή εκπαιδευτική υποστήριξη. Από τη στιγμή που ένας υποψήφιος γίνεται δεκτός στο Πρόγραμμα, δημιουργείται λογαριασμός χρήστη στην πλατφόρμα τηλεκπαίδευσης, στον οποίο δίνεται πρόσβαση στην εκπαιδευτική ενότητα της επιλογής του. Στα πλαίσια της κάθε εκπαιδευτικής ενότητας γίνεται ανάρτηση σε εβδομαδιαία βάση στην πλατφόρμα τηλεκπαίδευσης ηλεκτρονικού εκπαιδευτικού υλικού του υπεύθυνου διδάσκοντα. Το εκπαιδευτικό υλικό περιλαμβάνει ηλεκτρονικές σημειώσεις με θεωρία και παραδείγματα τα οποία είναι σε μορφή pdf με δυνατότητα αποθήκευσης και εκτύπωσης, ώστε να είναι εφικτή η μελέτη και offline. Κατά τη διάρκεια του μαθήματος υπάρχει η δυνατότητα ανάθεσης εργασιών ή τεστ αυτοαξιολόγησης. Ο εκπαιδευόμενος έχει πρόσβαση, οποιαδήποτε στιγμή και από οπουδήποτε έχει σύνδεση Internet, σε όλες τις δραστηριότητες, πηγές πληροφοριών και ανακοινώσεις του εκάστοτε μαθήματος και του κοινοποιούνται στοιχεία επικοινωνίας με τον διδάσκοντα για επίλυση αποριών. Οι συμμετέχοντες πρέπει να :
- μελετούν την ύλη και τις σημειώσεις
- χρησιμοποιούν τις συνδέσεις που σχετίζονται με την ύλη του μαθήματος
- υποβάλλουν εργασίες, τεστ αυτοαξιολόγησης και απαντήσεις τελικής εξέτασης
Οι συμμετέχοντες πρέπει να διαθέτουν πρόσβαση στο διαδίκτυο, βασικές γνώσεις χειρισμού ηλεκτρονικών υπολογιστών καθώς και προσωπικό λογαριασμό e-mail.
H εξεταστική διαδικασία πραγματοποιείται εξ αποστάσεως μέσα από την πλατφόρμα e-learning με τη συμπλήρωση τεστ επίδοσης (ερωτήσεων πολλαπλής επιλογής) το οποίο είναι διαθέσιμο σε συγκεκριμένες ημερομηνίες ή με την ανάρτηση θεμάτων (ερωτήσεων- ασκήσεων τελικής εξέτασης) σε μορφή ανάθεσης εργασίας με προθεσμία υποβολής των απαντήσεων. Υπάρχει η δυνατότητα να προγραμματιστεί σε συνεννόηση με τον εκπαιδευόμενο η εκπρόθεσμη συμμετοχή του στην τελική εξέταση με την προϋπόθεση ότι δεν έχει παρέλθει διάστημα πάνω από ένα έτος από την εγγραφή του στην αντίστοιχη διδακτική ενότητα.