Η πρώτη αγωνιστική του Ευρωπαϊκού πρωταθλήματος ήταν απολαυστικά πλήρης: κάποιες εύκολες νίκες (Γερμανία, Ελβετία, Ισπανία και Ρουμανία), ανατροπές αποτελεσμάτων (η Πορτογαλία επικράτησε στις καθυστερήσεις της Τσεχίας) , εκπλήξεις (με την Σλοβακία να κερδίζει το Βέλγιο), όμορφα γκολ (η Τουρκία σκόραρε εντυπωσιακά απέναντι στη Γεωργία) και κάποια φαβορί που κατάφεραν να επικρατήσουν «ολοκληρώνοντας απλά την δουλειά» (Ιταλία, Ολλανδία, Αγγλία και Γαλλία).
Αναμένοντας με ανυπομονησία την συνέχεια, θα κάνουμε έναν σύντομο απολογισμό των προβλέψεων μας για την πρώτη αγωνιστική και θα παρουσιάσουμε τα «προγνωστικά» μας για την δεύτερη αγωνιστική της διοργάνωσης.
Υπενθύμιση για τους φίλους της Στατιστικής
Η χρήση στατιστικών τεχνικών για την πρόβλεψη αγώνων ποδοσφαίρου πρώτο-εμφανίστηκε στην επιστημονική βιβλιογραφία το 1968 με την πρωτοπόρα επιστημονική δημοσίευση των Reep & Benjamin. Οι επόμενες πραγματικές καινοτομίες εμφανίζονται στη δεκαετία του 80 (με την εργασία του Michael Maher) και τη δεκαετία του 90 (με την εργασία του Lee το 1997). Οι πρώτες όμως σημαντικές δημοσιεύσεις στο χώρο, εισάγοντας μοντέλα στα οποία βασίζονται και μοντέλα που χρησιμοποιούμε ακόμα και σήμερα, ήταν οι εργασίες των Dixon & Coles το 1997 και το διμεταβλητό μοντέλο Poisson των Καρλή και Ντζούφρα το 2003 (δύο από τους συγγραφείς της συγκεκριμένης ανάλυσης). Τα δύο αυτά μοντέλα έθεσαν τη βάση των συγχρόνων μοντέλων πρόβλεψης των αποτελεσμάτων αγώνων ποδοσφαίρου.
Σε αυτή την ανάλυση χρησιμοποιούμε το μοντέλο των Καρλή και Ντζούφρα μέσω του πακέτου «footbayes» στη στατιστική γλώσσα προγραμματισμού R που έχουν αναπτύξει ο Καθηγητής Leonardo Egidi από το Πανεπιστήμιο της Τεργέστης με τη συνδρομή του Βασίλη Παλάσκα (Αναλυτής στην Open Bet και ενεργό μέλος του AUEB Sports Analytics Group). Το μοντέλο επίσης συμπεριλαμβάνει την εκτίμηση παραμέτρων που εκτιμούν την απόδοση κάθε ομάδας που αλλάζουν στον χρόνο. Για την εκμάθηση του μοντέλου χρησιμοποιήθηκαν όλοι οι διεθνείς αγώνες της περιόδου 2020-2024. Κύρια επεξηγηματική μεταβλητή είναι η διαφορά μεταξύ των δύο ομάδων στο δείκτη Coca-Cola/FIFA ranking. Το μοντέλο, που προτάθηκε για πρώτη φορά από τους Καρλή & Ντζούφρα το 2003, επεκτείνει το συνηθισμένο διμεταβλητό μοντέλο Poisson. Λεπτομέρειες για το μοντέλο στατιστικής και μηχανικής μάθησης που χρησιμοποιήθηκε θα βρείτε στο τέλος αυτού του άρθρου.
Απολογισμός 1ης αγωνιστικής
Στον Πίνακα 1 θα βρείτε τις προβλέψεις των πρώτων 12 αγώνων (1η αγωνιστική) και τα τελικά αποτελέσματα. Όπως βλέπετε το μοντέλο κατάφερε να προβλέψει σωστά (με βάση την πιθανότητα των πιθανών εκβάσεων του αγώνα δλδ Νίκη, ισοπαλία, ήττα) αρκετούς αγώνες (75%) μεταξύ των οποίων ξεχωρίζουμε τον αγώνα μεταξύ Ουγγαρίας και Ελβετίας. Η αναμέτρηση αυτή ήταν η πιο αμφίρροπη με βάση το μοντέλο μας δίνοντας ένα ελαφρύ προβάδισμα στην Ελβετία η οποία και τελικά επικράτησε. Επίσης, σε 2 ακόμα αγώνες το μοντέλο έδειχνε το τελικό αποτέλεσμα να είναι αρκετά πιθανό (αλλά όχι το πιθανότερο ενδεχόμενο). Πιο συγκεκριμένα στον αγώνα Σλοβενία-Δανία έχουμε αξιοσημείωτη πιθανότητα της ισοπαλίας (27%) ενώ στον αγώνα Ρουμανία-Ουκρανία η πιθανότητα νίκης ήταν αξιοσημείωτη τόσο για την Ουκρανία (47%) όσο και για την Ρουμανία (25%). Όσον αφορά την μεγάλη έκπληξη της Σλοβακίας, το μοντέλο έδινε μόλις 8% πιθανότητα νίκης όπως και κάθε λογικό μοντέλο που θα μπορούσαμε να φτιάξουμε βασισμένο σε δεδομένα. Να σημειώσουμε εδώ ότι ένα λογικό μοντέλο στατιστικής και μηχανικής μάθησης σε καμία περίπτωση δε θα μπορέσει να πιάσει εκπλήξεις σαν και αυτές οι οποίες μπορεί να συμβούν λόγω τυχαιότητα ή συγκεκριμένων καταστάσεων που δεν λαμβάνονται υπόψη από το μοντέλο και από τα δεδομένα στα οποία έχουν εκπαιδευτεί.
Προβλέψεις 2ης αγωνιστικής
Προχωράμε με αισιοδοξία για την δεύτερη αγωνιστική, λοιπόν, με τις προβλέψεις του μοντέλου να παρουσιάζονται στον Πίνακα 2.
Από τον πίνακα αυτό ξεχωρίζουμε τον αγώνα
· Σλοβακία – Ουκρανία
ως τον πιο αμφίρροπο.
Ως φαβορί ξεχωρίζουν
1. Πορτογαλία με πιθανότητα νίκης 69% έναντι της Τουρκία
2. Βέλγιο με πιθανότητα νίκης 65% έναντι της Ρουμανίας
3. Κροατία με πιθανότητα νίκης 62% έναντι της Αλβανία
4. Αγγλία με πιθανότητα νίκης 58% έναντι της Δανίας
5. Ελβετία με πιθανότητα νίκης 57% έναντι της Σκωτία
6. Τσεχία με πιθανότητα νίκης 53% έναντι της Γεωργίας
Τέλος έχουμε άλλους πέντε αγώνες που είναι σχετικά αμφίρροποι αλλά με ελαφρό προβάδισμα της μίας από τις δύο ομάδες. Σε αυτούς τους αγώνες θεωρούμε ότι οι ομάδες είναι σχετικά κοντά και μπορεί να έρθουν και ισοπαλία λόγω τακτικής και στρατηγικής. Συγκεκριμένα, έχουμε
1. Αυστρία (49%) να επικρατεί της Πολωνίας (24%)
2. Γερμανία (48%) να επικρατεί της Ουγγαρίας (24%)
3. Ισπανία (47,5%) να επικρατεί της Ιταλίας (26%)
4. Γαλλία (47%) να επικρατεί της Ολλανδίας (27%)
5. Σερβία (46%) να επικρατεί της Σλοβενίας (45%)
Το Διάγραμμα 1 δίνει με πιο πολύ λεπτομέρεια τις πιθανότητες για το κάθε σκορ για καθένα από τους 12 αγώνες της 2ης αγωνιστικής.
Βιβλιογραφία για διαβαστερούς φιλάθλους
· Dixon, M.J. and Coles, S.G. (1997), Modelling Association Football Scores and Inefficiencies in the Football Betting Market. Journal of the Royal Statistical Society: Series C (Applied Statistics), 46, 265-280.
· Karlis, D. and Ntzoufras, I. (2003), Analysis of sports data by using bivariate Poisson models. Journal of the Royal Statistical Society: Series D (The Statistician), 52, 381-393.
· Lee A.J. (1997). Modeling Scores in the Premier League: Is Manchester United Really the Best? Chance, 10, 15-19.
· Maher, M.J. (1982), Modelling association football scores. Statistica Neerlandica, 36, 109-118.
· Reep, C., & Benjamin, B. (1968). Skill and Chance in Association Football. Journal of the Royal Statistical Society. Series A (General), 131, 581-585.
Οι Μαγικές Εξισώσεις του στατιστικού μοντέλου
· i είναι ο δείκτης του αγώνα
· και είναι ο αριθμός των γκολ μεταξύ της 1ης και της 2ης ομάδας στον αγώνα i
· και είναι η 1η και 2η ομάδα αντίστοιχα (ή η εντός και εκτός έδρα ομάδα – όπου ισχύει) για τον i αγώνα.
· και οι παράμετροι που εκτιμούν της επιθετική και αμυντική δυναμικότητα/ ικανότητα της ομάδας k την χρονική στιγμή t (δυναμικές παράμετροι που αλλάζουν στο χρόνο)
· δείκτης Coca-Cola FIFA ranking την 4η Απριλίου 2024 για την ομάδα k.
Λίγα λόγια για τους Συγγραφείς
AUEB Sports Analytics Group
O Ιωάννης Ντζουφρας είναι καθηγητής Στατιστικής και πρόεδρος στο Τμήμα Στατιστικής του Οικονομικού Πανεπιστημίου Αθηνών. Είναι ιδρυτικό μέλος της ερευνητικής ομάδας AUEB Sports Analytics Group μαζί με τον Δημήτρη Καρλή. Έχει αναγνωρισμένη επιστημονική δραστηριότητα σε τομείς όπως η Μπευζιανή στατιστική μεθοδολογία, υπολογιστική στατιστική, Βιοστατιστική, ψυχομετρία και αναλυτική των σπορ.
O Δημήτρης Καρλής είναι καθηγητής Στατιστικής και αναπληρωτής πρόεδρος στο Τμήμα Στατιστικής του Οικονομικού Πανεπιστημίου Αθηνών. Είναι ιδρυτικό μέλος της ερευνητικής ομάδας AUEB Sports Analytics Group μαζί με τον Ιωάννη Ντζούφρα. Έχει αναγνωρισμένη επιστημονική δραστηριότητα σε τομείς όπως η στατιστική μεθοδολογία, υπολογιστική στατιστική, Βιοστατιστική, και αναλυτική των σπορ.
Η Αργυρώ Δαμουλάκη είναι υποψήφια διδάκτωρ στο Τμήμα Στατιστικής του ΟΠΑ. Η τρέχουσα έρευνά της επικεντρώνεται σε μοντέλα αξιολόγησης απόδοσης με τη χρήση της Μπεϋζιανής στατιστικής. Ασχολείται με αναλυτική στα σπορ και είναι ενεργό μέλος AUEB Sports Analytics Group από το 2022.
O Βασίλης Παλάσκας είναι Στατιστικός Αναλυτής και Επιστήμονας Δεδομένων στην Open Bet. Στο παρελθόν δούλεψε ως επικεφαλής της ανάλυσης και πρόβλεψης στην Fantasy Sports Interactive (FSI). Είναι ενεργό μέλος της ερευνητικής ομάδας AUEB Sports Analytics από το 2019 όπου τελείωσε το M.Sc. in Statistics του Οικονομικού Πανεπιστημίου Αθηνών.
Η ερευνητική ομάδα του Πανεπιστημίου της Τεργέστης
O Leonardo Egidi είναι επίκουρος καθηγητής Στατιστικής στο Πανεπιστήμιο της Τεργέστης στην Ιταλία και μέλος της ερευνητικής ομάδας του Οικονομικού Πανεπιστημίου Αθηνών AUEB Sports Analytics Group. Έχει διδακτορικό στην μοντελοποιηση και αναλυτική ποδοσφαίρου και έντονη ερευνητική δραστηριότητα στη Μπευζιανή Στατιστική μεθοδολογία.
Ο Roberto Macri Demartino είναι Υποψήφιος Διδάκτωρ στο Πανεπιστήμιο της Πάντοβα. Τα κύρια ερευνητικά του ενδιαφέροντα επικεντρώνονται στην Μπεϋζιανή στατιστική μεθοδολογία με εφαρμογές σε ποικίλους τομείς, όπως αναλυτική των σπορ.
Ο Giulio Fantuzzi έλαβε πτυχίο στη Στατιστική και είναι τώρα μεταπτυχιακός φοιτητής στην Επιστήμη Δεδομένων και Τεχνητή Νοημοσύνη στο Πανεπιστήμιο της Τεργέστης. Είναι πολύ δραστήριος στον τομέα της μοντελοποίησης των σπορ κυρίως με χρήση R και Python.
Ενεργές Συνεργασίες των Συγγραφέων
Οι τρεις συγγραφείς (L. Egidi, Ι. Ντζούφρας και Δ. Καρλής) του άρθρου αυτή τη στιγμή συνεργάζονται για τη συγγραφή ενός βιβλίου σε Football Analytics σε διεθνή επιστημονικό οίκο ενώ στο τελευταίο workshop της ομάδας έδωσαν ένα σεμιναριακό μάθημα σε Football analytics.
Τα δύο Πανεπιστήμια επίσης ετοιμάζουν ένα μεταπτυχιακό πρόγραμμα στην Αναλυτική των Σπορ με σχεδιασμό να ξεκινήσει τον Οκτώβριο του 2025.
Ο L. Egidi και Β. Παλάσκας συνεργάζονται στην ανάπτυξη του λογισμικού “footbayes” (βιβλιοθήκη της στατιστικής γλώσσας προγραμματισμού R).
Ο L. Egidi, Ι. Ντζούφρας και Β. Παλάσκας συνεργάζονται στην συγγραφή ενός επιστημονικού άρθρου αξιολόγησης παικτών στο Βόλεϊ.
Ο Β. Παλάσκας είναι απόφοιτος του μεταπτυχιακού του ΟΠΑ M.Sc. in Sports Analytics, ενεργό μέλος του AUEB Sports Analytics ενώ έχει συνεπιβλέψει μια διπλωματική εργασία στα πλαίσια του M.Sc. in Statistics του ΟΠΑ και της προηγούμενης συνεργασίας του με την FSI (Fantasy Sports Interactive).
Η Ομάδα AUEB Sports Analytics
Η ερευνητική ομάδα του Οικονομικού Πανεπιστημίου Αθηνών AUEB Sports Analytics Group ιδρύθηκε το 2015 από τους καθηγητές Ιωάννη Ντζούφρα και Δημήτρη Καρλή. Μέλη του είναι σημαντικά μέλη της κοινότητα της αναλυτικής των σπορ όπως oι Leonardo Egidi (Πανεπιστήμιο Trieste), Ιωάννης Κοσμίδης (Warwick), Κωνσταντίνος Πελεχρίνης (Pittsburg), Nial Friel (UCD) και Gianluca Baio (UCL) καθώς επίσης και ο πρώην προπονητής της εθνικής Ελλάδας Βόλεϊ, Σωτήρης Δρίκος και ο scouter των Σακραμέντο Κινγκς, Χρήστος Μαρμαρινός. Η ερευνητική ομάδα είναι υπεύθυνη για της σειρά ετήσιων συνεδρίων με το όνομα AUEB Sports Analytics Workshop (6 συνολικά) ενώ το 2019 διοργάνωσε το διεθνές συνέδριο MathSport 2019 με 200 συμμετέχοντες επιστήμονες από όλο τον κόσμο. Η ομάδα έχει μια σειρά από σημαντικές επιστημονικές δημοσιεύσεις στο χώρο της αναλυτικής των σπορ. Τέλος θα θέλαμε να αναφέρουμε ότι η ομάδα ιδρύθηκε το 2015 λόγω της επίσκεψης του καθηγητή Stefan Kesenne (Πανεπιστήμιο Antwerp & Leuven), σπουδαίου Οικονομολόγου του Αθλητισμού που έπαιξε και ενεργό ρόλο στην υπόθεση Bosman. Ο Stefan Kesenne στήριξε ενεργά την ομάδα μέχρι και το 2021 όπου ξαφνικά απεβίωσε. Η ύπαρξη της ομάδας AUEB Sports Analytics Group οφείλεται σε μεγάλο ποσοστό στη συνδρομή και την έμπνευση που μας έδωσε ο κος Kesenne.
Website του group https://aueb-analytics.wixsite.com/sports
Website του AUEB Sports Analytics Workshop https://aueb-analytics.wixsite.com/saw2024
Διαβάστε ακόμη
- Καιρός σήμερα: Ανεβαίνει κι άλλο η θερμοκρασία τις επόμενες ημέρες – Πού θα είναι πιο δροσερά
- Κρίσι Τέιγκεν: Χαμός στα social για το μπάνιο σε βρώμικο νερό
- Ζενεβιέβ Μαζαρί για Βίκυ Καγιά: Δεν με στενοχωρεί καθόλου που δεν μιλάμε, μπορώ να επιλέξω ποιους ανθρώπους έχω μαζί μου
- Δημήτρης Μαρέδης: «Σε έναν κόσμο με Κουτσελίνη να είσαι εκείνος» – Ποιος είναι ο δημοσιογράφος που αποθεώνουν