Ερευνητές της Microsoft παρουσίασαν την τελευταία τους συσκευή δημιουργίας κειμένου σε ομιλία text-to-speech (TTS) , VALL-E η οποία μπορεί να εκπαιδευτεί και να μιμείται τη φωνή οποιουδήποτε σε μόλις τρία δευτερόλεπτα.
Σε αντίθεση με προηγούμενες συσκευές παραγωγής φωνής που ακούγονταν ρομποτικά, το VALL-E ακούγεται φυσικά και ομοιάζει της ανθρώπινης φωνής. Οι γεννήτριες μετατροπής κειμένου σε ομιλία που έδωσαν φωνή σε ένα από τα μεγαλύτερα μυαλά στον πλανήτη, τον Στίβεν Χόκινγκ, έχουν εξελιχθεί πάρα πολύ.
Από την ανάγνωση μηνυμάτων στο smartphone μέχρι την ανάγνωση σελίδων από ένα βιβλίο, αυτές οι υπηρεσίες είναι πλέον παντού και χρησιμοποιούνται από όλους.
Μεγάλες εταιρείες τεχνολογίας όπως η Google, η Meta και η Microsoft εργάζονται επίσης σε αυτόν τον κλάδο ώστε να κάνουν τα προϊόντα τους πιο προσιτά.
Ωστόσο, αυτά τα προϊόντα δεν στοχεύουν στη μίμηση της φωνής ενός χρήστη και χρειάζονται αμέτρητες ώρες εκπαίδευσης.
Οι εντυπωσιακές δυνατότητες του VALL-E
Συμβατικά, οι γεννήτριες TTS βασίζονται στον χειρισμό κυματομορφών για τη σύνθεση ομιλίας. Το VALL-E, από την άλλη πλευρά, δημιουργεί διακριτούς κωδικοποιητές ήχου από μηνύματα κειμένου και ήχου και τους χρησιμοποιεί για να τους ταιριάξει με αυτό που γνωρίζει για το πώς θα ακουγόταν η φωνή αν έλεγε άλλες φράσεις.
Η ερευνητική ομάδα ισχυρίζεται ότι το ηχητικό ερέθισμα, σε αυτήν την περίπτωση, θα μπορούσε να είναι τόσο σύντομο όσο τρία δευτερόλεπτα και αυτό θα ήταν αρκετό για να κάνει το VALL-E τη δουλειά του.
Αυτό κάνει το VALL-E μια γεννήτρια TTS μηδενικής βολής (zero shot), όπου το λογισμικό παρατηρεί δείγματα που δεν έχει παρατηρήσει κατά τη διάρκεια της εκπαίδευσής του.
Είναι ενδιαφέρον το ότι η εκπαίδευση του VALL-E διεξήχθη χρησιμοποιώντας τη LibriLight, μια ακουστική βιβλιοθήκη που δημιουργήθηκε από τη Meta και περιείχε σχεδόν 60.000 ώρες ομιλίας στην αγγλική γλώσσα από τα ηχητικά βιβλία LibriVox που είναι διαθέσιμα σε δημόσιο domain.
Αυτό το VALL-E κάνει με επιτυχία είναι να ταιριάζει το δείγμα ήχου τριών δευτερολέπτων με τη φωνή ενός από τα 7.000 άτομα που έχει εκπαιδευτεί και στη συνέχεια να παραδώσει το κείμενο με φωνή παρόμοια με αυτή στα δεδομένα εκπαίδευσης για να προσφέρει μια ακριβή απόκριση μίμησης.
Η Microsoft ισχυρίζεται ότι το VALL-E όχι μόνο μπορεί να προσομοιώσει τις φωνές σε ένα ακουστικό περιβάλλον, όπως μια τηλεφωνική κλήση, αλλά και να εκφωνήσει ομιλία σύμφωνα με το συναίσθημα που χρησιμοποιείται στο μήνυμα του ηχείου, καθιστώντας το πολύ πιο εξατομικευμένο και φυσικό.
Διαβάστε ακόμη: