Η Alibaba λανσάρει μοντέλο AI που μπορεί να κατανοήσει εικόνες και να εμπλακεί σε πιο σύνθετες συνομιλίες

Η Alibaba την Παρασκευή λάνσαρε ένα νέο μοντέλο τεχνητής νοημοσύνης που η εταιρεία λέει ότι μπορεί να κατανοήσει εικόνες και να πραγματοποιήσει πιο σύνθετες συνομιλίες από τα προηγούμενα προϊόντα της, καθώς ο παγκόσμιος αγώνας για ηγετική θέση στην τεχνολογία θερμαίνεται.

Ο κινεζικός τεχνολογικός γίγαντας είπε ότι τα δύο νέα μοντέλα του, Qwen-VL και Qwen-VL-Chat, θα είναι ανοιχτού κώδικα — που σημαίνει ότι ερευνητές, ακαδημαϊκοί και εταιρείες σε όλο τον κόσμο μπορούν να τα χρησιμοποιήσουν για να δημιουργήσουν τις δικές τους εφαρμογές AI χωρίς να χρειάζεται να εκπαιδεύσουν τα δικά τους συστήματα , επομένως εξοικονομώντας χρόνο και έξοδα.

Η Alibaba είπε ότι το Qwen-VL μπορεί να απαντήσει σε ερωτήματα ανοιχτού τύπου που σχετίζονται με διαφορετικές εικόνες και να δημιουργήσει λεζάντες εικόνων.

Το Qwen-VL-Chat εν τω μεταξύ εξυπηρετεί σε πιο «σύνθετη αλληλεπίδραση», σύμφωνα με την Alibaba , όπως η σύγκριση πολλαπλών εισόδων εικόνας και η απάντηση σε πολλούς γύρους ερωτήσεων.

Ορισμένες εργασίες που η Alibaba λέει ότι μπορεί να εκτελέσει το Qwen-VL-Chat περιλαμβάνουν τη σύνταξη ιστοριών και τη δημιουργία εικόνων με βάση φωτογραφίες που εισάγει ένας χρήστης, καθώς και την επίλυση μαθηματικών εξισώσεων που εμφανίζονται σε μια εικόνα.

Ένα παράδειγμα που έδωσε η Alibaba είναι μια εισαγωγή με μια πινακίδα νοσοκομείου στην κινεζική γλώσσα. Το AI μπορεί να απαντήσει σε ερωτήσεις σχετικά με τις τοποθεσίες ορισμένων τμημάτων του νοσοκομείου ερμηνεύοντας την εικόνα της πινακίδας.

Μέχρι στιγμής, μεγάλο μέρος της παραγωγικής τεχνητής νοημοσύνης – όπου η τεχνολογία δημιουργεί αποκρίσεις με βάση τις ανθρώπινες εισροές – έχει επικεντρωθεί στην ανταπόκριση στο κείμενο.

Η τελευταία έκδοση του ChatGPT του OpenAI έχει επίσης τη δυνατότητα να κατανοεί εικόνες και να απαντά σε κείμενο, όπως το Qwen-VL-Chat.