Το multimodal μοντέλο AI Gemini της Google θα ανταγωνιστεί το GPT-4 του OpenAI από αυτό το φθινόπωρο και θα είναι επίσης διαθέσιμο στους προγραμματιστές εφαρμογών AI.

Αυτό αναφέρει το The Information, επικαλούμενο ένα ανώνυμο άτομο που εμπλέκεται στην ανάπτυξη του Gemini.

Το Gemini είναι «μια ομάδα μεγάλων μοντέλων τεχνητής νοημοσύνης», είπε η πηγή, υποδηλώνοντας ότι, παρόμοια με το OpenAI, η Google θα μπορούσε να χρησιμοποιήσει την προσέγγιση του GPT-4 στην αρχιτεκτονική μοντέλων που αποτελείται από πολλά μοντέλα ειδικών τεχνητής νοημοσύνης με συγκεκριμένες δυνατότητες.

Θα μπορούσε επίσης να σημαίνει ότι η Google θέλει να κάνει το Gemini διαθέσιμο σε διαφορετικά μεγέθη, κάτι που είναι πιθανό να είναι οικονομικά αποδοτικό.

Σύμφωνα με πληροφορίες, το Gemini μπορεί να δημιουργήσει εικόνες αλλά και κείμενο. Δεδομένου ότι το Gemini έχει επίσης εκπαιδευτεί σε μεταγραφές βίντεο YouTube, θα μπορούσε επίσης να δημιουργήσει απλά βίντεο, παρόμοια με το RunwayML Gen-2 ή το Pika Labs. Το Gemini λέγεται επίσης ότι έχει σημαντικά βελτιωμένες δυνατότητες κωδικοποίησης.

Η Google σχεδιάζει να ενσωματώσει σταδιακά το Gemini στα προϊόντα της, όπως το Bard chatbot και τα Έγγραφα ή τις Παρουσιάσεις Google. Αργότερα φέτος, το Gemini θα είναι επίσης διαθέσιμο σε εξωτερικούς προγραμματιστές στο Google Cloud.

Σύμφωνα με το The Information, τουλάχιστον δύο δωδεκάδες στελέχη συμμετέχουν στην ανάπτυξη του μοντέλου. Η ομάδα Gemini, η οποία αποτελείται από το Google Brain και το Deepmind, λέγεται ότι περιλαμβάνει αρκετές εκατοντάδες υπαλλήλους.

Το Google Deepmind συγχωνεύτηκε πρόσφατα και εξακολουθεί να βρίσκει τη σωστή ισορροπία, όπως τις πολιτικές απομακρυσμένης εργασίας και την τεχνολογία που χρησιμοποιείται για την εκπαίδευση των μοντέλων, σύμφωνα με το The Information.

Η Deepmind φέρεται να εγκατέλειψε τον ανταγωνιστή της στο ChatGPT, με την κωδική ονομασία “Goodall” και βασίστηκε σε ένα απροειδοποίητο μοντέλο που ονομάζεται “Chipmunk”, υπέρ του Gemini.

Διαβάστε ακόμη: