Η generative AI έχει ήδη αποδείξει τι μπορεί να κάνει στην κατηγορία των ρομπότ. Οι εφαρμογές περιλαμβάνουν αλληλεπιδράσεις σε φυσική γλώσσα, εκπαίδευση, προγραμματισμό χωρίς κώδικα, ακόμη και σχεδιασμό. Η ομάδα DeepMind Robotics της Google αυτή την εβδομάδα παρουσίασε ένα άλλο πιθανό σημείο συνάντησης μεταξύ των δύο κλάδων: την πλοήγηση.
Σε ένα έγγραφο με τίτλο “Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs”, η ομάδα δείχνει πώς έχει εφαρμόσει το Google Gemini 1.5 Pro για να διδάξει ένα ρομπότ να ανταποκρίνεται σε εντολές και να περιηγείται σε ένα γραφείο. Φυσικά, η DeepMind χρησιμοποίησε μερικά από τα Every Day-ρομπότ που βλέπουμε συχνά από τότε που η Google πάγωσε το project εν μέσω εκτεταμένων απολύσεων πέρυσι.
Σε μια σειρά βίντεο, οι υπάλληλοι της DeepMind ζητούν από το σύστημα να εκτελέσει διαφορετικές εργασίες γύρω από τον χώρο γραφείων των 9.000 τετραγωνικών.
Πριν από αυτά τα βίντεο, τα ρομπότ εξοικειώθηκαν με το χώρο χρησιμοποιώντας αυτό που η ομάδα αποκαλεί “Multimodal Instruction Navigation with demonstration Tours (MINT)”. Ουσιαστικά, αυτό σημαίνει ότι η ομάδα περπατά με το ρομπότ γύρω από το γραφείο ενώ επισημαίνει διαφορετικά ορόσημα με την ομιλία. Στη συνέχεια, η ομάδα χρησιμοποιεί Vision-Language-Action (VLA) για να «συνδυάσει την κατανόηση του περιβάλλοντος και τη δύναμη συλλογισμού της κοινής λογικής». Μόλις συνδυαστούν οι διαδικασίες, το ρομπότ μπορεί να ανταποκριθεί σε γραπτές και σχεδιασμένες εντολές, καθώς και χειρονομίες.
Διαβάστε επίσης εδώ