Η Google κάνει πραγματικότητα τη βελτίωση εικόνας που βλέπουμε σε ταινίες

Πρέπει να είναι άπειρες οι αστυνομικές ταινίες και σειρές που έχουμε δει, όπου ένα θολωμένο πλάνο μιας κάμερας ασφαλείας “καθαρίζεται” ως δια μαγείας αποκαλύπτοντας το πρόσωπο, την πινακίδα ή κάποιο αντικείμενο ενδιαφέροντος. Στην πραγματικότητα κάτι τέτοιο άνηκε μέχρι πρότινος στη σφαίρα της φαντασίας και του…Hollywood.

Η νέα τεχνητή νοημοσύνη της Google όμως το κατάφερε, προσθέτοντας λεπτομέρειες στην αρχική εικόνα οι οποίες δεν υπήρχαν, πρακτικά μαντεύοντας τι υπάρχει μεταξύ των κενών των pixels. Η τεχνική ονομάζεται φυσική σύνθεση εικόνας και στη συγκεκριμένη περίπτωση υπερ-ανάλυση εικόνας. Η AI ξεκινά με μία μικρή θολή εικόνα 64x64 pixels και καταλήγει σε μία καθαρή εικόνα ανάλυσης 1024x1024.

Πρακτικά η Google χρησιμοποιεί δύο AI εργαλεία. Το πρώτο είναι το SR3, το οποίο προσθέτει θόρυβο σε μία εικόνα και έπειτα αναστρέφει τη διαδικασία για να την καθαρίσει.

Τα diffusion μοντέλα λειτουργούν αλλοιώνοντας τα δεδομένα εκπαίδευσης προσθέτοντας σταδιακά θόρυβο Gaussian, εξαλείφοντας τις λεπτομέρειες στα δεδομένα μέχρι να γίνει όλο θόρυβος και τότε εκπαιδεύεται ένα νευρωνικό δίκτυο για να αναστρέψει τη διαδικασία αλλοίωσης. – Chitwan Saharia, software engineer, Google Research

Το δεύτερο εργαλείο είναι το CDM το οποίο αναβαθμίζει την ποιότητα των εικόνων που προέρχονται από diffusion μοντέλα όπως το SR3. Παίρνει δηλαδή τα βελτιωμένα μοντέλα και δημιουργεί μεγαλύτερης ανάλυσης εικόνες.

Στις δοκιμές έλαβαν μέρος 50 άνθρωποι οι οποίοι είδαν τις παραγόμενες εικόνες ανθρώπινων προσώπων από την AI και κλήθηκαν να πουν αν είναι αληθινές ή όχι. Έκαναν λάθος στο 50% των δοκιμών, κάτι που αναλογιζόμενοι ότι ο τέλειος αλγόριθμος θα είχε σκορ 50%, είναι εντυπωσιακό.

Αξίζει να σημειωθεί πως αυτές οι εικόνες δεν είναι ακριβή αντίγραφα των πρωτότυπων, αλλά μία προσεκτικά υπολογισμένη προσομοίωση βασισμένη σε υψηλού επιπέδου μαθηματικά πιθανοτήτων.