ΔΙΔΑΚΤΟΡΙΚΗ ΔΙΑΤΡΙΒΗ ΑΝΑΛΥΣΗ ΑΚΟΛΟΥΘΙΩΝ ΕΙΚΟΝΩΝ ΓΙΑ ΧΑΡΑΚΤΗΡΙΣΜΟ, ΠΡΟΕΠΙΣΚΟΠΗΣΗ ΚΑΙ ΑΝΑΖΗΤΗΣΗ ΜΕ ΒΑΣΗ ΤΟ ΠΕΡΙΕΧΟΜΕΝΟ Ιωάννης Σ. Αβρίθης ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ Εθνικό Μετσόβιο Πολυτεχνείο Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εργαστήριο Ψηφιακής Επεξεργασίας Εικόνας, Βίντεο και Πολυμέσων ΔΙΔΑΚΤΟΡΙΚΗ ΔΙΑΤΡΙΒΗ Ιωάννης Σ. Αβρίθης Διπλ. Ηλεκτρολόγος Μηχανικός ΕΜΠ ΑΝΑΛΥΣΗ ΑΚΟΛΟΥΘΙΩΝ ΕΙΚΟΝΩΝ ΓΙΑ ΧΑΡΑΚΤΗΡΙΣΜΟ, ΠΡΟΕΠΙΣΚΟΠΗΣΗ ΚΑΙ ΑΝΑΖΗΤΗΣΗ ΜΕ ΒΑΣΗ ΤΟ ΠΕΡΙΕΧΟΜΕΝΟ Επιβλέπων Καθηγητής: Τριμελής Συμβουλευτική Επιτροπή: Στέφανος Κόλλιας, Καθηγητής ΕΜΠ Στέφανος Κόλλιας, Καθηγητής ΕΜΠ Χρήστος Χαλκιάς, Καθηγητής ΕΜΠ Ηλίας Κουκούτσης, Επικ. Καθηγητής. ΕΜΠ Επταμελής Εξεταστική Επιτροπή Στέφανος Κόλλιας Καθηγητής ΕΜΠ Ανδρέας Σταφυλοπάτης Καθηγητής ΕΜΠ Ηλίας Κουκούτσης Επικ. Καθηγητής ΕΜΠ Πέτρος Μαραγκός Καθηγητής ΕΜΠ Αθανάσιος Σκόδρας Αν. Καθηγητής Παν. Πατρών Γεώργιος Τζιρίτας Αν. Καθηγητής Παν. Κρήτης Αντώνιος Κωνσταντινίδης Καθηγητής Παν. Λονδίνου Αθήνα, Φεβρουάριος 2001 Περίληψη Ανάλυση Ακολουθιών Εικόνων για Χαρακτηρισμό, Προεπισκόπηση και Αναζήτηση με Βάση το Περιεχόμενο του Ιωάννη Αβρίθη Η παρούσα διδακτορική διατριβή έχει κεντρικό αντικείμενο την επεξεργασία και ανάλυση εικόνων και ακολουθιών εικόνων για το χαρακτηρισμό και τη δεικτοδότηση του οπτικού τους περιεχομένου. Στόχος της είναι η συνεισφορά στην ανάπτυξη ενός αυτοματοποιημένου υπολογιστικού συστήματος το οποίο να έχει τη δυνατότητα ανάλυσης και αυτόματου χαρακτηρισμού οπτικοακουστικού υλικού, κατάτμησής του σε αντικείμενα, εξαγωγής περίληψης με σκοπό την προεπισκόπηση και πλοήγηση μέσα από το υλικό, καθώς και αναζήτησης και ανάκλησης με βάση το περιεχόμενο. Η διατριβή απαρτίζεται από τέσσερα μέρη. Στο πρώτο μέρος γίνεται μια εισαγωγή στην ανάλυση ακολουθιών εικόνων, στην κατάτμηση και στην εξαγωγή αντικειμένων με βάση το χρώμα, την κίνηση, καθώς και το πεδίο βάθους στην περίπτωση των στερεοσκοπικών ακολουθιών. Με βάση το συνδυασμό των επιμέρους κατατμήσεων, προτείνεται μία τεχνική συγχώνευσης που επιτρέπει τον αξιόπιστο προσδιορισμό σημασιολογικών αντικειμένων. Το δεύτερο μέρος αναφέρεται στον αυτόματο χαρακτηρισμό του οπτικού περιεχομένου, με υπολογισμό διανυσμάτων περιγραφής που περιέχουν χαρακτηριστικά των αντικειμένων. Η πληροφορία του χαρακτηρισμού αποτελεί τη βάση για την εξαγωγή περίληψης η οποία υλοποιείται με την αυτόματη επιλογή ενός περιορισμένου συνόλου χαρακτηριστικών πλάνων και καρέ που περιγράφουν ικανοποιητικά το οπτικό περιεχόμενο. Η αναπαράσταση του επιλεγμένου υλικού με διανύσματα περιγραφής χρησιμοποιείται στη συνέχεια για αναζήτηση και ανάκληση με βάση το περιεχόμενο. Στο τρίτο μέρος της διατριβής εξετάζεται το πρόβλημα της ανάλυσης και αναπαράστασης του περιγράμματος αντικειμένων με εφαρμογή στην ταξινόμηση και αναζήτηση αντικειμένων με βάση το σχήμα. Παρουσιάζεται μία πρωτότυπη τεχνική κανονικοποίησης περιγραμμάτων η οποία χωρίς απώλεια πληροφορίας παρέχει τη δυνατότητα αναλλοίωτης περιγραφής ως προς ένα σύνολο μετασχηματισμών. Τέλος, στο τέταρτο μέρος παρουσιάζεται μία τεχνική χρονικής κατάτμησης και συντακτικής ανάλυσης ακολουθιών τηλεοπτικών δελτίων ειδήσεων σε θεματικές ενότητες με χρήση της οπτικής πληροφορίας. Η τεχνική βασίζεται σε έναν προηγμένο αλγόριθμο αυτόματης ανίχνευσης και εντοπισμού ανθρώπινων προσώπων· η παραγόμενη πληροφορία χρησιμοποιείται επίσης για την υλοποίηση νέων, σημασιολογικών κριτηρίων αναζήτησης με βάση το περιεχόμενο. Η διατριβή καταλήγει σε έκθεση συμπερασμάτων και προτάσεων για ζητήματα που θα μπορούσαν να αποτελέσουν τη βάση για μελλοντική έρευνα. Πίνακας Περιεχομένων Πρόλογος Ευχαριστίες Εισαγωγή 1. Ερευνητικό Αντικείμενο 2. Υπάρχουσα Κατάσταση ­ Σχετικές Εργασίες 3. Περιγραφή Προτεινόμενων Τεχνικών 4. Συνεισφορά Διατριβής 5. Δομή Διατριβής ΜΕΡΟΣ I Κεφάλαιο 1 ΑΝΑΛΥΣΗ ΑΚΟΛΟΥΘΙΩΝ ΕΙΚΟΝΩΝ ΣΕ ΑΝΤΙΚΕΙΜΕΝΑ Κατάτμηση με Βάση το Χρώμα και την Κίνηση vii ix 1 1 4 6 9 10 12 13 13 14 17 19 22 22 23 25 28 30 32 32 33 34 1.1 Κατάτμηση Ακολουθιών Εικόνων σε Αντικείμενα 1.2 Αλγόριθμοι Κατάτμησης 1.3 Κατάτμηση με Βάση το Χρώμα 1.4 Κατάτμηση με Βάση την Κίνηση Κεφάλαιο 2 Κατάτμηση με Βάση το Πεδίο Βάθους 2.1 Στερεοσκοπικές Ακολουθίες Βίντεο 2.2 Στερεοσκοπική Ανάλυση 2.3 Εκτίμηση Πεδίου Βάθους και Απόκλισης 2.4 Ανίχνευση Επικάλυψης 2.5 Κατάτμηση Κεφάλαιο 3 Συγχώνευση Αντικειμένων 3.1 Ανίχνευση Σημασιολογικών Αντικειμένων 3.2 Αλγόριθμος Συγχώνευσης 3.3 Πειραματικά Αποτελέσματα ΜΕΡΟΣ II Κεφάλαιο 4 ΧΑΡΑΚΤΗΡΙΣΜΟΣ, ΠΡΟΕΠΙΣΚΟΠΗΣΗ ΚΑΙ ΑΝΑΖΗΤΗΣΗ ΜΕ ΒΑΣΗ ΤΟ ΠΕΡΙΕΧΟΜΕΝΟ Αναπαράσταση Ακολουθιών Εικόνων 39 40 40 41 42 45 46 4.1 Ασαφή Ιστογράμματα 4.2 Μονοδιάστατη Ταξινόμηση 4.3 Πολυδιάστατη Ταξινόμηση 4.4 Διανύσματα Περιγραφής 4.5 Παράδειγμα Συνθετικής Ακολουθίας iv Πίνακας Περιεχομένων Κεφάλαιο 5 Επιλογή Χαρακτηριστικών Πλάνων v 50 50 52 54 55 60 60 61 62 64 67 67 69 71 76 79 79 82 83 85 88 89 89 92 93 95 99 99 103 105 107 108 112 112 114 117 123 128 129 129 131 5.1 Ανίχνευση και Χαρακτηρισμός Πλάνων 5.2 Ομαδοποίηση Πλάνων 5.3 Πειραματικά Αποτελέσματα 5.4 Αποτελέσματα σε Στερεοσκοπικές Ακολουθίες Κεφάλαιο 6 Επιλογή Χαρακτηριστικών Καρέ με Βάση τη Χρονική Μεταβολή 6.1 Τροχιά Διανύσματος Περιγραφής 6.2 Μέθοδος Χρονικής Μεταβολής 6.3 Παράδειγμα Συνθετικής Ακολουθίας 6.4 Πειραματικά Αποτελέσματα Κεφάλαιο 7 Βέλτιστη Επιλογή Χαρακτηριστικών Καρέ 7.1 Μέθοδος Συσχέτισης 7.2 Λογαριθμική Αναζήτηση 7.3 Αναζήτηση με Γενετικό Αλγόριθμο 7.4 Πειραματικά Αποτελέσματα Κεφάλαιο 8 Αναζήτηση με Βάση το Περιεχόμενο 8.1 Μηχανισμός Αναζήτησης 8.2 Ανάδραση 8.3 Ενημέρωση Παραμέτρων 8.4 Πειραματικά Αποτελέσματα ΜΕΡΟΣ III Κεφάλαιο 9 ΠΕΡΙΓΡΑΦΗ ΣΧΗΜΑΤΟΣ ΑΝΤΙΚΕΙΜΕΝΩΝ Αναπαράσταση Περιγραμμάτων 9.1 Εισαγωγή 9.2 Προτεινόμενη Αναπαράσταση 9.3 Προϋποθέσεις ­ Περιορισμοί 9.4 B-Splines Κεφάλαιο 10 Κανονικοποίηση Περιγραμμάτων 10.1 Ορθοκανονικοποίηση 10.2 Κανονικοποίηση Σημείου Αναφοράς 10.3 Κανονικοποίηση Περιστροφής και Κατοπτρισμού 10.4 Τελικά Στάδια Κανονικοποίησης 10.5 Αποδείξεις Κεφάλαιο 11 Αναζήτηση με Βάση το Σχήμα ­ Αποτελέσματα 11.1 Εναλλακτικές Μέθοδοι 11.2 Ταξινόμηση και Αναζήτηση 11.3 Αποτελέσματα Κανονικοποίησης 11.4 Αποτελέσματα Ταξινόμησης και Αναζήτησης ΜΕΡΟΣ IV Κεφάλαιο 12 ΕΦΑΡΜΟΓΗ ΣΤΗΝ ΑΝΑΛΥΣΗ ΔΕΛΤΙΩΝ ΕΙΔΗΣΕΩΝ Εντοπισμός Προσώπων 12.1 Εισαγωγή 12.2 Μοντέλο Πιθανότητας Χρώματος Δέρματος vi 12.3 Εξαγωγή Τμημάτων Προσώπου 12.4 Πειραματικά Αποτελέσματα Κεφάλαιο 13 Συντακτική Ανάλυση Δελτίων Πίνακας Περιεχομένων 133 140 145 145 147 148 152 154 154 156 157 159 162 165 174 13.1 Ανάλυση Δελτίων Ειδήσεων 13.2 Ταξινόμηση Πλάνων 13.3 Πειραματικά Αποτελέσματα 13.4 Αξιολόγηση Κεφάλαιο 14 Προεπισκόπηση και Ανάκληση 14.1 Εξαγωγή Περίληψης και Προεπισκόπηση 14.2 Χαρακτηριστικα Προσώπων 14.3 Ανάκληση με Βάση τα Πρόσωπα 14.4 Πειραματικά Αποτελέσματα Συμπεράσματα Βιβλιογραφία Ευρετήριο Πρόλογος Οι τεχνολογίες πολυμέσων έχουν διεισδύσει σε όλους σχεδόν τους τομείς της ανθρώπινης δραστηριότητας και πρόκειται να αλλάξουν ριζικά το τρόπο με τον οποίο διεξάγεται η πρόσβαση στην πληροφορία, η επικοινωνία, η εκπαίδευση, οι επαγγελματικές δραστηριότητες και η διασκέδαση. Οι τεχνολογίες αυτές δημιουργούν τη δυνατότητα ενσωμάτωσης και αλληλεπίδρασης ανάμεσα σε διαφορετικά μέσα, όπως για παράδειγμα η ομιλία, ο ήχος, η εικόνα, το βίντεο, το κείμενο και τα γραφικά. Καθώς η ψηφιοποίηση, κωδικοποίηση, αποθήκευση και μετάδοση εικόνων και βίντεο γίνεται όλο και πιο προσιτή, υπολογιστικά συστήματα και βάσεις δεδομένων αρχίζουν να αποθηκεύουν τεράστιο όγκο οπτικοακουστικής πληροφορίας και η πρόσβαση οποιουδήποτε χρήστη στην πληροφορία αυτή αρχίζει να γίνεται πραγματικότητα. Όμως, καθώς η τεχνολογία καταγραφής και αποθήκευσης δεδομένων προχωρά με γοργούς ρυθμούς, αρχίζει να γίνεται αισθητή η έλλειψη τεχνολογιών χαρακτηρισμού, δεικτοδότησης και ανάκλησης οπτικοακουστικής πληροφορίας από μεγάλα αρχεία. Η ανάκληση πληροφορίας, σαν γνωστικό αντικείμενο, υπάρχει εδώ και πολλά χρόνια. Μέχρι πρόσφατα όμως, οι μεθοδολογίες ανάκλησης εστιάζονταν στην κατανόηση πληροφορίας κειμένου, δηλαδή στην εξαγωγή λέξεων-κλειδιών, στην κατηγοριοποίηση ή στη δημιουργία περίληψης εγγράφων, πάντα με βάση το γραπτό κείμενο. Σε ένα «έγγραφο» πολυμέσων η πληροφορία ενσωματώνεται σε διάφορες μορφές μέσων, οι οποίες συνήθως συμπληρώνουν η μία την άλλη. Για την κατανόηση μίας ακολουθίας βίντεο για παράδειγμα, είναι απαραίτητη η ανάλυση όλων των διαθέσιμων τύπων δεδομένων: εικόνες από τα καρέ του βίντεο, κανάλια ήχου, κείμενα που μπορούν να εντοπισθούν στις εικόνες, καθώς και λέξεις που μπορούν να ανιχνευθούν από τον ήχο. Η διαδικασία ανάλυσης εμπλέκει συνήθως την κατάτμηση του εγγράφου σε αυτόνομες ενότητες με σημασιολογικό περιεχόμενο, την ταξινόμηση κάθε ενότητας σε μία προκαθορισμένη κατηγορία σκηνής, την αυτόματη εξαγωγή περίληψης και τη δεικτοδότηση του εγγράφου για την πλοήγηση στο περιεχόμενό του και την αποτελεσματική ανάκληση πληροφορίας. Η δραστηριότητα της επιστημονικής κοινότητας, των διεθνών οργανισμών τυποποίησης και της βιομηχανίας είναι ιδιαίτερα έντονη προς την κατεύθυνση της δημιουργίας τεχνικών, προτύπων, προϊόντων και υπηρεσιών που θα διευκολύνουν ή ακόμη και θα αυτοματοποιήσουν τις διαδικασίες αυτές. Στο πλαίσιο της δραστηριότητας αυτής εντάσσεται και η πορεία του Εργαστηρίου Ψηφιακής Επεξεργασίας Εικόνας, Βίντεο και Πολυμέσων του Ε.Μ.Π., το οποίο υποστηρίζει επιστημονικά και τεχνολογικά την περιοχή της επεξεργασίας ακίνητων και κινούμενων εικόνων, καλύπτοντας θέματα σύλληψης, κωδικοποίησης, συμπίεσης, ανάλυσης, σύνθεσης, μετάδοσης, αποθήκευσης, ανακατασκευής, επίδειξης και διαχείρισης εικόνων, αναπτύσσοντας και διερευνώντας όλες τις εφαρμογές που άπτονται των θεμάτων αυτών. Πρόσφατα στο πλαίσιο της ερευνητικής εργασίας του εργαστηρίου εξετάζονται ζητήματα όπως η αυτόματη ανάλυση και κατανόηση βίντεο, η αναγνώριση προσώπων και ανθρώπινων εκφράσεων, καθώς και η μοντελοποίηση, ανάλυση και σύνθεση τρισδιάστατων σκηνών· τα πρακτικά αποτελέσματα των εργασιών αυτών εφαρμόζονται συνήθως στη σχεδίαση και υλοποίηση συστημάτων λογισμικού στο πλαίσιο ερευνητικών και αναπτυξιακών έργων για ε- vii viii Πρόλογος φαρμογές όπως η διαχείριση, ο χαρακτηρισμός, η αναζήτηση και η ανάκληση οπτικοακουστικών δεδομένων. Η παρούσα διδακτορική διατριβή εντάσσεται στο γενικότερο πλαίσιο δραστηριοτήτων του εργαστηρίου και έχει κεντρικό αντικείμενο την επεξεργασία και ανάλυση εικόνων και ακολουθιών εικόνων για το χαρακτηρισμό και τη δεικτοδότηση του οπτικού τους περιεχομένου. Η ανάλυση ακολουθιών εικόνων αντιμετωπίζει τις μεγαλύτερες δυσκολίες σε σχέση με άλλα μέσα όπως ο ήχος ή το κείμενο, κυρίως λόγω του τεράστιου όγκου πληροφορίας που περιέχεται. Το πρώτο στάδιο ανάλυσης περιλαμβάνει τον προσδιορισμό αντικειμένων με βάση το χρώμα, την κίνηση, καθώς και το πεδίο βάθους στην περίπτωση των στερεοσκοπικών ακολουθιών. Πραγματοποιείται αυτόματος χαρακτηρισμός του οπτικού περιεχομένου με υπολογισμό διανυσμάτων περιγραφής, που περιέχουν χαρακτηριστικά των αντικειμένων και χρησιμοποιούνται για αναζήτηση με βάση το περιεχόμενο, καθώς και για εξαγωγή περίληψης, με την αυτόματη επιλογή χαρακτηριστικών πλάνων και καρέ. Εξετάζεται επίσης το πρόβλημα της ανάλυσης, αναπαράστασης και κανονικοποίησης του περιγράμματος αντικειμένων με κύριο στόχο την αναζήτηση με βάση το σχήμα· τέλος παρουσιάζεται μία εφαρμογή στη συντακτική ανάλυση δελτίων ειδήσεων, που βασίζεται στην αυτόματη ανίχνευση ανθρώπινων προσώπων. Σε κάθε στάδιο επεξεργασίας ιδιαίτερη σημασία δόθηκε στην ανάπτυξη γρήγορων αλγορίθμων, αφού η υπολογιστική πολυπλοκότητα αποτελεί βασικό περιορισμό στην ανάλυση ακολουθιών εικόνων. Στο κείμενο της διατριβής έχει δοθεί έμφαση στην αναλυτική περιγραφή όλων των τεχνικών και του αναγκαίου τεχνικού υποβάθρου ­ ή στην παραπομπή σε άλλα συγγράμματα όπου αυτό δεν είναι δυνατό ­ ώστε να μην απαιτούνται εξειδικευμένες γνώσεις από τον αναγνώστη. Επίσης έχει καταβληθεί προσπάθεια ώστε η απόδοση των ξενόγλωσσων όρων στα Ελληνικά να είναι όσο το δυνατόν πιο ακριβής και να συμβαδίζει με την ορολογία άλλων συγγραφέων. Για την αποφυγή όμως οποιωνδήποτε παρερμηνειών, η Ελληνική απόδοση συνοδεύεται από την αντίστοιχη ξενόγλωσση κατά την πρώτη αναφορά κάθε όρου στο κείμενο της διατριβής. Το Ευρετήριο στο τέλος του συγγράμματος περιλαμβάνει ανεξάρτητη λίστα Ελληνικών και ξενόγλωσσων όρων. Ευχαριστίες Θα ήθελα να εκφράσω τις θερμές μου ευχαριστίες σε όλους όσους με βοήθησαν κατά τη διάρκεια της παρούσας διδακτορικής διατριβής, τα τελευταία τέσσερα χρόνια. Κατ’ αρχήν θα ήθελα να ευχαριστήσω τον επιβλέποντα Καθηγητή, κ. Στέφανο Κόλλια, για την πολύτιμη βοήθεια και υποστήριξή του, τόσο σε επιστημονικό, όσο και σε προσωπικό επίπεδο. Η συνεισφορά του στη διατριβή υπήρξε αποφασιστική, ενώ τα σχόλια και η εποικοδομητική κριτική του στο κείμενο της διατριβής βοήθησαν καθοριστικά στην ποιότητά της. Πάνω απ’ όλα όμως τον ευχαριστώ για την ελευθερία που μου άφησε στην ερευνητική κατεύθυνση της διατριβής και στην ανάπτυξη και αξιοποίηση νέων ιδεών. Θα ήθελα επίσης να ευχαριστήσω τους συναδέλφους μου στο Εργαστήριο Ψηφιακής Επεξεργασίας Εικόνας, Βίντεο και Πολυμέσων για τη βοήθειά τους στη δημιουργία ενός ευχάριστου περιβάλλοντος εργασίας, αλλά ιδιαίτερα εκείνους με τους οποίους συνεργάστηκα στο πλαίσιο της ερευνητικής μου εργασίας. Ειδικότερα είμαι υπόχρεος στο συνάδελφο Νίκο Τσαπατσούλη για την πολύτιμη προσφορά του στην εργασία που παρουσιάζεται στο τέταρτο μέρος της διατριβής, «Εφαρμογή στην Ανάλυση Δελτίων Ειδήσεων», καθώς και στο Γιάννη Ξηρουχάκη για τη σημαντική συμβολή του στην εργασία του τρίτου μέρους, «Περιγραφή Σχήματος Αντικειμένων». Επίσης θα ήθελα να εκφράσω την εκτίμησή μου προς τους συναδέλφους Τάσο Ντελόπουλο, Βασίλη Αλεξόπουλο, Γρηγόρη Παπαγεωργίου, Κώστα Καρπούζη, Νάσο Δροσόπουλο, Σπύρο Ιωάννου, Γιώργο Ακρίβα και Γαβριήλ Τσεχπενάκη για τις συνεργασίες που είχαμε κατά τη διάρκεια της διατριβής. Επιθυμώ να αναγνωρίσω τη συνεισφορά του Καθηγητή Chas Girdwood του Independent Television Commission (ITC), υπεύθυνο του έργου ACTS MIRAGE, ο οποίος προσέφερε το τηλεοπτικό πρόγραμμα "Eye to Eye" που χρησιμοποιήθηκε στην πειραματική αξιολόγηση των τεχνικών ανάλυσης στερεοσκοπικών ακολουθιών στο πρώτο και δεύτερο μέρος της διατριβής. Επίσης ευχαριστώ τον Dr. Michael Jones του Compaq Cambridge Research Laboratory (CRL) για την ευγενική παροχή άδειας χρήσης της ερευνητικής βάσης δεδομένων που χρησιμοποιήθηκε στα πειράματα ανίχνευσης προσώπων του τέταρτου μέρους. Οφείλω να εκφράσω τις βαθύτατες ευχαριστίες μου στη φίλη μου Όλγα Κουκλάκη για την ηθική υποστήριξη και τη συνεχή ενθάρρυνση που μου παρείχε στη διεξαγωγή της ερευνητικής μου δραστηριότητας, καθώς και για την υπομονή που επέδειξε κατά τη διάρκεια συγγραφής της διατριβής. Τέλος, είμαι ευγνώμων προς την οικογένειά μου για την ανεκτίμητη συμπαράστασή της σε όλη τη διάρκεια των σπουδών μου. Χωρίς την πολύπλευρη βοήθειά της η ολοκλήρωση της διδακτορικής διατριβής δε θα ήταν δυνατή. ix Εισαγωγή Στην εισαγωγή της διατριβής παρουσιάζεται αρχικά το ερευνητικό της αντικείμενο, οι πρόσφατες εξελίξεις και οι ανάγκες που προκύπτουν από αυτές. Στη συνέχεια πραγματοποιείται ανασκόπηση της πρόσφατης βιβλιογραφίας, αναφέρονται συνοπτικά οι υφιστάμενες εργασίες που σχετίζονται με τη διατριβή και τονίζονται οι ιδιαιτερότητες και τα μειονεκτήματα ορισμένων τεχνικών που οδηγούν στην ανάγκη βελτίωσής τους ή ανάπτυξης νέων. Ακολουθεί περιληπτική περιγραφή των τεχνικών που προτείνονται στο πλαίσιο της διατριβής, καθώς και ανάλυση της συνεισφοράς της διατριβής με αναφορές στις δημοσιεύσεις του συγγραφέα που σχετίζονται με κάθε προτεινόμενη τεχνική. Τέλος αναλύεται η δομή του συγγράμματος σε Μέρη και Κεφάλαια. 1. ΕΡΕΥΝΗΤΙΚΟ ΑΝΤΙΚΕΙΜΕΝΟ σβαση σε βάσεις δεδομένων πολυμέσων. Όλο και περισσότερη οπτικοακουστική πληροφορία γίνεται διαθέσιμη σε διάφορες μορφές ψηφιακών ή αναλογικών μέσων, όπως ακίνητες εικόνες, βίντεο, γραφικά, συνθετικά τρισδιάστατα μοντέλα, κείμενο, ήχος και ομιλία. Η εξάπλωση της χρήσης οπτικοακουστικού υλικού είναι ιδιαίτερα έντονη σε περιβάλλοντα ενημέρωσης, εκπαίδευσης, διασκέδασης, ιατρικής και τηλεπικοινωνιακών υπηρεσιών. Από την άλλη μεριά, σε ένα μεγάλο αριθμό εφαρμογών, όπως για παράδειγμα η αναγνώριση και κατανόηση εικόνων, η μετατροπή μέσων, η ανάκληση ή το φιλτράρισμα πληροφορίας, η οπτικοακουστική πληροφορία παράγεται, αποθηκεύεται, μεταδίδεται, αναζητείται και επαναχρησιμοποιείται από υπολογιστικά συστήματα. Ως συνέπεια, η ανάπτυξη νέων εργαλείων για το χαρακτηρισμό (annotation), τη δεικτοδότηση (indexing), την εξαγωγή περίληψης (summarization), την προεπισκόπηση (preview), την πλοήγηση (browsing), την αναζήτηση (search) και την ανάκληση με βάση το περιεχόμενο (content-based retrieval) έχει προσελκύσει αυξημένο ενδιαφέρον. Η σημασία των εργαλείων αυτών είναι ακόμη μεγαλύτερη για την πλοήγηση σε βάσεις δεδομένων ψηφιακού βίντεο, και ιδιαίτερα στην περίπτωση που το υλικό είναι κατανεμημένο σε απομακρυσμένες πλατφόρμες, λόγω του τεράστιου όγκου οπτικοακουστικής πληροφορίας και των αντίστοιχων απαιτήσεων χωρητικότητας αποθήκευσης και εύρους ζώνης μετάδοσης που αυτός επιβάλλει. Παραδοσιακά, μία ακολουθία εικόνων, ή ακολουθία βίντεο, είτε σε ψηφιακή είτε σε αναλογική μορφή, αναπαρίσταται από ένα μεγάλο αριθμό διαδοχικών καρέ (frames), κάθε ένα από τα οποία είναι μία εικόνα και αντιστοιχεί σε μία δεδομένη χρονική στιγμή. Όμως αυτή η αναπαράσταση ακολουθιών εικόνων, που πηγάζει από τη διαδικασία αναλογικής αποθήκευσης, οδηγεί σε γραμμική (ακολουθιακή) πρόσβαση στο περιεχόμενο [150]. Παρόλο που η προσέγγιση αυτή είναι επαρκής για την εποπτική παρακολούθηση βί- Η ραγδαία ανάπτυξη των εφαρμογών πολυμέσων τα τελευταία χρόνια έχει προκαλέσει μία ανάλογη ζήτηση για αποτελεσματική αποθήκευση, διαχείριση, μετάδοση και πρό- 1 2 Εισαγωγή ντεο [62], έχει σημαντικούς περιορισμούς για τις νέες εφαρμογές πλοήγησης, δεικτοδότησης και αναζήτησης με βάση το περιεχόμενο. Ο μόνος τρόπος πλοήγησης σε μία ακολουθία εικόνων με την αναπαράσταση αυτή είναι η ακολουθιακή ανίχνευση όλων των διαθέσιμων καρέ, μια διαδικασία εξαιρετικά χρονοβόρα και αναποτελεσματική. Επιπλέον, η εκτέλεση αναζητήσεων σε ολόκληρο το οπτικοακουστικό υλικό είναι ανεπαρκής, λόγω της χρονικής συσχέτισης του οπτικού περιεχομένου και επομένως της πλεονάζουσας πληροφορίας [14]. Η ακολουθιακή αναπαράσταση είναι επίσης ανεπαρκής για τη διαχείριση μεγάλων αρχείων βίντεο, δεδομένου μάλιστα ότι καθημερινά παράγεται μεγάλος όγκος νέου οπτικοακουστικού υλικού που αρχειοθετείται· τα υφιστάμενα εργαλεία και αλγόριθμοι για αποτελεσματική οργάνωση και διαχείριση τέτοιων αρχείων είναι ακόμη περιορισμένα. Η ερευνητική εργασία στο αντικείμενο της δεικτοδότησης με βάση το περιεχόμενο σε βάσεις δεδομένων εικόνων ή βίντεο είναι έντονη, όπως αντικατοπτρίζεται σε δημοσιεύσεις σε πολυάριθμα συνέδρια και αφιερώματα σε κορυφαία περιοδικά του χώρου, όπως για παράδειγμα τα [2,59,121,122,123]. Η προσπάθεια που γίνεται στο πλαίσιο της διαδικασίας προτυποποίησης MPEG είναι επίσης χαρακτηριστική της ανάγκης ανάπτυξης νέων τεχνικών αναπαράστασης. Συγκεκριμένα, προγενέστερα πρότυπα κωδικοποίησης και συμπίεσης βίντεο, όπως τα MPEG-1/2 [63,64] και H.261/3 [24,68], κάθε ένα από τα οποία σχετίζεται με διαφορετικές εφαρμογές και έχει διαφορετικές απαιτήσεις χωρητικότητας αποθήκευσης και ταχύτητας μετάδοσης, αποτέλεσαν κλειδί για την εξάπλωση των οπτικοακουστικών εφαρμογών. Στο πρόσφατο πρότυπο MPEG-4 [65,117] δόθηκε έμφαση στην αποδοτική κωδικοποίηση οπτικοακουστικού υλικού με βάση τα αντικείμενα. Για πρώτη φορά στο πρότυπο αυτό δίνεται η δυνατότητα κωδικοποίησης και αναπαράστασης σε ανεξάρτητα επίπεδα αντικειμένων βίντεο (video object planes, VOPs), δίνοντας νέες διαστάσεις στη δημιουργία, στην πρόσβαση και στη διαχείριση (manipulation) του οπτικοακουστικού υλικού [27]. Επιπλέον, το αναπτυσσόμενο πρότυπο MPEG-7 [67] έχει βασικό στόχο την ανάπτυξη ενός ολοκληρωμένου πλαισίου για την περιγραφή υλικού πολυμέσων (multimedia content description) με τον προσδιορισμό ενός συνόλου από περιγραφείς οι οποίοι μπορούν να χρησιμοποιηθούν για την αναπαράσταση οποιουδήποτε τύπου πληροφορίας πολυμέσων [79,105]. Παράλληλα έχει αναπτυχθεί ένας αριθμός από πρωτότυπα υπολογιστικά συστήματα τα οποία παρέχουν τη δυνατότητα αναζήτησης και ανάκλησης με βάση το περιεχόμενο. Κάποια από αυτά τα συστήματα, συμπεριλαμβανομένων για παράδειγμα των Virage [52], QBIC [41], VisualSEEk [119], Photobook [99], MARS [106], Netra [82], και VideoQ [25], έχουν χρησιμοποιηθεί πειραματικά με επιτυχία τα τελευταία χρόνια και βρίσκονται ήδη στο στάδιο της εμπορικής εκμετάλλευσης. Στις περισσότερες περιπτώσεις, η πληροφορία του οπτικού περιεχομένου εξάγεται μέσω της κατάτμησης και μοντελοποίησης των αντικειμένων, και της επακόλουθης εξαγωγής χαμηλού επιπέδου χαρακτηριστικών των αντικειμένων όπως το χρώμα, η κίνηση, η υφή, το σχήμα, καθώς και η χρονική και χωρική συσχέτιση μεταξύ των αντικειμένων [1,8]. Η εμπειρία που αποκτήθηκε από τη χρήση τέτοιων συστημάτων δεικτοδότησης και ανάκλησης με βάση το περιεχόμενο δείχνει ξεκάθαρα ότι είναι απαραίτητη η ανάπτυξη νέων μορφών αναπαράστασης της οπτικοακουστικής πληροφορίας οι οποίες να ξεπερνούν την απλή αναπαράσταση των συμπιεσμένων ή ασυμπίεστων καρέ, ή ακόμη και την αναπαράσταση του MPEG-4 που βασίζεται στα αντικείμενα. Για το λόγο αυτό, ένα αναπόσπαστο τμήμα της Εισαγωγή 3 διαδικασίας προτυποποίησης MPEG-7 είναι ο καθορισμός ενός συνόλου από Περιγραφείς (Descriptors, D) και Σχήματα Περιγραφής (Description Schemes, DS) πληροφορίας πολυμέσων σε μία ειδική γλώσσα, τη Γλώσσα Ορισμού Περιγραφής (Description Definition Language, DDL) [66]. Παρά το γεγονός ότι οι περιγραφείς αυτοί δεν εξαρτώνται από το τρόπο με τον οποίο το οπτικοακουστικό υλικό παράγεται, κωδικοποιείται, αποθηκεύεται ή χρησιμοποιείται, κλειδί για τα μελλοντικά συστήματα πολυμέσων θα αποτελέσει ο βαθμός στον οποίο υψηλού επιπέδου σημασιολογική πληροφορία θα μπορεί να εξαχθεί αυτόματα για την επιτάχυνση της διαδικασίας χαρακτηρισμού. Πρέπει επίσης να τονιστεί ότι τα περισσότερα από τα υφιστάμενα συστήματα δεικτοδότησης και ανάκλησης με βάση το περιεχόμενο περιορίζονται στις ακίνητες εικόνες, ενώ η επέκτασή τους για τη διαχείριση βάσεων δεδομένων βίντεο δεν είναι απλή, καθώς η εκτέλεση αναζήτησης σε κάθε καρέ μιας ακολουθίας βίντεο είναι χρονοβόρα και αναποτελεσματική. Οι απαιτήσεις αποθήκευσης του ψηφιοποιημένου οπτικοακουστικού υλικού, ακόμη και αν το υλικό είναι συμπιεσμένο, είναι πολύ μεγάλες και αντιμετωπίζονται με δυσκολία από τα περισσότερα υπολογιστικά συστήματα. Η κατάσταση χειροτερεύει όταν οι βάσεις δεδομένων είναι κατανεμημένες σε απομακρυσμένες πλατφόρμες, επιβάλλοντας υψηλές απαιτήσεις ως προς το εύρος ζώνης μετάδοσης. Γι’ αυτό το λόγο, πέρα από την ανάπτυξη αλγορίθμων για την αποτελεσματική σχεδίαση δικτύου μέσω της μοντελοποίησης των πηγών βίντεο, θα πρέπει επίσης να υλοποιηθούν νέες μέθοδοι για την αναπαράσταση του οπτικού περιεχομένου. Παρά το γεγονός ότι η συντριπτική πλειοψηφία των αρχείων βίντεο αποτελείται από διδιάστατες (2-Δ) ακολουθίες, η χρήση τρισδιάστατων (3-Δ) ακολουθιών βίντεο, οι οποίες συνήθως προέρχονται από στερεοσκοπικά συστήματα κάμερας, έχει αυξηθεί σημαντικά αφού οι ακολουθίες αυτές παρέχουν καλύτερη αναπαράσταση του οπτικού περιεχομένου και βελτιώνουν την επικοινωνία πολυμέσων. Οι τρισδιάστατες ακολουθίες επιτρέπουν τη αποδοτικότερη διαχείριση των αντικειμένων με την εκμετάλλευση της πληροφορίας βάθους που προκύπτει από τη στερεοσκοπική ανάλυση. Επιπλέον, το πρόβλημα της κατάτμησης σε αντικείμενα αντιμετωπίζεται με μεγαλύτερη ακρίβεια, αφού τα αντικείμενα αποτελούνται συνήθως από περιοχές εικόνας που ανήκουν στο ίδιο επίπεδο βάθους [44]. Ένας μεγάλος αριθμός εφαρμογών, όπως για παράδειγμα η αυτόνομη επιτήρηση (surveillance), η δεικτοδότηση, η ανάκληση και η διαχείριση οπτικοακουστικού υλικού, μπορούν να ωφεληθούν από την τρισδιάστατη αναπαράσταση. Γι’ αυτό το λόγο συσκευές σύλληψης 3-Δ δεδομένων, στερεοσκοπικά συστήματα κάμερας και συστήματα τρισδιάστατης απεικόνισης έχουν παρουσιάσει σημαντική ανάπτυξη και διάδοση, και συνεπώς τα αρχεία τρισδιάστατου βίντεο αναμένεται να αυξηθούν με ταχείς ρυθμούς τα επόμενα χρόνια. Μια πηγή οπτικοακουστικού υλικού στην οποία η δεικτοδότηση με βάση το περιεχόμενο αποκτά ιδιαίτερη σημασία είναι τα ψηφιακά αρχεία τηλεοπτικών δελτίων ειδήσεων, για δύο κυρίως λόγους. Πρώτον, η τυπική οργάνωσή τους σε θεματικές ενότητες που περιλαμβάνουν επαναλαμβανόμενη εμφάνιση παρουσιαστών, ρεπορτάζ και εξωτερικών λήψεων, επιτρέπει εύκολη συντακτική ανάλυση (parsing) [152], δηλαδή χρονική κατάτμηση σε στοιχειώδεις ενότητες. Δεύτερον, συστήματα πλήρως αυτοματοποιημένης δεικτοδότησης και χαρακτηρισμού δελτίων ειδήσεων θα είναι πολύτιμα για τους αναλυτές δεδομένων σε πρακτορεία ειδήσεων, δημοσιογραφικούς οργανισμούς, κρατικές υπηρεσίες, τηλεοπτικούς παραγωγούς και υπηρεσίες παροχής πληροφοριών [87], καθώς για το σκοπό αυτό χρησιμοποιούνται παραδοσιακά χειρονα- 4 Εισαγωγή κτικές μέθοδοι με υψηλό κόστος. Για τους παραπάνω λόγους στο πλαίσιο της διατριβής εξετάζεται η αυτόματη συντακτική ανάλυση δελτίων ειδήσεων με βάση την οπτική πληροφορία. 2. ΥΠΑΡΧΟΥΣΑ ΚΑΤΑΣΤΑΣΗ ­ ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ Για την αντιμετώπιση του μεγάλου όγκου πληροφορίας που εμπλέκεται στις ακολουθίες βίντεο μία αποτελεσματική τεχνική είναι η εξαγωγή περίληψης (summarization), δηλαδή η εξαγωγή μιας περιορισμένης ποσότητας πληροφορίας, η οποία όμως περιγράφει ικανοποιητικά το οπτικό περιεχόμενο των ακολουθιών. Κάποιες τεχνικές [97,149] προσανατολίζονται στην ανίχνευση αλλαγής πλάνων· μπορούν επομένως να χρησιμοποιηθούν ως ένα πρώτο στάδιο αλγορίθμων εξαγωγής περίληψης. Στην εργασία [89] έχει προταθεί η αναπαράσταση μιας ακολουθίας βίντεο με βάση την εξαγωγή καρέ σε ομοιόμορφα χρονικά διαστήματα. Ο προτεινόμενος αλγόριθμος όμως δεν εκμεταλλεύεται ούτε την πληροφορία των πλάνων ούτε την οπτική ομοιότητα των καρέ. Έτσι μπορεί να σημειωθεί απώλεια σημαντικών πλάνων μικρής διάρκειας, ενώ αντίθετα πλάνα με μεγάλη διάρκεια μπορούν να αντιπροσωπεύονται από πολλαπλά καρέ παρόμοιου περιεχομένου, εισάγοντας πλεονάζουσα πληροφορία. Η εκμετάλλευση της πληροφορίας των πλάνων και η επιλογή ενός καρέ για την αναπαράσταση κάθε πλάνου έχει προταθεί στις εργασίες [5,120]. Όμως η επιλογή ενός και μόνο καρέ δε μπορεί πάντα να παρέχει επαρκή πληροφορία για το οπτικό περιεχόμενο ενός πλάνου, ιδιαίτερα για τα πλάνα μεγάλης διάρκειας. Πρόσφατα έχουν παρουσιασθεί κάποιες άλλες τεχνικές [62,137] οι οποίες βασίζονται στην κατασκευή μίας συμπαγούς αναπαράστασης πλάνων ή ενός μωσαϊκού εικόνων (image mosaic). Συγκεκριμένα, στην εργασία [62] όλα τα καρέ ενός πλάνου ευθυγραμμίζονται σε σχέση με το επικρατέστερο αντικείμενο, ενώ στην [137] απεικονίζεται μία πανοραμική άποψη των καρέ σε ένα «μωσαϊκό». Παρά το γεγονός ότι μια τέτοια αναπαράσταση μπορεί να είναι πολύ αποτελεσματική για συγκεκριμένες εφαρμογές, όπως για παράδειγμα αθλητικά προγράμματα ή εσωτερικές παραγωγές, δεν μπορεί να εφαρμοσθεί σε πραγματικά πλάνα σύνθετου περιεχομένου στα οποία εμπλέκονται ταυτόχρονες μεταβολές του φόντου (background) και των αντικειμένων στο προσκήνιο (foreground) ή πολύπλοκες κινήσεις κάμερας. Μία μέθοδος για την ανάλυση βίντεο και την κατασκευή μιας εικονικής περίληψης για την οπτική αναπαράσταση του περιεχομένου έχει προταθεί στην εργασία [150]. Η εργασία αυτή επικεντρώνεται στην διαμέριση μιας ακολουθίας βίντεο σε διαδοχικά τμήματα (θεματικές ενότητες, story units) και στη συνέχεια στην κατασκευή ενός "poster" για κάθε θεματική ενότητα, το οποίο βασίζεται στο περιεχόμενο των αντίστοιχων πλάνων· έτσι δεν επιλέγονται κάποια καρέ από κάθε πλάνο. Μία εναλλακτική μέθοδος εξαγωγής περίληψης βασίζεται στην επιλογή πολλαπλών καρέ [149] σε χρονικές στιγμές όπου το συσσωρευτικό άθροισμα ενός μέτρου απόστασης καρέ ξεπερνά ένα προκαθορισμένο κατώφλι· η αυθαίρετη επιλογή του κατωφλίου όμως επιβάλει σημαντικούς περιορισμούς στην τεχνική αυτή. Άλλες προσεγγίσεις για τη δεικτοδότηση βίντεο μέσω εξαγωγής περίληψης περιλαμβάνονται στις εργασίες [26,58,94]. Όσον αφορά στην αναζήτηση και ανάκληση οπτικοακουστικού υλικού, έχει παρατηρηθεί ότι ο παραδοσιακός χαρακτηρισμός με λέξεις-κλειδιά (keyword annotation) έχει το μειονέκτημα ότι, πέρα από τη χειρονακτική εργασία που απαιτείται για το χαρακτηρισμό, το πλούσιο περιεχόμενο των εικόνων και του βίντεο δε μπορεί να περιγραφεί αποτελεσματικά με χρήση Εισαγωγή 5 κειμένου μόνο [26,107]. Επιπλέον, όσο το μέγεθος των αρχείων βίντεο αυξάνει, η αναζήτηση με βάση το κείμενο γίνεται ανέφικτη, καθώς το οπτικό περιεχόμενο ερμηνεύεται διαφορετικά από κάθε σύστημα δεικτοδότησης [107]. Γι’ αυτό το λόγο προτείνεται η αναζήτηση με βάση το οπτικό περιεχόμενο, δηλαδή χαρακτηριστικά όπως το χρώμα, η υφή, η κίνηση ή το σχήμα. Η προσέγγιση αυτή παρέχει καλύτερη οργάνωση και διαχείριση του υλικού, αφού η διαδικασία χαρακτηρισμού είναι αυτόματη. Η ανάκληση στατικών έγχρωμων εικόνων με χρήση μοντέλων Markov έχει εξετασθεί στην εργασία [80], ενώ στην [19] έχει παρουσιασθεί μία προσέγγιση ανάκλησης μέσω σχεδιαγράμματος. Στην εργασία [138] έχει προταθεί μία μέθοδος ιεραρχικής ομαδοποίησης χρωμάτων για ανάκληση ακίνητων εικόνων με βάση το περιεχόμενο. Αντίστοιχα ένας μηχανισμός αναζήτησης σε βάσεις δεδομένων εικόνων με βάση το σχήμα έχει αναλυθεί στην εργασία [29], η οποία χρησιμοποιεί μία μέθοδο εμπνευσμένη από τις παραμορφώσεις μηχανικών συστημάτων. Όσον αφορά στην ανάκληση βίντεο, στην εργασία [94] έχει προταθεί μία μέθοδος ανάλυσης με τρισδιάστατα wavelets η οποία είναι χρήσιμη για προοδευτική δεικτοδότηση κίνησης. Μία τεχνική αυτόματης κατάτμησης και ανάκλησης με βάση την ανάλυση PCA (principal component analysis) σε ακολουθίες που έχουν υποστεί υποδειγματοληψία έχει αναφερθεί στην εργασία [53], ενώ η μοντελοποίηση και κατάτμηση σε αντικείμενα έχει εξετασθεί στην εργασία [45]. Ο χαρακτηρισμός του οπτικού περιεχομένου για σκοπούς δεικτοδότησης βασίζεται συνήθως σε χαμηλού επιπέδου χαρακτηριστικά όπως το χρώμα, η κίνηση, η υφή και το σχήμα. Πρόσφατα η χρήση του σχήματος του περιγράμματος αντικειμένων έχει αποκτήσει ιδιαίτερη σημασία για δύο λόγους: πρώτον, διότι παρέχει ένα ισχυρό εργαλείο για αναζήτηση και ανάκληση εικόνων με βάση το περιεχόμενο, χρησιμοποιώντας ένα μηχανισμό αναζήτησης μέσω σχεδιαγράμματος / σκίτσου [19], και δεύτερον, διότι στις τεχνικές κωδικοποίησης δεύτερης γενιάς, που βασίζονται στα αντικείμενα [110,128], η πληροφορία σχήματος ενσωματώνεται στα επίπεδα αντικειμένων με τη μορφή δυαδικής εικόνας (μάσκας) και μπορεί να χρησιμοποιηθεί για την πρόβλεψη ή χρονική παρεμβολή των τμημάτων μιας ακολουθίας [84]. Για την περιγραφή του σχήματος έχουν προταθεί πολυάριθμες τεχνικές στη βιβλιογραφία, όπως για παράδειγμα οι περιγραφείς Fourier [100], οι τροποποιημένοι περιγραφείς Fourier [108], η αυτόματη ανίχνευση σημείων ενδιαφέροντος [113], και οι αναλλοίωτες ποσότητες που βασίζονται στις ροπές [17], στο κυρτό περίβλημα [148] και στα έμμεσα πολυώνυμα [103]. Για την αντιμετώπιση των πιθανών μετασχηματισμών έχει προταθεί η μέθοδος της κανονικοποίησης για τον προσδιορισμό αναλλοίωτων ποσοτήτων στις εργασίες [104,115,126]. Επίσης για το ταίριασμα καμπυλών έχουν προταθεί τεχνικές όπως τα παραμορφούμενα πρότυπα [19,69] και τα μοντέλα ενεργών περιγραμμάτων [77]. Για την ανάλυση δελτίων ειδήσεων έχει αναπτυχθεί πρόσφατα σημαντικός αριθμός προτύπων συστημάτων που επιτρέπουν την αυτόματη ή ημι-αυτόματη ανάλυση και χαρακτηρισμό [22,86,93,152]. Τέτοια συστήματα καθιστούν δυνατή την πλοήγηση ειδήσεων με αλληλεπίδραση του χρήστη, την αναζήτηση με βάση το περιεχόμενο, καθώς και τη δημιουργία εφαρμογών ειδήσεων κατ’ απαίτηση (news on demand, NoD). Τα περισσότερα απ’ αυτά όμως βασίζονται σχεδόν αποκλειστικά σε γλωσσική πληροφορία (linguistic cues) και πληροφορία κειμένου (textual cues) που είναι διαθέσιμη από την παραγωγή των δελτίων. Είναι όμως κοινά αποδεκτό ότι η οπτικοακουστική πληροφορία θα πρέπει να διαδραματίσει σημαντικότερο ρόλο στο μέλλον [134], ενώ η ενσωμάτωση όλων των πληροφοριών περιεχομένου σε μια ενιαία πε- 6 Εισαγωγή ριγραφή για τη σημασιολογική κατάτμηση των ειδήσεων θα απαιτήσει μεθόδους τεχνητής νοημοσύνης. 3. ΠΕΡΙΓΡΑΦΗ ΠΡΟΤΕΙΝΟΜΕΝΩΝ ΤΕΧΝΙΚΩΝ Στο πλαίσιο της διατριβής παρουσιάζεται ένας αριθμός προηγμένων τεχνικών για την αντιμετώπιση των προβλημάτων του αυτόματου χαρακτηρισμού, της δεικτοδότησης, της εξαγωγής περίληψης, της προεπισκόπησης και της αναζήτησης με βάση το περιεχόμενο σε βάσεις δεδομένων με εικόνες ακολουθίες βίντεο. Επίσης προτείνεται μία αποτελεσματική μέθοδος αναπαράστασης του σχήματος των αντικειμένων για ανάκληση με βάση το σχήμα και εφαρμόζεται η χρήση τεχνικών ανάλυσης οπτικού περιεχομένου σε ακολουθίες τηλεοπτικών δελτίων ειδήσεων. Ανάλυση σε Αντικείμενα Στο πρώτο στάδιο ανάλυσης πραγματοποιείται εντοπισμός των αντικειμένων σε εικόνες ή ακολουθίες εικόνων και εξαγωγή χαρακτηριστικών χαμηλού επιπέδου από τα αντικείμενα αυτά. Ακολουθείται η τεχνική της κατάτμησης εικόνων με βάση ένα κριτήριο ομοιομορφίας χαρακτηριστικών όπως το χρώμα, η κίνηση, η υφή, το σχήμα ή το πεδίο βάθους, έτσι ώστε κάθε τμήμα εικόνας που εξάγεται να αντιστοιχεί π.χ. σε περιοχή με ομοιόμορφο χρώμα. Για την κατάτμηση χρησιμοποιείται ο αλγόριθμος M-RSST που αποτελεί μια γρήγορη, πολυδιακριτική υλοποίηση του αλγορίθμου RSST και βασίζεται στην αναδρομική συγχώνευση περιοχών σε εικόνες διαδοχικών επιπέδων ανάλυσης. Ο αλγόριθμος αυτός εφαρμόζεται για κατάτμηση εικόνων με βάση το χρώμα και την κίνηση, ενώ στην ειδική περίπτωση των στερεοσκοπικών ακολουθιών, πραγματοποιείται ανίχνευση και εκμετάλλευση της πληροφορίας βάθους μέσω στερεοσκοπικής ανάλυσης, εκτίμησης του πεδίου απόκλισης και βάθους, καθώς και ανίχνευσης και αντιστάθμισης επικαλύψεων. Η κατάτμηση με βάση το πεδίο βάθους, η οποία υλοποιείται και πάλι με τον αλγόριθμο MRSST, δίνει μία πολύ καλή προσέγγιση των πραγματικών αντικειμένων που εμφανίζονται σε μία εικόνα, αφού τα τελευταία συνήθως αποτελούνται από περιοχές που βρίσκονται στο ίδιο επίπεδο βάθους. Όμως τα περιγράμματα των τμημάτων βάθους είναι αναξιόπιστα, ενώ αντίθετα η κατάτμηση με βάση το χρώμα δίνει ακριβή περιγράμματα αλλά συνήθως διαχωρίζει κάθε αντικείμενο σε περισσότερα από ένα τμήματα. Για το λόγο αυτό εισάγεται ένας αλγόριθμος συγχώνευσης των τμημάτων χρώματος με βάση την πληροφορία των τμημάτων βάθους. Έτσι οι δύο ανεξάρτητες κατατμήσεις συνδυάζονται και προσεγγίζονται ικανοποιητικά τα σημασιολογικά αντικείμενα μιας ακολουθίας. Η ίδια ακριβώς τεχνική μπορεί να χρησιμοποιηθεί για την συγχώνευση των τμημάτων χρώματος με τα τμήματα κίνησης. Χαρακτηρισμός, Εξαγωγή Περίληψης και Ανάκληση Η αναπαράσταση του οπτικού περιεχομένου εικόνων και ακολουθιών βίντεο πραγματοποιείται με τέτοιο τρόπο ώστε να επιτρέπεται η ενιαία περιγραφή όλων των διαθέσιμων χαρακτηριστικών και να διευκολύνονται οι συγκρίσεις εικόνων, καρέ ή πλάνων ακολουθιών. Χρησιμοποιούνται τα χαρακτηριστικά των τμημάτων που προκύπτουν από την κατάτμηση με βάση το χρώμα, την κίνηση και το πεδίο βάθους, περιλαμβάνοντας για παράδειγμα τη θέση, το μέγεθος, τις χρωματικές συνιστώσες, το μέσο διάνυσμα κίνησης και το βάθος του κάθε τμήματος. Εισαγωγή 7 Τα χαρακτηριστικά αυτά συνδυάζονται για την κατασκευή διανυσμάτων περιγραφής, τα οποία έχουν τη μορφή πολυδιάστατων ασαφών ιστογραμμάτων. Για την εξαγωγή περίληψης ακολουθείται διαμέριση μιας ακολουθίας βίντεο σε διαδοχικά πλάνα, επιλογή ορισμένων αντιπροσωπευτικών ή χαρακτηριστικών πλάνων (representative shots) και στη συνέχεια η εξαγωγή ενός περιορισμένου αριθμού χαρακτηριστικών καρέ (key frames) από τα επιλεγμένα πλάνα. Η επιλογή είναι ουσιαστικά μια διαδικασία δειγματοληψίας με βάση το περιεχόμενο (content-based sampling) [114]. Για την επιλογή χαρακτηριστικών καρέ προτείνονται δύο διαφορετικές μέθοδοι: η μέθοδος χρονικής μεταβολής που βασίζεται στην επιλογή ακρότατων σημείων της τροχιάς του διανύσματος περιγραφής, και η μέθοδος συσχέτισης που βασίζεται στην ελαχιστοποίηση ενός κριτηρίου συσχέτισης μεταξύ των διανυσμάτων περιγραφής. Λόγω της πολυπλοκότητας της μεθόδου συσχέτισης, προτείνονται δύο εναλλακτικές τεχνικές ταχείας υλοποίησης, και συγκεκριμένα λογαριθμική αναζήτηση και γενετικός αλγόριθμος. Η προτεινόμενη επιλογή χαρακτηριστικών πλάνων και καρέ επιτρέπει εύκολη και ταχεία πλοήγηση σε μεγάλες βάσεις δεδομένων οπτικοακουστικού υλικού και αποτελεί ισχυρό εργαλείο εξαγωγής περίληψης και προεπισκόπησης. Για παράδειγμα, έχει παρατηρηθεί στην εργασία [150] ότι μία ακολουθία βίντεο διάρκειας 30 λεπτών αποτελείται συνήθως από 200 πλάνα. Επομένως, επιλέγοντας κατά μέσο όρο πέντε χαρακτηριστικά καρέ από κάθε πλάνο, απαιτούνται μόνο 1,000 από τα 45,000 συνολικά καρέ για την αναπαράσταση του οπτικού περιεχομένου. Επιπλέον, όσον αφορά στην αναζήτηση με βάση το περιεχόμενο, αντί για την εκτέλεση αναζήτησης σε όλα τα διαθέσιμα καρέ μιας ακολουθίας, μπορεί κανείς να θεωρήσει μόνο τα επιλεγμένα χαρακτηριστικά καρέ. Έτσι η αναζήτηση και ανάκληση πραγματοποιείται ταχύτερα και αποδοτικότερα, αφού η πλεονάζουσα πληροφορία απορρίπτεται. Για το πρόβλημα της γενικευμένης αναζήτησης και ανάκλησης εικόνων και ακολουθιών με βάση το περιεχόμενο προτείνονται δύο εναλλακτικοί μηχανισμοί αναζήτησης, μέσω παραδείγματος και μέσω σχεδιαγράμματος, ενώ και στις δύο περιπτώσεις υιοθετείται μία τεχνική ανάδρασης από το χρήστη, η οποία καθιστά την αναζήτηση μία διαδικασία αλληλεπίδρασης μεταξύ ανθρώπου και υπολογιστικού συστήματος. Με αυτό τον τρόπο ο χρήστης απαλλάσσεται από το βάρος της επιλογής παραμέτρων ή της κατανόησης χαρακτηριστικών και αναπαραστάσεων χαμηλού επιπέδου· παράλληλα το υπολογιστικό σύστημα εφοδιάζεται με ένα εργαλείο για την αυτόματη αντιστοίχιση των χαρακτηριστικών χαμηλού επιπέδου σε υψηλού επιπέδου προδιαγραφές αναζήτησης, καθώς και για την αντιμετώπιση της υποκειμενικότητας με την οποία ο χρήστης καθορίζει τις προδιαγραφές αυτές. Περιγραφή Σχήματος Για την περιγραφή του περιγράμματος αντικειμένων, στο πλαίσιο της διατριβής προτείνεται μία μέθοδος κανονικοποίησης η οποία παρέχει περιγραφή αναλλοίωτη σε affine μετασχηματισμούς (affine-invariant) καθώς και μετασχηματισμούς παραμέτρου, χωρίς ταυτόχρονα να παρουσιάζει καμία απώλεια πληροφορίας σχήματος. Οι καμπύλες που αναπαριστούν τα περιγράμματα μοντελοποιούνται αρχικά με B-Splines· στη συνέχεια πραγματοποιείται σταδιακή κανονικοποίηση ως προς τους μετασχηματισμούς μετατόπισης, αλλαγής κλίμακας, κλίσης (skew), σημείου αναφοράς, περιστροφής, κατοπτρισμού και φοράς διαγραφής. Η κανονικοποίηση είναι ένας γραμμικός μετασχηματισμός που πραγματοποιείται με χρήση πληροφορίας όπως οι ροπές μέχρι δευτέρου βαθμού και ο μετασχηματισμός Fourier κάθε καμπύλης. 8 Εισαγωγή Η προτεινόμενη μέθοδος κανονικοποίησης μπορεί να εφαρμοσθεί ως ένα στάδιο προεπεξεργασίας σε οποιαδήποτε τεχνική αναπαράστασης, ταξινόμησης, αναγνώρισης ή ανάκλησης με βάση το σχήμα, αφού ουσιαστικά αποσυσχετίζει το πρόβλημα της affine-invariant περιγραφής από την εξαγωγή χαρακτηριστικών και το ταίριασμα με πρότυπα. Το υπολογιστικό κόστος είναι αμελητέο, σε σχέση τουλάχιστον με το κόστος άλλων σταδίων επεξεργασίας, όπως π.χ. της κατάτμησης. Έτσι είναι δυνατή η ενσωμάτωση της μεθόδου σε συστήματα πραγματικού χρόνου για ανάκληση εικόνων ή ακόμη και κωδικοποίηση βίντεο. Το πρόβλημα της ανάκλησης με βάση το σχήμα αντιμετωπίζεται με τη χρήση τριών απλών μέτρων ομοιότητας των κανονικοποιημένων περιγραμμάτων, ενώ εξετάζεται και το συναφές πρόβλημα της ταξινόμησης σχημάτων σε προκαθορισμένες κατηγορίες, το οποίο αντιμετωπίζεται με χρήση νευρωνικού δικτύου. Ανάλυση Δελτίων Ειδήσεων Τέλος προτείνεται η εφαρμογή τεχνικών αυτόματης ανάλυσης βίντεο στην ειδική περίπτωση των τηλεοπτικών δελτίων ειδήσεων. Επειδή το επικρατέστερο τμήμα περιεχομένου των δελτίων ειδήσεων σχετίζεται με ανθρώπινες δραστηριότητες, οι εικόνες ανθρώπων και ιδιαίτερα προσώπων παίζουν σημαντικότατο ρόλο στην ανάλυση της δομής των δελτίων· έτσι η προτεινόμενη τεχνική στηρίζεται στην ανίχνευση προσώπων. Παρουσιάζεται μία πλήρως αυτοματοποιημένη διαδικασία ανίχνευσης και εντοπισμού προσώπων, η οποία αποτελείται από μία σειρά διαδοχικών σταδίων στα οποία ανιχνεύεται αρχικά το χρώμα του ανθρώπινου δέρματος και στη συνέχεια πραγματοποιείται κατάτμηση με βάση το χρώμα, συγχώνευση των τμημάτων δέρματος, ανάλυση του σχήματος των τμημάτων και επαλήθευση με χρήση μιας τεχνικής ταιριάσματος με πρότυπο προσώπου. Ο αξιόπιστος εντοπισμός ανθρώπινων προσώπων σε συνδυασμό με άλλα χαρακτηριστικά χρώματος και κίνησης σε μία ακολουθία δελτίων ειδήσεων χρησιμοποιείται για την ταξινόμηση των πλάνων της ακολουθίας σε προκαθορισμένες κατηγορίες, με χρήση ενός αριθμού απλών κανόνων. Με δεδομένο ότι στην τυπική οργάνωση των τηλεοπτικών ειδήσεων περιλαμβάνονται επαναλαμβανόμενες εμφανίσεις του παρουσιαστή εναλλάξ με άλλα είδη πλάνων, η ταξινόμηση αυτή οδηγεί άμεσα στη συντακτική ανάλυση, δηλαδή στη χρονική κατάτμηση των δελτίων σε στοιχειώδεις ενότητες ειδήσεων. Στη συνέχεια εξετάζεται η εφαρμογή των προτεινόμενων μεθόδων χαρακτηρισμού, δεικτοδότησης, εξαγωγής περίληψης, προεπισκόπησης και αναζήτησης με βάση το περιεχόμενο σε δελτία ειδήσεων, ενώ προτείνεται και ένας αριθμός από νέα σενάρια αναζήτησης που σχετίζονται με την ύπαρξη ανθρώπινων προσώπων, και συγκεκριμένα η αναζήτηση με βάση τα χαρακτηριστικά χρώματος, το μέγεθος και το πλήθος των προσώπων. Άλλες Εργασίες Αξίζει στο σημείο αυτό να αναφερθούν τρεις εργασίες του συγγραφέα που δημοσιεύθηκαν κατά τη διάρκεια της διδακτορικής διατριβής, οι οποίες όμως δεν εντάσσονται άμεσα στο ερευνητικό της αντικείμενο και γι’ αυτό δεν περιλαμβάνονται στο παρόν σύγγραμμα. Συγκεκριμένα, στην εργασία [133] πραγματοποιείται εντοπισμός προσώπων με τη μέθοδο ταιριάσματος με πρότυπο, ανίχνευση κίνησης, υπολογισμός του μετασχηματισμού Radon των διανυσμάτων κίνησης και κανονικοποίηση των καμπυλών που προκύπτουν με τελικό στόχο Εισαγωγή 9 τον αυτόματο χαρακτηρισμό ανθρώπινων εκφράσεων, η ταξινόμηση των οποίων πραγματοποιείται με νευρωνικό δίκτυο. Στην εργασία [6] παρουσιάζεται μία πολυδιακριτική υλοποίηση ασαφούς ταξινόμησης εικόνων με χρήση νευρωνικού δικτύου και εφαρμογή στην ταξινόμηση εικόνων δορυφόρου σε χερσαίες και θαλάσσιες περιοχές. Τέλος στην εργασία [7] προτείνεται μία πρωτότυπη τεχνική σχεδίασης συστημάτων ανακατασκευής εικόνων από αισθητήρες υπερήχων. Η τεχνική βασίζεται στην εκπομπή και λήψη σημάτων ευρείας ζώνης που προέρχονται από ψευδοτυχαίες ακολουθίες (pseudorandom sequences), όμοια με τις τεχνικές πολλαπλής προσπέλασης διαίρεσης κώδικα (code division multiple access, CDMA) που χρησιμοποιούνται στις τηλεπικοινωνίες, και επιτυγχάνει σημαντική βελτίωση στην ταχύτητα ανακατασκευής και στην ανάλυση των εικόνων. 4. ΣΥΝΕΙΣΦΟΡΑ ΔΙΑΤΡΙΒΗΣ Στο πλαίσιο της παρούσας διδακτορικής διατριβής χρησιμοποιούνται πολλοί γνωστοί αλγόριθμοι και τεχνικές. Σε πολλές περιπτώσεις προτείνονται νέες υλοποιήσεις που παρέχουν μικρότερο υπολογιστικό κόστος ή καλύτερα αποτελέσματα· σε άλλες πραγματοποιείται συνδυασμός υφιστάμενων τεχνικών ενώ τέλος πολλές από τις τεχνικές που προτείνονται είναι πρωτότυπες. Στην Ενότητα αυτή περιγράφεται λοιπόν η συνεισφορά του διατριβής στο ερευνητικό της πεδίο και επισημαίνονται οι δημοσιεύσεις του συγγραφέα που σχετίζονται με κάθε τεχνική. O προτεινόμενος αλγόριθμος κατάτμησης M-RSST αποτελεί νέα υλοποίηση του γνωστού αλγορίθμου RSST [91]. Πρόκειται για μια γρήγορη, πολυδιακριτική υλοποίηση που βασίζεται στην αναδρομική συγχώνευση περιοχών σε εικόνες διαδοχικών επιπέδων ανάλυσης. Παρέχει πολύ μικρότερους χρόνους εκτέλεσης, όπως αναφέρεται στα αντίστοιχα αποτελέσματα, ενώ ταυτόχρονα φιλτράρει τα αντικείμενα ως προς το μέγεθος και επιτυγχάνει καλύτερα αποτελέσματα σε περιπτώσεις πολύπλοκης υφής. Παρουσιάσθηκε για πρώτη φορά στην εργασία [35], η υλοποίησή του αναλύθηκε στην [8], ενώ χρησιμοποιήθηκε με επιτυχία για κατάτμηση και στις εργασίες [9,15,34,38,39,131]. Η στερεοσκοπική ανάλυση εικόνων για τη συσχέτιση του βάθους με την απόκλιση είναι γνωστή τεχνική [49], ενώ ο χρησιμοποιούμενος αλγόριθμος για των εκτίμηση πεδίου απόκλισης και βάθους αποτελεί παραλλαγή του αντίστοιχου αλγορίθμου των [135,136]. Η μέθοδος ανίχνευσης και αντιστάθμισης επικάλυψης βασίζεται σε μεγάλο βαθμό στην εργασία[50] και η συγχώνευση αντικειμένων είναι εμπνευσμένη από την εργασία [1], όπου όμως αναφέρεται συγχώνευση χρώματος και κίνησης μόνο, ενώ στο πλαίσιο της διατριβής πραγματοποιείται συγχώνευση χρώματος και βάθους. Όλες οι παραπάνω τεχνικές που εφαρμόζονται σε στερεοσκοπικές ακολουθίες προτάθηκαν στην εργασία [39] αλλά χρησιμοποιήθηκαν και στην [38]. Η μέθοδος αναπαράστασης οπτικού περιεχομένου με διανύσματα περιγραφής που προκύπτουν από ασαφή πολυδιάστατα ιστογράμματα είναι εξολοκλήρου πρωτότυπη· παρουσιάσθηκε για πρώτη φορά στην εργασία [32] και από τότε χρησιμοποιήθηκε για σκοπούς χαρακτηρισμού, εξαγωγής περίληψης και ανάκλησης στις εργασίες [13,14,33,36] και αργότερα στις [8,31,34,35,37,38,39]. Η εξαγωγή περίληψης μέσω ομαδοποίησης έχει ξαναχρησιμοποιηθεί [3,74], αλλά η επιλογή χαρακτηριστικών πλάνων μέσω ομαδοποίησης με τον αλγόριθμο 10 Εισαγωγή Lloyd-Max [46] προτάθηκε αρχικά στην εργασία [14] και χρησιμοποιήθηκε επίσης στις [31,33,36,39]. Η ιδέα της εξαγωγής χαρακτηριστικών καρέ έχει προταθεί παλαιότερα στην εργασία [5], ενώ η επιλογή τους με βάση τις ιδιότητες της πολυδιάστατης καμπύλης τροχιάς του διανύσματος περιγραφής έχει προταθεί στην [30]. Όμως στο πλαίσιο της διατριβής χρησιμοποιήθηκε για το σκοπό αυτό το μέτρο καμπυλότητας της τροχιάς· η τεχνική αυτή δημοσιεύθηκε αρχικά στην εργασία [32], ενώ χρησιμοποιήθηκε και στις [8,14]. Η τεχνική λογαριθμικής αναζήτησης για την υλοποίηση της μεθόδου συσχέτισης είναι πρωτότυπη, δημοσιεύθηκε για πρώτη φορά στην εργασία [36] και ξαναχρησιμοποιήθηκε στην [37], αλλά και στην [8] όπου γίνεται εκτεταμένη σύγκριση με την τεχνική του γενετικού αλγορίθμου. Η τελευταία είναι επίσης πρωτότυπη: η πρώτη της δημοσίευση έγινε στην εργασία [33] και στη συνέχεια λόγω των σημαντικών επιδόσεών της χρησιμοποιήθηκε σε πολλές ακόμη εργασίες [8,31,34,38,39]. Η ανάκληση μέσω παραδείγματος και σχεδιαγράμματος, καθώς και η τεχνική της ανάδρασης είναι γνωστές [106,107]. Όμως η προτεινόμενη στο πλαίσιο της διατριβής τεχνική ενημέρωσης παραμέτρων προτάθηκε για πρώτη φορά στην εργασία [13] και χρησιμοποιήθηκε επίσης στην [35]. Η ιδέα της κανονικοποίησης για την εξαγωγή αναλλοίωτων ποσοτήτων έχει παρουσιασθεί στην εργασία [104] και αξιοποιηθεί για την κανονικοποίηση εικόνων στην [115]. Όμως η προτεινόμενη τεχνική κανονικοποίησης για τη δημιουργία πλήρως αναλλοίωτης αναπαράστασης 2-Δ κλειστών καμπυλών σε affine μετασχηματισμούς καθώς και μετασχηματισμούς παραμέτρου χωρίς απώλεια πληροφορίας είναι εξολοκλήρου πρωτότυπη. Η αρχική ιδέα της κανονικοποίησης δημοσιεύθηκε για πρώτη φορά στην εργασία [11], και χρησιμοποιήθηκε ακόμη στην [10]. Οι ιδιότητές της και οι λεπτομέρειες υλοποίησής της παρουσιάσθηκαν στην [16] όπου χρησιμοποιήθηκε και για ανάκληση με βάση το σχήμα· αναλυτικότερη περιγραφή καθώς και αποδείξεις των σχετικών προτάσεων αναμένεται να δημοσιευθούν στην εργασία [12]. Η ταξινόμηση 2-Δ καμπυλών με χρήση B-Splines και νευρωνικού δικτύου παρουσιάσθηκε στις εργασίες [10,11,145]. Ο συνδυασμός ανίχνευσης χρώματος δέρματος, προσαρμογής του χρωματικού μοντέλου, κατάτμησης με βάση το χρώμα, συγχώνευσης τμημάτων δέρματος και ανάλυσης σχήματος για εντοπισμό ανθρώπινων προσώπων είναι πρωτότυπος, αν και οι επιμέρους τεχνικές έχουν ξαναχρησιμοποιηθεί. Δημοσιεύθηκε αρχικά στην εργασία [131], ενώ ο επιπλέον συνδυασμός με χαρακτηριστικά υφής στο στάδιο επαλήθευσης (ταίριασμα με πρότυπο προσώπου) για μεγαλύτερη ακρίβεια ανίχνευσης παρουσιάσθηκε στην εργασία [132]. Η προτεινόμενη τεχνική συντακτικής ανάλυσης δελτίων ειδήσεων με χρήση οπτικής πληροφορίας είναι επίσης πρωτότυπη και δημοσιεύθηκε στην εργασία [9]. Τα προτεινόμενα σενάρια αναζήτησης με βάση την πληροφορία προσώπων αποτέλεσαν το αντικείμενο των εργασιών [15,132]. 5. ΔΟΜΗ ΔΙΑΤΡΙΒΗΣ Η διατριβή απαρτίζεται από τέσσερα μέρη. Στο Μέρος I γίνεται μια εισαγωγή στην ανάλυση ακολουθιών εικόνων για τον προσδιορισμό αντικειμένων με βάση το χρώμα, την κίνηση, καθώς και το πεδίο βάθους στην περίπτωση των στερεοσκοπικών ακολουθιών. Στο Κεφάλαιο 1 δίνεται μία περιγραφή του αλγορίθμου Μ-RSST, ο οποίος εφαρμόζεται για κατάτμηση εικόνων με βάση το χρώμα και την κίνηση. Στο Κεφάλαιο 2 εξετάζεται η ειδική περίπτωση των στερεοσκοπικών ακολουθιών, στις οποίες εφαρμόζεται επιπλέον κατάτμηση με βάση το πεδίο Εισαγωγή 11 βάθους. Για το συνδυασμό των επιμέρους κατατμήσεων προτείνεται στο Κεφάλαιο 3 μια τεχνική συγχώνευσης που επιτρέπει τον αξιόπιστο προσδιορισμό σημασιολογικών αντικειμένων. Το Μέρος II αναφέρεται στο χαρακτηρισμό του οπτικού περιεχομένου, την εξαγωγή περίληψης και την αναζήτηση με βάση το περιεχόμενο. Ο υπολογισμός διανυσμάτων περιγραφής περιγράφεται στο Κεφάλαιο 4. Η πληροφορία χαρακτηρισμού αποτελεί τη βάση για την εξαγωγή περίληψης η οποία υλοποιείται με την αυτόματη επιλογή ενός περιορισμένου συνόλου χαρακτηριστικών πλάνων και καρέ που περιγράφουν ικανοποιητικά το οπτικό περιεχόμενο. Η επιλογή χαρακτηριστικών πλάνων παρουσιάζεται στο Κεφάλαιο 5, ενώ η επιλογή χαρακτηριστικών καρέ στα Κεφάλαια 6 και 7 για τις μεθόδους χρονικής μεταβολής και συσχέτισης αντίστοιχα. Η αναπαράσταση του επιλεγμένου υλικού με διανύσματα περιγραφής χρησιμοποιείται στη συνέχεια για αναζήτηση και ανάκληση με βάση το περιεχόμενο στο Κεφάλαιο 8. Στο Μέρος III εξετάζεται το πρόβλημα της ανάλυσης και αναπαράστασης του περιγράμματος αντικειμένων με εφαρμογή στην ταξινόμηση και αναζήτηση αντικειμένων με βάση το σχήμα. Στο Κεφάλαιο 9 πραγματοποιείται μία βιβλιογραφική ανασκόπηση στις διαθέσιμες μεθόδους αναπαράστασης, ταξινόμησης, ταιριάσματος και αναγνώρισης περιγραμμάτων, δίνεται η γενική περιγραφή της προτεινόμενης μεθόδου κανονικοποίησης περιγραμμάτων, των ιδιοτήτων, προϋποθέσεων και περιορισμών της, και παρουσιάζεται η μοντελοποίηση καμπυλών με B-Splines. Στο Κεφάλαιο 10 δίνεται η αναλυτική περιγραφή και θεωρητική ανάλυση της μεθόδου κανονικοποίησης. Στο Κεφάλαιο 11 εξετάζεται το πρόβλημα της ταξινόμησης και ανάκλησης αντικειμένων με βάση το σχήμα τους και δίνονται παραδείγματα και πειραματικά αποτελέσματα τόσο για την κανονικοποίηση περιγραμμάτων όσο και για την αναζήτηση με βάση το σχήμα. Τέλος, στο Μέρος IV παρουσιάζεται η εφαρμογή των μεθόδων ανάλυσης οπτικής πληροφορίας σε ακολουθίες τηλεοπτικών δελτίων ειδήσεων. Στο Κεφάλαιο 12 περιγράφεται η χρησιμοποιούμενη τεχνική αυτόματης ανίχνευσης και εντοπισμού ανθρώπινων προσώπων, ενώ στο Κεφάλαιο 13 η ταξινόμηση πλάνων και η συντακτική ανάλυση, δηλαδή η χρονική κατάτμηση των δελτίων σε στοιχειώδεις θεματικές ενότητες. Η παραγόμενη πληροφορία προσώπων χρησιμοποιείται για την υλοποίηση νέων, σημασιολογικών κριτηρίων αναζήτησης με βάση το περιεχόμενο που δίνονται στο Κεφάλαιο 14. Η διατριβή καταλήγει σε έκθεση συμπερασμάτων και προτάσεων για ζητήματα που θα μπορούσαν να αποτελέσουν τη βάση για μελλοντική έρευνα. Μ Ε Ρ Ο Σ I ΑΝΑΛΥΣΗ ΑΚΟΛΟΥΘΙΩΝ ΕΙΚΟΝΩΝ ΣΕ ΑΝΤΙΚΕΙΜΕΝΑ Αντικείμενο του πρώτου Μέρους της διατριβής είναι ο εντοπισμός των αντικειμένων σε εικόνες ή ακολουθίες εικόνων και η εξαγωγή χαρακτηριστικών χαμηλού επιπέδου από τα αντικείμενα αυτά. Η ανάλυση σε αντικείμενα είναι απαραίτητη για το χαρακτηρισμό και την περιγραφή του οπτικού περιεχομένου με στόχο την ανάπτυξη εφαρμογών όπως η αυτόματη ανάλυση, ο χαρακτηρισμός, η δεικτοδότηση, η εξαγωγή περίληψης, η προεπισκόπηση και η αναζήτηση με βάση το περιεχόμενο· είναι ουσιαστικά το πρώτο βήμα για τον υπολογισμό ενός διανύσματος περιγραφής βάσει του οποίου μπορεί να εκτιμηθεί η ομοιότητα μεταξύ εικόνων, καρέ, ή πλάνων μιας ακολουθίας. Για τον εντοπισμό των αντικειμένων ακολουθείται η τεχνική της κατάτμησης εικόνων με βάση ένα κριτήριο ομοιομορφίας χαρακτηριστικών όπως το χρώμα, η κίνηση, η υφή, το σχήμα ή το πεδίο βάθους, έτσι ώστε κάθε τμήμα εικόνας που εξάγεται να αντιστοιχεί π.χ. σε περιοχή με ομοιόμορφο χρώμα. Στο πλαίσιο της διατριβής χρησιμοποιείται ο γενικός αλγόριθμος κατάτμησης M-RSST που αποτελεί μια γρήγορη, πολυδιακριτική υλοποίηση του αλγορίθμου RSST και βασίζεται στην αναδρομική συγχώνευση περιοχών σε εικόνες διαδοχικών επιπέδων ανάλυσης. Ο αλγόριθμος είναι ανεξάρτητος από την εξαγωγή των χαρακτηριστικών και μπορεί να χρησιμοποιηθεί για κατάτμηση με βάση οποιοδήποτε χαρακτηριστικό. Στο Κεφάλαιο 1 δίνεται μία συνοπτική περιγραφή του αλγορίθμου, ο οποίος στη συνέχεια εφαρμόζεται για κατάτμηση εικόνων με βάση το χρώμα και την κίνηση. Στο Κεφάλαιο 2 εξετάζεται η ειδική περίπτωση των στερεοσκοπικών ακολουθιών, η χρήση των οποίων έχει αυξηθεί σημαντικά τα τελευταία χρόνια, λόγω της ανάπτυξης στερεοσκοπικών συστημάτων κάμερας και συσκευών τρισδιάστατης απεικόνισης. Στην περίπτωση αυτή είναι δυνατή η ανίχνευση και εκμετάλλευση της πληροφορίας βάθους μέσω στερεοσκοπικής ανάλυσης. Η κατάτμηση με βάση το πεδίο βάθους, η οποία υλοποιείται και πάλι με τον αλγόριθμο M-RSST, δίνει μία πολύ καλή προσέγγιση των πραγματικών αντικειμένων που εμφανίζονται σε μία εικόνα, αφού τα τελευταία συνήθως αποτελούνται από περιοχές που βρίσκονται στο ίδιο επίπεδο βάθους. Όμως τα περιγράμματα των τμημάτων βάθους είναι αναξιόπιστα, ενώ αντίθετα η κατάτμηση με βάση το χρώμα δίνει ακριβή περιγράμματα αλλά συνήθως διαχωρίζει κάθε αντικείμενο σε περισσότερα από ένα τμήματα. Για το λόγο αυτό παρουσιάζεται στο Κεφάλαιο 3 ένας αλγόριθμος συγχώνευσης των τμημάτων χρώματος με βάση την πληροφορία των τμημάτων βάθους. Έτσι οι δύο ανεξάρτητες κατατμήσεις συνδυάζονται και εξάγονται με ακρίβεια τα σημασιολογικά αντικείμενα μιας ακολουθίας. Η ίδια ακριβώς τεχνική μπορεί να χρησιμοποιηθεί για τη συγχώνευση των τμημάτων χρώματος με τα τμήματα κίνησης. 12 Κεφάλαιο 1 Κατάτμηση με Βάση το Χρώμα και την Κίνηση Εφαρμογές όπως η αυτόματη ανάλυση, ο χαρακτηρισμός, η δεικτοδότηση, η εξαγωγή περίληψης, η προεπισκόπηση, καθώς και η αναζήτηση με βάση το περιεχόμενο από ένα σύνολο εικόνων ή ακολουθιών βίντεο, απαιτούν την περιγραφή του οπτικού περιεχομένου με ένα τρόπο που να επιτρέπει την ταχεία σύγκριση και τον υπολογισμό ενός μέτρου ομοιότητας μεταξύ εικόνων, καρέ, ή πλάνων μιας ακολουθίας. Κάτι τέτοιο είναι εφικτό με την εξαγωγή ενός διανύσματος περιγραφής που περιέχει πληροφορία η οποία σχετίζεται με χαμηλού επιπέδου χαρακτηριστικά αντικειμένων όπως το χρώμα, η κίνηση, το πεδίο βάθους, το σχήμα και η υφή. Απαραίτητη λοιπόν για την ανάλυση του οπτικού περιεχομένου είναι η κατάτμηση σε αντικείμενα με βάση ένα από τα παραπάνω χαρακτηριστικά. Στο Κεφάλαιο αυτό περιγράφεται αρχικά ο γενικός αλγόριθμος κατάτμησης M-RSST που αναπτύχθηκε στο πλαίσιο της διατριβής. Πρόκειται για μια γρήγορη, πολυδιακριτική υλοποίηση του γνωστού αλγορίθμου RSST η οποία βασίζεται στην αναδρομική συγχώνευση περιοχών σε εικόνες διαδοχικών επιπέδων ανάλυσης. Στη συνέχεια ο αλγόριθμος εφαρμόζεται στην κατάτμηση εικόνων με βάση το χρώμα και την κίνηση των αντικειμένων, ενώ στα επόμενα Κεφάλαια χρησιμοποιείται για την κατάτμηση με βάση το πεδίο βάθους, την εξαγωγή σημασιολογικών αντικειμένων, την εξαγωγή του περιγράμματος και την ανίχνευση τμημάτων προσώπου σε ακολουθίες δελτίων ειδήσεων. 1.1 ΚΑΤΑΤΜΗΣΗ ΑΚΟΛΟΥΘΙΩΝ ΕΙΚΟΝΩΝ ΣΕ ΑΝΤΙΚΕΙΜΕΝΑ meaning) και η εξαγωγή ουσιώδους πληροφορίας που περιγράφει κάθε αντικείμενο. Ο στόχος της σημασιολογικής κατάτμησης (semantic segmentation) είναι να προσδιορισθεί η παρουσία ενός συνόλου περιοχών που αναπαριστούν γνωστά αντικείμενα. Αυτό όμως είναι ένα δύσκολο πρόβλημα, αφού απαιτεί εκ των προτέρων γνώση των αντικειμένων που πρέπει να ανιχνευθούν και επομένως μπορεί να λυθεί μόνο στο πλαίσιο μίας περιορισμένης κατηγορίας εφαρμογών. Για παράδειγμα, η ανίχνευση και εντοπισμός ανθρώπινων προσώπων μπορεί να επιτευχθεί με βάση τις γνωστές ιδιότητες των προσώπων, όπως το χρώμα και το σχήμα τους· έτσι σε εφαρμογές βιντεοτηλεφώνου ή ανάλυσης δελτίων ειδήσεων όπου τα πρόσωπα παίζουν σημαντικό ρόλο, η σημασιολογική κατάτμηση απλουστεύεται [131]. Αυτό ακριβώς είναι και το αντικείμενο του Μέρους IV της διατριβής. Όμως στη γενική περίπτωση όπου το περιεχόμενο είναι άγνωστο, η σημασιολογική κατάτμηση θεωρείται ακόμη ένα άλυτο πρόβλημα [95]. Στο πλαίσιο της διατριβής χρησιμοποιείται κατάτμηση με βάση το χρώμα σε κάθε εικόνα ή καρέ ακολουθίας· στις περιπτώσεις των ακολουθιών εικόνων πραγματοποιείται επίσης κατάτμηση με βάση την κίνηση ενώ στις στερεοσκοπικές ακολουθίες και κατάτμηση με βάση το πεδίο βάθους. Παρά το γεγονός ότι σε ένα περιβάλλον ανάκλησης με βάση το περιεχόμενο η Τ ο πρώτο βήμα ανάλυσης του οπτικού περιεχομένου μιας εικόνας ή ακολουθίας εικόνων είναι η κατάτμηση (segmentation) σε αντικείμενα με σημασιολογικό περιεχόμενο (semantic 13 14 ΜΕΡΟΣ I Ανάλυση Ακολουθιών Εικόνων σε Αντικείμενα σημασιολογική κατάτμηση θα ήταν ιδιαίτερα χρήσιμη, η κατάτμηση με βάση το χρώμα και την κίνηση παρέχει ένα ισχυρό εργαλείο αυτόματου χαρακτηρισμού για την εξαγωγή περίληψης όπου δεν απαιτείται μεγάλη ακρίβεια περιγραφής. Επιπλέον, στην περίπτωση των στερεοσκοπικών ακολουθιών παρουσιάζεται στο Κεφάλαιο 3 ένας αλγόριθμος συγχώνευσης των τμημάτων χρώματος με βάση την πληροφορία των τμημάτων βάθους, ο οποίος προσεγγίζει σε μεγάλο βαθμό τη σημασιολογική κατάτμηση, αφού τα πραγματικά αντικείμενα βρίσκονται συνήθως στο ίδιο επίπεδο βάθους. Ο ίδιος αλγόριθμος μπορεί να χρησιμοποιηθεί και για τη συγχώνευση τμημάτων χρώματος και κίνησης. Κατά το στάδιο του χαρακτηρισμού η πληροφορία χρώματος, κίνησης και βάθους του κάθε τμήματος διατηρείται έτσι ώστε να παρέχεται ευέλικτη αναπαράσταση του οπτικού περιεχομένου, και η διαχείριση ή αναζήτηση κάθε είδους πληροφορίας να μην επηρεάζεται από τις υπόλοιπες. Συγκεκριμένα, το πλήθος τμημάτων χρώματος καθώς και η θέση, το μέγεθος και οι μέσες χρωματικές συνιστώσες τους χρησιμοποιούνται για την κατασκευή ενός διανύσματος περιγραφής χρώματος. Με όμοιο τρόπο, το πλήθος τμημάτων κίνησης καθώς και η θέση, το μέγεθος και το μέσο διάνυσμα κίνησής τους χρησιμοποιούνται για την κατασκευή ενός διανύσματος περιγραφής κίνησης. Ανάλογα πραγματοποιείται και ο χαρακτηρισμός των τμημάτων βάθους. Τα διανύσματα αυτά συνδυάζονται στη συνέχεια για την κατασκευή ενός συνολικού διανύσματος περιγραφής. Η παραπάνω διαδικασία χαρακτηρισμού περιγράφεται αναλυτικά στο Κεφάλαιο 4. Στο υπόλοιπο του παρόντος Κεφαλαίου περιγράφεται ο χρησιμοποιούμενος αλγόριθμος κατάτμησης, ο οποίος στη συνέχεια εφαρμόζεται για κατάτμηση με βάση το χρώμα και την κίνηση. 1.2 ΑΛΓΟΡΙΘΜΟΙ ΚΑΤΑΤΜΗΣΗΣ Ο Αλγόριθμος RSST Ως βάση για την κατάτμηση εικόνων στο πλαίσιο της διατριβής χρησιμοποιήθηκε ο αλγόριθμος Recursive Shortest Spanning Tree (RSST) [91]. Παρά τη σχετικά μεγάλη υπολογιστική του πολυπλοκότητα, θεωρείται ένα από τα πιο ισχυρά εργαλεία κατάτμησης εικόνων συγκρινόμενος με άλλες τεχνικές [92], όπως color clustering, pyramidal region growing καθώς και το μορφολογικό αλγόριθμο watershed [111]. Συγκριτική αξιολόγηση των παραπάνω αλγορίθμων στο πλαίσιο του προγράμματος COST211ter με χρήση μεγάλου αριθμού πειραμάτων σε ένα σύνολο δοκιμαστικών ακολουθιών βίντεο κατέληξε στο συμπέρασμα ότι ο RSST παρουσιάζει καλύτερες επιδόσεις [1]. Συγκεκριμένα, δίνει πάντα σωστές ακμές αντικειμένων και όσο το δυνατόν λιγότερα αυθαίρετα αντικείμενα. Ως προς το υπολογιστικό κόστος, ο RSST είναι επίσης ο ταχύτερος αλγόριθμος. Το διάγραμμα ροής του αλγορίθμου φαίνεται στο Σχήμα 1-1 και η λειτουργία του περιγράφεται συνοπτικά στη συνέχεια. Κατά την αρχικοποίηση του αλγορίθμου η εικόνα εισόδου I, διαστάσεων M0 N0 pixels, χωρίζεται σε M0 N0 περιοχές (regions) ή τμήματα (segments) μεγέθους 1 pixel και για κάθε περιοχή παράγονται σύνδεσμοι (links) με τις τέσσερις γειτονικές της περιοχές. Γειτονικές μιας περιοχής X θεωρούνται οι περιοχές εκείνες που απέχουν 1 pixel από τη X και συνδέονται με τη X οριζόντια ή κατακόρυφα, αλλά όχι διαγώνια (4-connected). Σε κάθε σύνδεσμο ανατίθεται ένα βάρος (weight) ίσο με τη απόσταση (distance) των δύο περιοχών τις οποίες συνδέει. Η απόσταση αυτή μπορεί να ορισθεί με οποιοδήποτε τρόπο και καθορίζει ουσιαστικά την προτεραιότητα με την οποία οι περιοχές ενώνονται μεταξύ τους. Για παρά- Κεφάλαιο 1 Κατάτμηση με Βάση το Χρώμα και την Κίνηση 15 δειγμα, για τους σκοπούς της κατάτμησης με βάση το χρώμα η απόσταση δc(X,Y) μεταξύ δύο γειτονικών περιοχών X και Y συνήθως ορίζεται ως το γινόμενο της Ευκλείδειας απόστασης των μέσων χρωματικών συνιστωσών των δύο περιοχών και ενός όρου που είναι συνάρτηση του μεγέθους των δύο περιοχών σε pixels και ευνοεί τη συγχώνευση των μικρών περιοχών: δc (X , Y ) = c( X ) - c(Y ) a( X )a(Y ) a( X ) + a(Y ) (1-1) όπου c(X) είναι ένα διάνυσμα διαστάσεων 3 1 που περιέχει τις τρεις μέσες χρωματικές συνιστώσες της περιοχής X και a(X) είναι το μέγεθός της σε pixels. Χρησιμοποιώντας για παράδειγμα το χώρο RGB για την αναπαράσταση των χρωματικών συνιστωσών, η απόσταση δc(X,Y) γίνεται δc (X , Y ) = (c R ( X ) - c R (Y )) 2 + (c G ( X ) - c G (Y )) 2 + (c B ( X ) - c B (Y )) 2 [ ] 1 /2 a( X )a(Y ) a( X ) + a(Y ) (1-2) όπου cR(X), cG(X) και cB(X) είναι οι μέσες χρωματικές συνιστώσες R, G και B αντίστοιχα στο εσωτερικό της περιοχής X. Στη συνέχεια όλοι οι σύνδεσμοι ταξινομούνται κατά αύξουσα σειρά απόστασης, έτσι ώστε ο πρώτος σύνδεσμος με τη μικρότερη απόσταση να αντιστοιχεί στις πιο «κοντινές» περιοχές. Κατάτμηση εικόνας εισόδου I σε M0N0 περιοχές μεγέθους 1 pixel Δημιουργία και ταξινόμηση συνδέσμων για όλα τα ζεύγη γειτονικών περιοχών Αρχικοποίηση RSST Ικανοποιείται η συνθήκη τερματισμού; Όχι Συγχώνευση δύο πλησιέστερων περιοχών. Υπολογισμός μέσου χρώματος και μεγέθους νέας περιοχής Υπολογισμός και ταξινόμηση συδέσμων νέας περιοχής. Αφαίρεση διπλών συνδέσμων. Ναι Τερματισμός Επαναληπτική φάση RSST Σχήμα 1-1. Διάγραμμα ροής του αλγορίθμου RSST. Κατά την επαναληπτική φάση του RSST πραγματοποιείται αναδρομική συγχώνευση (merging) επιλέγοντας κάθε φορά τις δύο γειτονικές περιοχές με τη μικρότερη απόσταση και εφαρμόζοντας τις ακόλουθες ενέργειες σε κάθε επανάληψη: (α) συγχωνεύονται οι δύο πλησιέστερες γειτονικές περιοχές 16 ΜΕΡΟΣ I Ανάλυση Ακολουθιών Εικόνων σε Αντικείμενα (β) υπολογίζονται οι μέσες χρωματικές συνιστώσες και το μέγεθος σε pixels της νέας περιοχής που προήλθε από τη συγχώνευση (γ) επαναϋπολογίζονται και ταξινομούνται τα βάρη των συνδέσμων της νέας περιοχής με όλες τις γειτονικές της (δ) αφαιρούνται οι τυχόν διπλοί σύνδεσμοι που προκύπτουν από τη συγχώνευση Η επαναληπτική διαδικασία τερματίζεται όταν είτε ο συνολικός αριθμός περιοχών είτε η ελάχιστο απόσταση γίνει ίση με ένα προκαθορισμένο όριο ή κατώφλι (threshold). Το κατώφλι απόστασης είναι συνήθως προτιμότερο διότι το πλήθος τμημάτων που προκύπτει από την κατάτμηση εξαρτάται από τα αντικείμενα που υπάρχουν στην εικόνα. Η υπολογιστική πολυπλοκότητα του RSST καθορίζεται σε μεγάλο βαθμό από την επιλογή του αλγορίθμου ταξινόμησης των βαρών, ο οποίος αποτελεί παράγοντα συμφόρησης. Για το λόγο αυτό προτείνεται στο πλαίσιο της διατριβής μία νέα πολυδιακριτική υλοποίηση (multiresolution implementation) του αλγορίθμου, που ονομάζεται Multiresolution RSST (MRSST) και αναλύεται στη συνέχεια. Ο Αλγόριθμος M-RSST Ο αλγόριθμος M-RSST εφαρμόζει αναδρομικά τον αλγόριθμο RSST σε εικόνες αυξανόμενης ανάλυσης, όπως φαίνεται στο διάγραμμα ροής του Σχήματος 1-2. Αρχικά πραγματοποιείται ανάλυση της εικόνας εισόδου I σε πολλαπλές αναλύσεις (multiresolution decomposition) με χαμηλότερο επίπεδο ανάλυσης L0 και κατασκευάζεται μία ιεραρχία εικόνων I(0) = I, I(1),..., I(L0). Έτσι δημιουργείται μία κόλουρος πυραμίδα εικόνων (truncated image pyramid) κάθε επίπεδο της οποίας έχει το ένα τέταρτο των pixels του αμέσως χαμηλότερου επιπέδου. Η αρχικοποίηση του αλγορίθμου RSST εφαρμόζεται στην εικόνα χαμηλότερης ανάλυσης I(L0) και στη συνέχεια ξεκινά μία επαναληπτική διαδικασία που περιλαμβάνει τα παρακάτω βήματα: (α) οι περιοχές της τρέχουσας εικόνας συγχωνεύονται αναδρομικά χρησιμοποιώντας την επαναληπτική φάση του αλγορίθμου RSST (β) τα συνοριακά pixels των περιοχών που προκύπτουν διαιρούνται σε τέσσερις νέες περιοχές το καθένα· οι χρωματικές συνιστώσες των νέων περιοχών προέρχονται από την εικόνα του αμέσως επόμενου υψηλότερου επιπέδου ανάλυσης (γ) υπολογίζονται και ταξινομούνται τα βάρη των νέων συνδέσμων των νέων περιοχών Η παραπάνω διαδικασία συγχώνευσης / διαίρεσης (splitting) επαναλαμβάνεται μέχρι και την εικόνα υψηλότερης ανάλυσης I(0). Η συγχώνευση των περιοχών της τελευταίας που προκύπτει από το βήμα (α) δίνει και το τελικό αποτέλεσμα κατάτμησης του αλγορίθμου M-RSST. Όπως φαίνεται από την παραπάνω περιγραφή, η πραγματική συγχώνευση τμημάτων πραγματοποιείται στο χαμηλότερο επίπεδο ανάλυσης I(L0), όπου και ο συνολικός αριθμός τμημάτων είναι ο μικρότερος. Στα υπόλοιπα επίπεδα ανάλυσης ουσιαστικά προσδιορίζονται οι συνοριακές περιοχές κάθε τμήματος με μεγαλύτερη ακρίβεια, χωρίς να επηρεάζεται το εσωτερικό του. Επειδή σε κάθε συγχώνευση τμημάτων πραγματοποιείται ταξινόμηση των νέων βαρών συνδέσμων που προκύπτουν, η ταχύτητα καθορίζεται σε μεγάλο βαθμό από το πλήθος τμημάτων· έτσι είναι αναμενόμενο ο M-RSST να είναι σημαντικά ταχύτερος από τον RSST. Επιπλέον, λόγω της υποδειγματοληψίας, είναι φυσικό το αποτέλεσμα του M-RSST να μην Κεφάλαιο 1 Κατάτμηση με Βάση το Χρώμα και την Κίνηση 17 ταυτίζεται με εκείνο του RSST. Τα ζητήματα αυτά αναλύονται στα αποτελέσματα της επόμενης Ενότητας όπου εξετάζεται η κατάτμηση με βάση το χρώμα. Υπολογισμός πυραμίδας εικόνων I(0), I(1), ... , I(L0). k = L0, I = I(k) Αρχικοποίηση RSST Επαναληπτική φάση RSST k=0? Όχι Διαίρεση συνοριακών pixels σε 4 νέες περιοχές από την εικόνα I(k-1) Ναι Τερματισμός Υπολογισμός και ταξινόμηση συνδέσμων νέων περιοχών. k= k-1 Σχήμα 1-2. Διάγραμμα ροής του αλγορίθμου M-RSST. Οι επιμέρους εργασίες «Αρχικοποίηση RSST» και «Επαναληπτική Φάση RSST» αναφέρονται στο Σχήμα 1-1. Σημειώνεται ότι ο αλγόριθμος M-RSST παρουσιάσθηκε για πρώτη φορά στην εργασία [35], ενώ η υλοποίησή του αναλύθηκε στην [8]. Χρησιμοποιήθηκε επίσης με επιτυχία για κατάτμηση και στις εργασίες [9,15,34,38,39,131]. 1.3 ΚΑΤΑΤΜΗΣΗ ΜΕ ΒΑΣΗ ΤΟ ΧΡΩΜΑ Τα αποτελέσματα του προτεινόμενου αλγορίθμου M-RSST φαίνονται στο Σχήμα 1-3 για κατώφλι περιοχών ίσο με 5 και για αρχικό επίπεδο ανάλυσης L0 = 3 (ισοδύναμο με blocks των 8 8 pixels). Μετά την εφαρμογή της επαναληπτικής φάσης RSST στην εικόνα I(3) (Σχήμα 13β), τα συνοριακά pixels διαιρούνται σε τέσσερα νέα τμήματα το καθένα. Όπως φαίνεται στο Σχήμα 1-3γ, το πλήθος τμημάτων για την επόμενη επανάληψη RSST στο επίπεδο ανάλυσης 2 είναι σημαντικά μειωμένο σε σύγκριση με το αρχικό πλήθος τμημάτων του παραδοσιακού αλγορίθμου RSST στο ίδιο επίπεδο ανάλυσης. Το ίδιο ισχύει και για τα επόμενα, υψηλότερα επίπεδα ανάλυσης, όπως φαίνεται στο Σχήμα 1-3ε. Αφού η ταχύτητα του RSST καθορίζεται κυρίως από το αρχικό πλήθος τμημάτων, είναι εμφανές ότι η προτεινόμενη υλοποίηση M-RSST είναι σημαντικά ταχύτερη από τον RSST. Η πολυπλοκότητα του M-RSST δεν μπορεί να υπολογισθεί με ευθύ τρόπο γιατί εξαρτάται το πλήθος, το σχήμα και το μέγεθος των περιοχών. Γι’ αυτό το λόγο, ο μέσος χρόνος εκτέλεσης των δύο αλγορίθμων δίνεται συγκριτικά στον Πίνακα 1-1 για ένα σύνολο 200 έγχρωμων εικό- 18 ΜΕΡΟΣ I Ανάλυση Ακολουθιών Εικόνων σε Αντικείμενα νων σε τρεις διαφορετικές αναλύσεις. Σε όλες τις περιπτώσεις το αρχικό επίπεδο ανάλυσης είναι L0 = 3, ενώ χρησιμοποιείται κατώφλι απόστασης για τον τερματισμό της διαδικασίας κατάτμησης, διότι δίνει καλύτερα αποτελέσματα και δεν χρειάζεται προσαρμογή για κάθε εικόνα. Οι χρόνοι εκτέλεσης αντιστοιχούν σε υλοποίηση των αλγορίθμων σε γλώσσα C, σε υπολογιστή Sun SparcStation-20. Παρατηρείται ότι ο λόγος βελτίωσης επηρεάζεται σημαντικά από τις διαστάσεις της εικόνας εισόδου, ενώ ο M-RSST είναι περίπου 400 φορές ταχύτερος από τον RSST για ένα τυπικό μέγεθος εικόνας 720 576 pixels. (α) (β) (γ) (δ) (ε) (στ) Σχήμα 1-3. Κατάτμηση με βάση το χρώμα, αλγόριθμος M-RSST. (α) Αρχική εικόνα. (β) Κατάτμηση στο επίπεδο ανάλυσης 3. (γ) Διαίρεση συνοριακών pixels στο επίπεδο 3. (δ) Κατάτμηση στο επίπεδο 2. (ε) Διαίρεση συνοριακών pixels στο επίπεδο 2. (στ) Τελική κατάτμηση. Ανάλυση εικόνας 176 144 (QCIF) 352 288 (CIF) 720 576 (PAL) Μέσος χρόνος εκτέλεσης (sec) RSST M-RSST 5.65 44.21 534.22 0.13 0.38 1.36 Λόγος βελτίωσης 43.46 116.35 392.81 Πίνακας 1-1. Μέσος χρόνος εκτέλεσης των αλγορίθμων RSST και M-RSST για ένα σύνολο 200 έγχρωμων εικόνων σε τρεις διαφορετικές αναλύσεις. Επίσης, όπως παρατηρείται στο Σχήμα 1-3β, τα πολύ μικρά αντικείμενα αγνοούνται στην αρχική (χαμηλότερη) ανάλυση, και αφού δεν δημιουργούνται ούτε καταστρέφονται περιοχές σε κάθε επανάληψη, τα αντικείμενα αυτά εξαλείφονται σε όλα τα επίπεδα ανάλυσης (Σχήματα 1-3δ, στ). Για παράδειγμα, ακόμη και αν το κατώφλι περιοχών ήταν μεγαλύτερο από 5, οι λεπτομέρειες του προσώπου δεν θα δημιουργούσαν χωριστά τμήματα. Επομένως το αποτέλεσμα του M-RSST είναι διαφορετικό από εκείνο του παραδοσιακού RSST, όσον αφορά στα μικρά αντικείμενα. Αυτό το φιλτράρισμα ως προς το μέγεθος των αντικειμένων είναι πολλές φορές επιθυμητό καθώς έτσι αγνοούνται οι λεπτομέρειες και επιτυγχάνεται υψηλό επίπεδο αναπαράστασης περιεχομένου. Ένα ακόμη παράδειγμα φαίνεται στο Σχήμα 1-4, όπου η εικόνα ενός τοπίου διαχωρίζεται σωστά σε περιοχές κτιρίων, θάλασσα καθώς και δασικές περιοχές. Έτσι ο M-RSST αποφεύγει το φαινόμενο του oversegmentation (κατάτμηση σε υπερβολικά μεγάλο αριθμό περιοχών), και χειρίζεται σωστά εικόνες που περιέχουν πολύπλοκη υφή Κεφάλαιο 1 Κατάτμηση με Βάση το Χρώμα και την Κίνηση 19 (texture). Περισσότερα παραδείγματα κατάτμησης με βάση το χρώμα περιλαμβάνονται στα Κεφάλαια 3,11,12 και 13. (α) (β) (γ) (δ) (ε) (στ) Σχήμα 1-4. Κατάτμηση με βάση το χρώμα, αλγόριθμος M-RSST. (α) Αρχική εικόνα. (β) Κατάτμηση στο επίπεδο ανάλυσης 3. (γ) Κατάτμηση στο επίπεδο 2. (δ) Κατάτμηση στο επίπεδο 1. (ε) Κατάτμηση στο επίπεδο 0 (τελική). (στ) Τελική κατάτμηση σε συνδυασμό με την αρχική εικόνα. Τέλος, φαίνεται στα Σχήματα 1-3β,δ και 1-4β,γ,δ ότι ουσιαστικά μόνο τα περιγράμματα των τμημάτων αλλάζουν σε κάθε επανάληψη του αλγορίθμου, αφού ούτε δημιουργούνται νέα τμήματα ούτε καταστρέφονται τα υπάρχοντα. Είναι επομένως δυνατό να βρει κανείς το ακριβές σχήμα των αντικειμένων που περιέχονται σε μία εικόνα από το αποτέλεσμα της κατάτμησης στο υψηλότερο επίπεδο ανάλυσης όπως στα Σχήματα 1-3στ και 1-4ε. Επιπλέον, αυτό επιτυγχάνεται χωρίς τη χρήση ολόκληρων των εικόνων σε όλα τα επίπεδα ανάλυσης, αλλά μόνο τμημάτων τους στις συνοριακές περιοχές των αντικειμένων. Έτσι είναι δυνατή η αποτελεσματικότερη κατάτμηση ακολουθιών MPEG, χρησιμοποιώντας τα blocks κάθε εικόνας για την αρχικοποίηση του M-RSST. Στην περίπτωση αυτή δεν γίνεται πλήρης πολυδιακριτική ανάλυση κάθε εικόνας, αλλά πραγματοποιείται αποκωδικοποίηση ενός πολύ μικρού ποσοστού από blocks στις συνοριακές περιοχές των αντικειμένων, έχοντας ως αποτέλεσμα την πολύ γρήγορη υλοποίηση της κατάτμησης. 1.4 ΚΑΤΑΤΜΗΣΗ ΜΕ ΒΑΣΗ ΤΗΝ ΚΙΝΗΣΗ Για το πρόβλημα της εκτίμησης κίνησης (motion estimation) και κατάτμησης ακολουθιών εικόνων με βάση την κίνηση έχουν προταθεί αρκετές διαφορετικές τεχνικές, όπως τεχνικές που βασίζονται στη διαφορά φωτεινότητας μεταξύ διαδοχικών καρέ, τεχνικές εκτίμησης οπτικής ροής (optical flow), καθώς και τεχνικές ταυτόχρονης εκτίμησης και κατάτμησης κίνησης [127]. Κάθε μέθοδος έχει πλεονεκτήματα ή μειονεκτήματα που περιορίζουν τη χρήση της σε συγκεκριμένες εφαρμογές. Για παράδειγμα, οι τεχνικές ταυτόχρονης εκτίμησης και κατάτμησης κίνησης έχουν υψηλή υπολογιστική πολυπλοκότητα, ενώ οι τεχνικές που βασίζονται στη διαφορά φωτεινότητας μεταξύ διαδοχικών καρέ επηρεάζονται σημαντικά από το θόρυβο και τις μεταβολές φωτεινότητας. Οι τεχνικές εκτίμησης οπτικής ροής είναι αρκετά δημοφιλείς και χρησιμοποιούνται ευρύτατα στην κωδικοποίηση βίντεο αλλά και στην ανάλυση και κατανόηση εικόνων. 20 ΜΕΡΟΣ I Ανάλυση Ακολουθιών Εικόνων σε Αντικείμενα Λαμβάνοντας υπόψη τον υπολογιστικό φόρτο που απαιτείται για την ανάλυση μεγάλου αριθμού ακολουθιών βίντεο, αλλά και τις μειωμένες απαιτήσεις ακρίβειας στο πρόβλημα της επιλογής χαρακτηριστικών καρέ, επιλέχθηκε στο πλαίσιο της διατριβής η εκμετάλλευση των διανυσμάτων κίνησης που είναι διαθέσιμα στις ακολουθίες MPEG. Έτσι δεν υπάρχει ανάγκη για εκτίμηση κίνησης και επιτυγχάνεται ταχύτατη υλοποίηση. Όμως τα διανύσματα κίνησης των ακολουθιών MPEG υπολογίζονται με βάση την αποτελεσματικότερη κωδικοποίηση και δεν δίνουν ικανοποιητική εκτίμηση της πραγματικής κίνησης αφού περιέχουν μεγάλο ποσοστό θορύβου. Είναι λοιπόν απαραίτητο ένα επιπλέον βήμα επεξεργασίας για την εξομάλυνση των διανυσμάτων αυτών. Για το σκοπό αυτό επιλέγεται ένα φίλτρο median, λόγω της ικανότητάς του να διατηρεί τα περιγράμματα των αντικειμένων. Η κατάτμηση με βάση την κίνηση πραγματοποιείται διαιρώντας κάθε καρέ σε περιοχές ομοιόμορφης κίνησης. Χρησιμοποιείται και πάλι ο αλγόριθμος M-RSST με αρχική ανάλυση όμοια με την ανάλυση των blocks της ακολουθίας MPEG, ενώ για τον υπολογισμό αποστάσεων μεταξύ περιοχών χρησιμοποιούνται διαφορές διανυσμάτων κίνησης αντί για χρωματικές διαφορές. Για τους σκοπούς της κατάτμησης με βάση την κίνηση η απόσταση δm(X,Y) μεταξύ δύο γειτονικών περιοχών X και Y συνήθως ορίζεται, όμοια με την (1-1), ως το γινόμενο της Ευκλείδειας απόστασης των μέσων διανυσμάτων κίνησης των δύο περιοχών και ενός όρου που είναι συνάρτηση του μεγέθους των δύο περιοχών σε pixels και ευνοεί τη συγχώνευση των μικρών περιοχών: δ m (X , Y ) = v( X ) - v(Y ) a( X )a(Y ) a( X ) + a(Y ) (1-3) όπου v(X) είναι το μέσο διάνυσμα κίνησης της περιοχής X, διαστάσεων 2 1, και a(X) είναι το μέγεθός της σε pixels. Στα πειράματα κατάτμησης με βάση την κίνηση χρησιμοποιείται κατώφλι απόστασης για τον τερματισμό της διαδικασίας κατάτμησης, όπως και στην περίπτωση της κατάτμησης με βάση το χρώμα. (α) (β) Σχήμα 1-5. Κατάτμηση με βάση την κίνηση, αλγόριθμος M-RSST. (α) Κατάτμηση χωρίς εξομάλυνση διανυσμάτων κίνησης. (β) Κατάτμηση με εξομάλυνση. Στο Σχήμα 1-5 φαίνονται τα αποτελέσματα της κατάτμησης με βάση την κίνηση για ένα καρέ από ακολουθία τηλεοπτικών ειδήσεων. Είναι εμφανές από το Σχήμα 1-5α ότι χωρίς εξομάλυνση των διανυσμάτων κίνησης η κατάτμηση είναι λανθασμένη, ακόμη και σε περιοχές ομοιόμορφης φωτεινότητας χωρίς πραγματική κίνηση. Αντίθετα μετά την εξομάλυνση η κατάτμηση δίνει σωστά τα δύο αντικείμενα που κινούνται πραγματικά, όπως φαίνεται στο Σχήμα 1-5β. Κεφάλαιο 1 Κατάτμηση με Βάση το Χρώμα και την Κίνηση 21 (α) (β) (γ) Σχήμα 1-6. Παραδείγματα κατάτμησης με βάση την κίνηση, αλγόριθμος M-RSST. (α) Ομοιόμορφη κίνηση μικρού αντικειμένου (πρόσωπο παρουσιαστή) σε ΄στατικό φόντο. (β) Σύνθετη κίνηση μικρού αντικειμένου σε ΄στατικό φόντο. (γ) Συνδυασμός ακίνητων αντικειμένων σε κινούμενο φόντο (οριζόντια κίνηση κάμερας). Μερικά ακόμη αποτελέσματα κατάτμησης με βάση την κίνηση παρουσιάζονται στο Σχήμα 1-6. Σε όλα τα παραδείγματα έχει πραγματοποιηθεί εξομάλυνση των διανυσμάτων κίνησης. Συγκεκριμένα, στο Σχήμα 1-6α φαίνεται το πρόσωπου ενός παρουσιαστή που κινείται κατακόρυφα· το αντικείμενο του προσώπου κινείται ομοιόμορφα ενώ το φόντο της εικόνας είναι ακίνητο. Στο Σχήμα 1-6β φαίνεται, και πάλι σε στατικό φόντο, ένας άνθρωπος που περπατά. Το τμήμα του ανθρώπου παρουσιάζει σύνθετη κίνηση αλλά και πάλι ανιχνεύεται ως ένα μόνο αντικείμενο. Τέλος στο 1-6γ εμφανίζεται μια περίπτωση γρήγορης οριζόντιας κίνησης της κάμερας. Η κάμερα ακολουθεί την κίνηση ενός ανθρώπου, ο οποίος παρουσιάζεται ακίνητος στην εικόνα, ενώ αντίθετα το φόντο φαίνεται να κινείται οριζόντια. Στην περίπτωση αυτή παρουσιάζονται κάποια προβλήματα σε κινούμενες περιοχές της εικόνες, κυρίως στα άκρα της, όπου λόγω ομοιόμορφου χρώματος η κίνηση δεν ανιχνεύεται σωστά και θεωρείται μηδενική. Όμως τα γενικά χαρακτηριστικά κίνησης της εικόνας εξάγονται σωστά σε όλες τις περιπτώσεις. Κεφάλαιο 2 Κατάτμηση με Βάση το Πεδίο Βάθους Η χρήση στερεοσκοπικών και γενικότερα τρισδιάστατων (3-Δ) ακολουθιών βίντεο έχει αυξηθεί σημαντικά τα τελευταία χρόνια, λόγω της ανάπτυξης στερεοσκοπικών συστημάτων κάμερας και συσκευών τρισδιάστατης απεικόνισης. Η ανάλυση 3-Δ ακολουθιών βίντεο επιτρέπει τον αποδοτικότερο χειρισμό αντικειμένων μέσω της ανίχνευσης και εκμετάλλευσης της πληροφορίας βάθους, αφού τα αντικείμενα συνήθως αποτελούνται από περιοχές που βρίσκονται στο ίδιο επίπεδο βάθους. Στο Κεφάλαιο αυτό παρουσιάζεται μια σύντομη ανασκόπηση της στερεοσκοπικής ανάλυσης εικόνων και περιγράφεται η προτεινόμενη μέθοδος εκτίμησης του πεδίου βάθους από ένα ζεύγος στερεοσκοπικών εικόνων. Η μέθοδος βασίζεται στον υπολογισμό του πεδίου απόκλισης με μία τεχνική παρόμοια με την ανίχνευση κίνησης σε ακολουθίες βίντεο. Στη συνέχεια πραγματοποιείται ανίχνευση και αντιστάθμιση των επικαλύψεων μεταξύ γειτονικών αντικειμένων, ενώ για την κατάτμηση με βάση το πεδίο βάθους εφαρμόζεται ο αλγόριθμος M-RSST. Τα αποτελέσματα της κατάτμησης συνδυάζονται στο επόμενο Κεφάλαιο με την κατάτμηση χρώματος ή και κίνησης για τον εντοπισμό αντικειμένων με σημασιολογικό περιεχόμενο. 2.1 ΣΤΕΡΕΟΣΚΟΠΙΚΕΣ ΑΚΟΛΟΥΘΙΕΣ ΒΙΝΤΕΟ βίντεο, οι οποίες συνήθως προέρχονται από στερεοσκοπικά συστήματα κάμερας, έχει αυξηθεί σημαντικά αφού οι ακολουθίες αυτές παρέχουν καλύτερη αναπαράσταση του οπτικού περιεχομένου και βελτιώνουν την επικοινωνία πολυμέσων. Οι τρισδιάστατες ακολουθίες επιτρέπουν τη αποδοτικότερη διαχείριση των αντικειμένων με την εκμετάλλευση της πληροφορίας βάθους που προκύπτει από τη στερεοσκοπική ανάλυση. Επιπλέον, το πρόβλημα της κατάτμησης σε αντικείμενα αντιμετωπίζεται με μεγαλύτερη ακρίβεια, αφού τα αντικείμενα αποτελούνται συνήθως από περιοχές εικόνας που ανήκουν στο ίδιο επίπεδο βάθους [44]. Ένας μεγάλος αριθμός εφαρμογών, όπως για παράδειγμα η αυτόνομη επιτήρηση (surveillance), η δεικτοδότηση, η ανάκληση και η διαχείριση οπτικοακουστικού υλικού, μπορούν να ωφεληθούν από την τρισδιάστατη αναπαράσταση. Γι’ αυτό το λόγο συσκευές σύλληψης 3-Δ δεδομένων, στερεοσκοπικά συστήματα κάμερας και συστήματα τρισδιάστατης απεικόνισης έχουν παρουσιάσει σημαντική ανάπτυξη και διάδοση, και συνεπώς τα αρχεία τρισδιάστατου βίντεο αναμένεται να αυξηθούν με ταχείς ρυθμούς τα επόμενα χρόνια. Η επεξεργασία και ανάλυση στερεοσκοπικών ακολουθιών που ακολουθείται στο πλαίσιο της διατριβής περιλαμβάνει τρία στάδια: (α) εκτίμηση πεδίου απόκλισης μέσω ταιριάσματος ενός στερεοσκοπικού ζεύγους εικόνων, (β) εκτίμηση πεδίου βάθους από το πεδίο απόκλισης μέσω στερεοσκοπικής ανάλυσης, και (γ) ανίχνευση και αντιστάθμιση επικάλυψης. Η στερεοσκοπική ανάλυση εικόνων για τη συσχέτιση του βάθους με την απόκλιση είναι γνωστή τεχνι- Π αρά το γεγονός ότι η συντριπτική πλειοψηφία των αρχείων βίντεο αποτελείται από διδιάστατες (2-Δ) ακολουθίες, η χρήση τρισδιάστατων (3-Δ) ή στερεοσκοπικών ακολουθιών 22 Κεφάλαιο 2 Κατάτμηση με Βάση το Πεδίο Βάθους 23 κή [49], ενώ ο χρησιμοποιούμενος αλγόριθμος για των εκτίμηση πεδίου απόκλισης και βάθους αποτελεί παραλλαγή του αντίστοιχου αλγορίθμου των [135,136]. Η μέθοδος ανίχνευσης και αντιστάθμισης επικάλυψης βασίζεται σε μεγάλο βαθμό στην [50] Όλες οι παραπάνω τεχνικές που εφαρμόζονται σε στερεοσκοπικές ακολουθίες προτάθηκαν στην εργασία [39] αλλά χρησιμοποιήθηκαν και στην [38]. 2.2 ΣΤΕΡΕΟΣΚΟΠΙΚΗ ΑΝΑΛΥΣΗ Όταν μία τρισδιάστατη σκηνή προβάλλεται στο επίπεδο μιας εικόνας μέσω μίας κάμερας, η πληροφορία του βάθους χάνεται, αφού η απεικόνιση αυτή είναι ένας μετασχηματισμός από τρισδιάστατο χώρο σε διδιάστατο. Συγκεκριμένα, μέσω της προοπτικής προβολής, κάθε 2-Δ σημείο της εικόνας αντιστοιχεί στο σύνολο όλων των συγγραμικών σημείων του 3-Δ χώρου που ανήκουν στη ευθεία η οποία διέρχεται από το σημείο αυτό και από το εστιακό σημείο της κάμερας [49]. Αν δεν είναι διαθέσιμη κάποια επιπλέον πληροφορία σχετικά με το πραγματικό 3-Δ σημείο που αντιστοιχεί στο σημείο της εικόνας, δεν είναι δυνατή η υλοποίηση ενός αντίστροφου μετασχηματισμού για την πλήρη ανάκτηση του 3-Δ σημείου. θ w Επίπεδο εικόνας I1 (x1,y1) λ z1 ^ ^ y1 ^ x1 Επίπεδο εικόνας I2 (x2,y2) ^ z2 λ ^ y2 ^ x2 b Σχήμα 2-1. Γεωμετρία στερεοσκοπικού συστήματος κάμερας με συγκλίνοντες οπτικούς άξονες και προοπτική προβολή των 3-Δ σημείων στα επίπεδα των εικόνων. Στις ακολουθίες εικόνων όμως, είναι δυνατή σε κάποιο βαθμό η ανάκτηση της πληροφορίας βάθους με βάση τις επικαλύψεις μεταξύ διαφορετικών περιοχών της εικόνας που βρίσκονται σε σχετική κίνηση μεταξύ τους [44]. Η εκτίμηση του βάθους είναι πολύ πιο αξιόπιστη με χρήση στερεοσκοπικής ανάλυσης, όταν είναι διαθέσιμες περισσότερες από μία απόψεις της ίδιας 3-Δ σκηνής από διαφορετικές κάμερες [75]. Η παρακάτω ανάλυση επικεντρώνεται στην περίπτωση του διοπτρικού (binocular) συστήματος κάμερας (όταν είναι διαθέσιμες δύο κάμερες), αλλά μπορεί εύκολα να επεκταθεί στη γενικότερη περίπτωση πολλαπλής κάμερας (multiocular ή multi-view) όπου βέβαια η εκτίμηση βάθους είναι ακόμη πιο αξιόπιστη. Ας θεωρήσουμε ένα στερεοσκοπικό σύστημα με δύο κάμερες εστιακού μήκους (focal length) λ και απόστασης βάσης (baseline distance) b, όπως φαίνεται στο Σχήμα 2-1. Έστω ότι οι δύο οπτικοί άξονες συγκλίνουν υπό γωνία θ. Παράλληλοι οπτικοί άξονες μπορούν επίσης να χρη- 24 ΜΕΡΟΣ I Ανάλυση Ακολουθιών Εικόνων σε Αντικείμενα σιμοποιηθούν [49], αλλά αυτό μπορεί να θεωρηθεί ειδική περίπτωση της παρακάτω ανάλυσης, θέτοντας θ = 0. Τα δύο αντίστοιχα τοπικά συστήματα συντεταγμένων ορίζονται από τα μονα^ ^ ^ ^ ^ ^ διαία διανύσματα x 1 , y 1 , z 1 και x 2 , y 2 , z 2 , ενώ οι δύο αρχές αξόνων βρίσκονται στα εστιακά σημεία (focal points), σε απόσταση λ από τα επίπεδα εικόνας (image planes) I1 και I2 αντίστοιχα. Χωρίς βλάβη της γενικότητας, έστω επίσης ότι το σύστημα συντεταγμένων που χρησιμοποιείται στην ανάλυση, δηλαδή το σύστημα αναφοράς (world coordinate system) ταυτίζεται με εκείνο της κάμερας 1 (αριστερής κάμερας). Τότε το σύστημα της κάμερας 2 (δεξιάς κάμε^ ρας) σχετίζεται με το πρώτο μέσω μιας περιστροφής κατά γωνία θ περί τον άξονα y 1 και μιας μετατόπισης κατά b. Για τη έκφραση των μετασχηματισμών μετατόπισης, περιστροφής και προοπτικής προβολής σε μορφή πινάκων χρησιμοποιούνται οι ομογενείς συντεταγμένες (homogeneous coordinates) αντί για τις Καρτεσιανές. Συγκεκριμένα, ένα 3-Δ σημείο w με Καρτεσιανές συντεταγμένες (X, Y, Z) εκφράζεται σε ομογενείς συντεταγμένες ως w = [kX kY kZ k]T όπου k είναι μία αυθαίρετη, μη μηδενική σταθερά. Η αντίστροφη μετατροπή σε Καρτεσιανές συντεταγμένες επιτυγχάνεται απλώς διαιρώντας τις τρεις πρώτες ομογενείς συντεταγμένες με την τέταρτη [49]. Με βάση τα παραπάνω, η προοπτική προβολή (perspective projection) του σημείου w στο επίπεδο I1 εκφράζεται ως 1 0 r1 = P w = 0 0 0 kX 1 0 0 kY 0 1 0 kZ 0 1 / λ 0 k 0 0 (2-1) όπου το διάνυσμα r1 = [k1X1 k1Y1 k1Z1 k1]T περιέχει τις ομογενείς συντεταγμένες της προβολής του σημείου w στο επίπεδο I1 , και P είναι ο πίνακας προοπτικής προβολής (perspective projection matrix) της κάμερας. Η παραπάνω σχέση προβολής είναι απλή διότι το σύστημα συντεταγμένων της κάμερας 1 συμπίπτει με το σύστημα αναφοράς. Με παρόμοιο τρόπο, προκύπτει ότι η προβολή r2 = [k2X2 k2Y2 k2Z2 k2]T του σημείου w στο επίπεδο I2 εκφράζεται ως 1 0 r2 = P R T w = 0 0 0 c 1 0 0 0 0 1 0 - s 0 1 / λ 0 0 0 0 0 s 0 1 1 0 0 0 0 c 0 0 0 0 1 0 0 0 - bc kX 1 0 0 kY 0 1 - bs kZ 0 0 1 k (2-2) όπου οι πίνακες R και T είναι πίνακες περιστροφής και μετατόπισης αντίστοιχα και προκύπτουν από τη σχέση μεταξύ των δύο συστημάτων συντεταγμένων που αναφέρθηκε παραπάνω, ενώ s = sinθ, c = cosθ, s = sin(θ/2) και c = cos(θ/2). Χρησιμοποιώντας τις δύο παραπάνω σχέσεις, οι συντεταγμένες (x1 , y1) και (x2 , y2) της προβολής του σημείου w στα επίπεδα I1 και I2 αντίστοιχα μπορούν να γραφούν συναρτήσει των συντεταγμένων (X, Y, Ζ ) ως εξής: λ X Y , y1 = λ Z Z Xc + Zs - bc , x2 = λ - Xs + Zc + bs x1 = λ (2-3) y2 = λ Y - Xs + Zc + bs (2-4) ενώ οι συνιστώσες βάθους z1 και z2 είναι και οι δύο ίσες με λ και επομένως ανεξάρτητες από τις (X, Y, Ζ). Επιπλέον, συνδυάζοντας τις Εξισώσεις (2-3) και (2-4) είναι δυνατό να εκφράσει κανείς το x2 ως προς το x1 και το y2 ως προς το y1, απαλείφοντας τις συντεταγμένες X και Y: Κεφάλαιο 2 Κατάτμηση με Βάση το Πεδίο Βάθους ( λs + x 1c )Z - λbc , ( λc - x 1s )Z + λbs y 1Z ( λc - x 1s )Z + λbs 25 x2 = λ y2 = λ (2-5) Επομένως, αν το βάθος Z είναι γνωστό, η παραπάνω εξίσωση δίνει μία πολύ απλή σχέση ανάμεσα στις συντεταγμένες (x1 , y1) και (x2 , y2) ενός σημείου που προβάλλεται στις δύο κάμερες. Το αντίστροφο πρόβλημα, της εκτίμησης του βάθος από τη σχέση μεταξύ των (x1 , y1) και (x2 , y2), αποτελεί αντικείμενο της επόμενης Ενότητας. 2.3 ΕΚΤΙΜΗΣΗ ΠΕΔΙΟΥ ΒΑΘΟΥΣ ΚΑΙ ΑΠΟΚΛΙΣΗΣ Εκτίμηση Πεδίου Βάθους Αν η αντιστοιχία μεταξύ δύο 2-Δ σημείων (x1 , y1) και (x2 , y2) είναι γνωστή, αν δηλαδή είναι γνωστό ότι προέρχονται και τα δύο από την προοπτική προβολή του ίδιου 3-Δ σημείου w στα επίπεδα εικόνας I1 και I2 αντίστοιχα, τότε η εκτίμηση του βάθους Z είναι δυνατή από την Εξίσωση (2-5). Σημειώνεται μάλιστα ότι το Z είναι το βάθος στο σύστημα συντεταγμένων της κάμερας 1, αφού αυτό συμπίπτει με το σύστημα αναφοράς. Στην ειδική περίπτωση όπου θ = 0 (παράλληλοι οπτικοί άξονες) η εξίσωση απλοποιείται σε x2 = x1 - λb/Z, y2 = y1 , και επομένως Z = -λb/(x2 - x1). Στη γενικότερη περίπτωση (θ 0), η εκτίμηση του Z βασίζεται στο διάνυσμα απόκλισης (disparity vector) μεταξύ των 2-Δ σημείων (x1 , y1) και (x2 , y2). Συγκεκριμένα, το διάνυσμα απόκλισης d(x1 , y1) = [dx(x1 , y1) dy(x1 , y1)]T στη θέση (x1 , y1) της κάμερας 1 ως προς την κάμερα 2 ορίζεται από τις σχέσεις d x = dx ( x 1 , y 1 ) = x 2 - x 1 = d y = d y ( x1 , y 1 ) = y 2 - y 1 = [ λ ( λs + x1c ) - x1 ( λc - x1s )]Z - λb( λc + x1s) ( λc - x 1s )Z + λbs [ λ - ( λc - x 1s )]y 1Z - λbsy 1 ( λc - x1s )Z + λbs (2-6) (2-7) Επομένως, αν το διάνυσμα απόκλισης είναι γνωστό, οι Εξισώσεις (2-6) και (2-7) ανάγονται σε ένα γραμμικό σύστημα δύο εξισώσεων με ένα άγνωστο, το Z. Έτσι μία εκτίμηση ελαχίστων τετραγώνων είναι εφικτή με χρήση του ψευδοαντίστροφου του πίνακα διαστάσεων 2 1 που περιέχει τους συντελεστές του Z [136]. Με άλλα λόγια, αν τα διανύσματα απόκλισης είναι διαθέσιμα για όλα τα σημεία (x1 , y1) στο επίπεδο I1 , σχηματίζοντας ένα πεδίο απόκλισης (disparity field), τότε ένα αντίστοιχο πεδίο βάθους (depth field) μπορεί να υπολογισθεί με την παραπάνω διαδικασία. Παρά το γεγονός ότι ο υπολογισμός του βάθους από την απόκλιση είναι άμεσος και απλός, η εκτίμηση του πεδίου απόκλισης από τις εικόνες στα επίπεδα I1 και I2 είναι μία επίπονη διαδικασία η οποία απαιτεί την αντιστοίχιση κάθε σημείου (x1 , y1) της εικόνας I1 με ένα σημείο (x2 , y2) της εικόνας I2 , οδηγώντας σε υψηλό υπολογιστικό κόστος. Η διαδικασία αυτή είναι ανάλογη με την εκτίμηση κίνησης σε ακολουθίες εικόνων και περιγράφεται αναλυτικά παρακάτω. Εκτίμηση Πεδίου Απόκλισης Η εκτίμηση του πεδίου απόκλισης επιτυγχάνεται με τη χρήση ενός αλγορίθμου block matching, παρόμοιου με εκείνο που παρουσιάζεται στην εργασία [135]. Συγκεκριμένα, έστω ότι I1(x, y) και I2(x, y), συμβολίζουν αντίστοιχα τις τιμές των εικόνων στα επίπεδα I1 και I2 στη θέση (x, y) F = {1,..., M0} {1,..., N0}, όπου M0 , N0 είναι οι διαστάσεις των δύο εικόνων. Οι εικόνες 26 ΜΕΡΟΣ I Ανάλυση Ακολουθιών Εικόνων σε Αντικείμενα I1 και I2 ονομάζονται επίσης και αριστερό / δεξί κανάλι (left/right channel) αντίστοιχα. Ο στόχος είναι να αντιστοιχηθεί κάθε pixel (x1 , y1) της εικόνας I1 με ένα pixel (x2 , y2) της εικόνας I2 , μέσα σε μία περιοχή αναζήτησης (search area) διαστάσεων sx sy pixels γύρω από το σημείο (x1 , y1). Το διάνυσμα απόκλισης που προκύπτει από την αντιστοίχιση είναι d(x1 , y1) = (x2 - x1 , y2 - y1) B = {-sx ,..., sx} {-sy ,..., sy}. Η κατακόρυφη διάσταση sy της περιοχής αναζήτησης είναι πολύ μικρότερη από την οριζόντια, διότι η γωνία σύγκλισης θ είναι συνήθως μικρή και όλες οι αποκλίσεις είναι συνήθως κατά τον οριζόντιο άξονα. Σημειώνεται ότι στην ειδική περίπτωση των παράλληλων οπτικών αξόνων (θ = 0) η περιοχή αναζήτησης ανάγεται σε ευθύγραμμο τμήμα (sy = 0). (α) (β) (γ) (δ) (ε) Σχήμα 2-2. Εκτίμηση πεδίου απόκλισης και βάθους για την ακολουθία Claude. (α) Αριστερό κανάλι. (β) Δεξί κανάλι. (γ) Συνάρτηση βάρους εξομάλυνσης. (δ) Πεδίο οριζόντιας απόκλισης. (ε) Πεδίο βάθους. Το ταίριασμα ανάμεσα στα pixels (x1 , y1) της I1 με τα pixels (x2 , y2) της I2 , και ισοδύναμα η εκτίμηση της απόκλισης d(x1 , y1), πραγματοποιείται μέσω της ακόλουθης ελαχιστοποίησης: d(x1 , y1) = arg min J ( u , x 1 , y 1 ) , uB (x1 , y1) F (2-8) όπου u = [ux uy]T B είναι ένα διάνυσμα μετατόπισης (displacement vector) του σημείου (x1 , y1) ως προς την εικόνα I2 , και J είναι η ακόλουθη συνάρτηση κόστους (cost function): J(u, x1 , y1) = D(u, x1 , y1) + S(u, x1 , y1), ror function) που ορίζεται ως D(u, x1 , y1) = x , yW u B, (x1 , y1) F (2-9) Ο πρώτος όρος, D(u, x1 , y1), της συνάρτησης κόστους είναι μία συνάρτηση σφάλματος (block er- ( I 2 ( x1 + ux + x , y 1 + u y + y ) - I 1 (x 1 + x , y 1 + y ))2 , u B, (x1 , y1) F (2-10) όπου W = {-w,..., w } {-w,..., w } είναι ένα τετράγωνο παράθυρο. Ο δεύτερος όρος, S(u, x1 , y1), είναι μία συνάρτηση εξομάλυνσης (smoothness function) που χρησιμοποιείται για τη μείωση του θορύβου στην εκτίμηση του d(x1 , y1) και ορίζεται ως S(u, x1 , y1) = R(x1 , y1) vN ( x 1 , y 1 ) u-v 2 , u B, (x1 , y1) F (2-11) Κεφάλαιο 2 Κατάτμηση με Βάση το Πεδίο Βάθους 27 όπου είναι η Ευκλείδεια νόρμα και N(x1 , y1) = {d(x1 - 1, y1), d(x1 - 1, y1 - 1), d(x1 , y1 - 1), d(x1 + 1, y1 - 1)} είναι το σύνολο των διανυσμάτων απόκλισης όλων των pixels που είναι γειτονικά με το (x1 , y1). Τα διανύσματα αυτά έχουν ήδη υπολογισθεί από την Εξίσωση (2-8). Η συνάρτηση βάρους εξομάλυνσης (smoothing weight function) R(x1 , y1) παίρνει χαμηλές τιμές σε περιοχές της εικόνας όπου η εκτίμηση της απόκλισης είναι αξιόπιστη, όπως οι ακμές και οι περιοχές πολύπλοκης υφής, και υψηλές τιμές σε περιοχές όπου η εκτίμηση δεν είναι αξιόπιστη, όπως περιοχές ομοιόμορφης φωτεινότητας. Η R(x1 , y1) υπολογίζεται βάσει της τοπικής διασποράς της εικόνας I1 , και χρησιμοποιείται επίσης για την εκτίμηση του ακριβούς μεγέθους της περιοχής αναζήτησης B. Αφού σε περιοχές με υψηλή τιμή της R(x1 , y1) το πεδίο απόκλισης μεταβάλλεται ομοιόμορφα, μία μικρή περιοχή αναζήτησης είναι επαρκής. Αντίθετα, σε περιοχές με χαμηλή τιμή της R(x1 , y1) αναμένονται απότομες μεταβολές στην απόκλιση, οπότε απαιτείται μεγάλη περιοχή αναζήτησης. Συνεπάγεται ότι τα sx και sy μεταβάλλονται συναρτήσει της R(x1 , y1), καταλήγοντας σε γρήγορη υλοποίηση της διαδικασίας ελαχιστοποίησης. (α) (β) (γ) (δ) (ε) Σχήμα 2-3. Εκτίμηση πεδίου απόκλισης και βάθους για την ακολουθία Aqua. (α) Αριστερό κανάλι. (β) Δεξί κανάλι. (γ) Συνάρτηση βάρους εξομάλυνσης. (δ) Πεδίο οριζόντιας απόκλισης. (ε) Πεδίο βάθους. Αποτελέσματα εκτίμησης του πεδίου απόκλισης και βάθους παρουσιάζονται στο Σχήμα 22 για την ακολουθία Claude. Συγκεκριμένα, στα Σχήματα 2-2α,β φαίνονται το αριστερό και δεξί κανάλι του καρέ #2 της ακολουθίας αντίστοιχα, ενώ στο Σχήμα 2-2γ φαίνεται η συνάρτηση βάρους εξομάλυνσης. Η κατακόρυφη απόκλιση είναι αμελητέα για την ακολουθία αυτή, αφού οι δύο κάμερες βρίσκονται στο ίδιο κατακόρυφο επίπεδο και η γωνία σύγκλισης θ είναι μικρή. Έτσι υπολογίζεται μόνο το πεδίο οριζόντιας απόκλισης dx(x1 , y1), το οποίο και παρουσιάζεται στο Σχήμα 2-2δ, όπου οι λευκές περιοχές αντιστοιχούν σε θετική απόκλιση και οι γκρίζες περιοχές σε σχεδόν μηδενική απόκλιση. Τέλος, το πεδίο βάθους εμφανίζεται στο Σχήμα 2-2ε, όπου οι μαύρες περιοχές αντιστοιχούν στο φόντο (μεγάλο βάθος) και οι γκρίζες περιοχές στο προσκήνιο (μικρό βάθος). Σημειώνεται ότι και στα δύο πεδία οι σκιασμένες περιοχές βαθμιαίας μεταβολής έντασης (στην αριστερή πλευρά του προσώπου και στο δεξί όριο της εικόνας) οφείλονται στο φαινόμενο της επικάλυψης, το οποίο εξετάζεται στη συνέχεια. Αντίστοιχα αποτελέσματα για το καρέ #1 της ακολουθίας Aqua παρουσιάζονται στο Σχήμα 2-3. 28 2.4 ΑΝΙΧΝΕΥΣΗ ΕΠΙΚΑΛΥΨΗΣ ΜΕΡΟΣ I Ανάλυση Ακολουθιών Εικόνων σε Αντικείμενα Η παραπάνω ανάλυση εκτίμησης της απόκλισης προϋποθέτει ότι σε κάθε σημείο της εικόνας I1 αντιστοιχεί ένα σημείο της εικόνας I2 . Όμως, επειδή κάθε κάμερα δίνει διαφορετική άποψη της 3-Δ σκηνής, μπορεί να υπάρχουν περιοχές της εικόνας I1 που δεν εμφανίζονται στην I2 γιατί επικαλύπτονται από άλλες περιοχές. Αυτή η περίπτωση ονομάζεται επικάλυψη (occlusion) και απεικονίζεται στο Σχήμα 2-4, όπου ένα κοντινό και ένα μακρινό αντικείμενο προβάλλονται στις δύο κάμερες. A B Μακρινό αντικείμενο C Επίπεδο εικόνας I1 A1 ^ λ z1 ^ y1 ^ x1 Κοντινό αντικείμενο A2=C2 ^ z2 B1=C1 Επίπεδο εικόνας I2 ^ x2 λ ^ y2 Σχήμα 2-4. Επικάλυψη μακρινού αντικειμένου από κοντινότερο στην εικόνα I2. Όπως φαίνεται στο Σχήμα, ενώ το ευθύγραμμο τμήμα AB του μακρινού αντικειμένου είναι ορατό από την κάμερα 1 και προβάλλεται στο τμήμα A1B1 , στην κάμερα 2 καλύπτεται από το κοντινό αντικείμενο. Μόνο το σημείο A είναι ορατό στην κάμερα 2, το οποίο και προβάλλεται στο σημείο A2 . Το αριστερό άκρο C του κοντινού αντικειμένου προβάλλεται στο σημείο C1 = B1 του επιπέδου I1 και στο σημείο C2 = A2 του I2 . Επιπλέον, έστω ότι x1(P ) και x2(P ) είναι η οριζόντια συνιστώσα της προβολής οποιουδήποτε 3-Δ σημείου P στο επίπεδο I1 και I2 αντίστοιχα, και dx(P ) = x2(P ) - x1(P ) είναι η αντίστοιχη οριζόντια απόκλιση. Τότε το μήκος του ευθύγραμμου τμήματος A1B1 είναι l = x1(B) - x1(A) = (x2(A) - x1(A)) - (x2(C ) - x1(C )) = dx(A) - dx(C ) > 0, αφού είναι δεδομένο ότι l > 0, x1(B) = x1(C ) και x2(A) = x2(C). Αυτό σημαίνει ότι για κάθε οριζόντιο ευθύγραμμο τμήμα που είναι ορατό από την κάμερα 1 αλλά όχι από την κάμερα 2, κατά τη διαγραφή του τμήματος με κατεύθυνση από αριστερά προς τα δεξιά παρουσιάζεται μείωση στην οριζόντια απόκλιση, ίση με το μήκος του τμήματος [50]. Όλες οι τιμές απόκλισης που προκύπτουν με τη διαδικασία ελαχιστοποίησης της Εξίσωσης (2-8) για τις περιοχές της εικόνας I1 που δεν είναι ορατές στην I2 δεν είναι αξιόπιστες και οδηγούν σε λανθασμένη εκτίμηση βάθους. Είναι σαφές επομένως ότι (α) οι περιοχές αυτές πρέπει να ανιχνευθούν (β) η επικάλυψη πρέπει να αντισταθμιστεί, αναθέτοντας κατάλληλες τιμές απόκλισης στις επικαλυπτόμενες περιοχές που ανιχνεύονται Η πρώτη διαδικασία, η ανίχνευση επικάλυψης (occlusion detection), επιτυγχάνεται εντοπίζοντας περιοχές της I1 στις οποίες η οριζόντια απόκλιση είναι φθίνουσα συνάρτηση της συνιστώσας x1 και με κλίση περίπου ίση με -1. Η κατακόρυφη απόκλιση δε λαμβάνεται υπόψη Κεφάλαιο 2 Κατάτμηση με Βάση το Πεδίο Βάθους 29 αφού όλες οι αποκλίσεις είναι κυρίως κατά την οριζόντια κατεύθυνση όπως εξηγείται στα παραπάνω παραδείγματα. Η δεύτερη διαδικασία, η αντιστάθμιση επικάλυψης (occlusion compensation), επιτυγχάνεται διατηρώντας την τιμή απόκλισης σταθερή σε κάθε επικαλυπτόμενη περιοχή, και ίση με τη μέγιστη απόκλιση στην περιοχή αυτή. Έτσι κάθε επικαλυπτόμενη περιοχή ουσιαστικά συγχωνεύεται με τη γειτονική της περιοχή που έχει το μεγαλύτερο βάθος. Κάτι τέτοιο είναι αναμενόμενο αφού ένα αντικείμενο καλύπτεται από ένα άλλο μόνο όταν βρίσκεται πιο μακριά από την κάμερα. 40 35 30 25 Χωρίς αντιστάθμιση Με αντιστάθμιση dx(x1,160) 20 15 10 5 0 -5 -10 0 50 100 150 200 250 300 350 x1 (α) (β) (γ) (δ) Σχήμα 2-5. Ανίχνευση και αντιστάθμιση επικάλυψης για την ακολουθία Claude. (α) 1-Δ αντιστάθμιση για τη γραμμή 160 του πεδίου οριζόντιας απόκλισης. (β) Επικαλυπτόμενες περιοχές (μαύρο χρώμα). (γ) Αντισταθμισμένο πεδίο απόκλισης. (δ) Αντισταθμισμένο πεδίο βάθους. (α) (β) Σχήμα 2-6. Ανίχνευση και αντιστάθμιση επικάλυψης για την ακολουθία Aqua. (α) Αντισταθμισμένο πεδίο οριζόντιας απόκλισης. (β) Αντισταθμισμένο πεδίο βάθους. Η προτεινόμενη τεχνική ανίχνευσης και αντιστάθμισης επικάλυψης παρουσιάζεται στο Σχήμα 2-5 για το αριστερό κανάλι του καρέ #2 της ακολουθίας Claude. Η μονοδιάστατη περίπτωση φαίνεται πρώτα στο Σχήμα 2-5α, όπου εμφανίζεται το γράφημα της οριζόντιας απόκλισης dx(x1 , 160) συναρτήσει της συνιστώσας x1 για τη γραμμή της εικόνας I1 με κατακόρυφη 30 ΜΕΡΟΣ I Ανάλυση Ακολουθιών Εικόνων σε Αντικείμενα συνιστώσα y1 = 160, πριν και μετά την αντιστάθμιση επικάλυψης. Είναι σαφές ότι στα διαστήματα όπου η dx αυξάνει ή είναι σταθερή η απόκλιση παραμένει ανέπαφη. Αντίθετα, τα διαστήματα φθίνουσας απόκλισης ανιχνεύονται ως επικαλυπτόμενα και εκεί η απόκλιση αντισταθμίζεται, αναθέτοντας τιμή απόκλισης ίση με εκείνη του γειτονικού μη επικαλυπτόμενου διαστήματος που βρίσκεται στα αριστερά του κάθε επικαλυπτόμενου διαστήματος. Οι επικαλυπτόμενες περιοχές του 2-Δ πεδίου οριζόντιας απόκλισης φαίνονται με μαύρο χρώμα στο Σχήμα 2-5β, ενώ το αντισταθμισμένο πεδίο απόκλισης και το αντίστοιχο πεδίο βάθους στα Σχήματα 2-5γ και δ αντίστοιχα. Παρατηρείται ότι, με εξαίρεση τα ανακριβή όρια (περιγράμματα) των αντικειμένων, το αντισταθμισμένο πεδίο βάθους παρέχει αξιόπιστο διαχωρισμό ανάμεσα στα κοντινά και μακρινά αντικείμενα. Παρόμοια αποτελέσματα φαίνονται στο Σχήμα 2-6 για το καρέ #1 της ακολουθίας Aqua. Σε κάθε περίπτωση το πεδίο βάθους είναι πιο αξιόπιστο μετά την αντιστάθμιση. 2.5 ΚΑΤΑΤΜΗΣΗ Η κατάτμηση με βάση το πεδίο βάθους σε στερεοσκοπικές ακολουθίες πραγματοποιείται εφαρμόζοντας τον αλγόριθμο M-RSST στο αντισταθμισμένο πεδίο βάθους που προκύπτει από το στερεοσκοπικό ζεύγος κάθε καρέ της ακολουθίας. Για τους σκοπούς της κατάτμησης με βάση το πεδίο βάθους η απόσταση δd(X,Y) μεταξύ δύο γειτονικών περιοχών X και Y συνήθως ορίζεται, όμοια με την (1-1), ως το γινόμενο της Ευκλείδειας απόστασης των μέσων τιμών βάθους των δύο περιοχών και ενός όρου που είναι συνάρτηση του μεγέθους των δύο περιοχών σε pixels και ευνοεί τη συγχώνευση των μικρών περιοχών. Το πεδίο βάθους είναι μονοδιάστατο και επομένως χρησιμοποιείται η απόλυτη τιμή της διαφοράς βάθους: δ d (X , Y ) = d( X ) - d(Y ) a( X )a(Y ) a( X ) + a(Y ) (2-12) όπου d(X) είναι οι μέση τιμή βάθους στο εσωτερικό της περιοχής X και a(X) είναι το μέγεθός της σε pixels. Στα πειράματα χρησιμοποιείται κατώφλι απόστασης για τον τερματισμό της διαδικασίας κατάτμησης, όπως και στην περίπτωση κατάτμησης με βάση το χρώμα και την κίνηση. Επίσης υιοθετείται χαμηλότερο επίπεδο ανάλυσης L0 = 3 για την αρχικοποίηση του αλγορίθμου, που αντιστοιχεί σε blocks μεγέθους 8 8 pixels. (α) (β) Σχήμα 2-7. Κατάτμηση με βάση το πεδίο βάθους για την ακολουθία Claude. (α) Αντισταθμισμένο πεδίο βάθους. (β) Αποτέλεσμα κατάτμησης. Στο Σχήμα 2-7 εμφανίζονται τα αποτελέσματα της κατάτμησης με βάση το πεδίο βάθους για την ακολουθία Claude. Συγκεκριμένα, στο Σχήμα 2-7α φαίνεται το αντισταθμισμένο πε- Κεφάλαιο 2 Κατάτμηση με Βάση το Πεδίο Βάθους 31 δίο βάθους, ενώ στο Σχήμα 2-7β το τελικό στάδιο κατάτμησης για το υψηλότερο επίπεδο ανάλυσης L0 = 0. Αντίστοιχα αποτελέσματα παρουσιάζονται στο Σχήμα 2-8 για την ακολουθία Aqua. Παρατηρείται ότι για την ακολουθία Claude παράγονται δύο αντικείμενα, που αντιστοιχούν στο φόντο και στο πρόσωπο που βρίσκεται στο προσκήνιο, ενώ για την ακολουθία Aqua παράγονται εννέα συνολικά αντικείμενα. (α) (β) Σχήμα 2-8. Κατάτμηση με βάση το πεδίο βάθους για την ακολουθία Aqua. (α) Αντισταθμισμένο πεδίο βάθους. (β) Αποτέλεσμα κατάτμησης. Και στις δύο περιπτώσεις οι περιοχές που ανιχνεύει ο αλγόριθμος κατάτμησης με βάση το πεδίο βάθους είναι πολύ κοντά στα πραγματικά αντικείμενα που υπάρχουν στις εικόνες. Αυτό είναι αναμενόμενο αφού κάθε αντικείμενο βρίσκεται συνήθως στο ίδιο επίπεδο βάθους. Όμως, λόγω της λανθασμένης εκτίμησης της απόκλισης, καθώς και της επικάλυψης μεταξύ αντικειμένων, οι οριακές περιοχές των αντικειμένων, επομένως και τα περιγράμματά τους είναι σχεδόν πάντα ανακριβή. Το ίδιο συμβαίνει και με την κατάτμηση με βάση την κίνηση. Αντίθετα η κατάτμηση με βάση το χρώμα δίνει πάντα σωστά περιγράμματα αντικειμένων, αλλά αποτυγχάνει να ανιχνεύσει τα πραγματικά αντικείμενα. Γι’ αυτό το λόγο προτείνεται η συγχώνευση των αντικειμένων που προκύπτουν από διαφορετικές διαδικασίες κατάτμησης, ώστε να συνδυάζονται τα πλεονεκτήματα της κάθε μιας. Ο αλγόριθμος συγχώνευσης παρουσιάζεται στο επόμενο Κεφάλαιο. Κεφάλαιο 3 Συγχώνευση Αντικειμένων Τα τμήματα εικόνας που προκύπτουν από την κατάτμηση με βάση το πεδίο βάθους σε μια στερεοσκοπική ακολουθία βίντεο προσεγγίζουν ικανοποιητικά τα πραγματικά αντικείμενα της ακολουθίας, αφού τα τελευταία συνήθως αποτελούνται από περιοχές που βρίσκονται στο ίδιο επίπεδο βάθους· όμως τα περιγράμματα αυτών των τμημάτων είναι αναξιόπιστα λόγω της ανακρίβειας στην εκτίμηση του πεδίου απόκλισης και των ζητημάτων επικάλυψης. Από την άλλη μεριά η κατάτμηση με βάση το χρώμα δίνει ακριβή περιγράμματα αλλά συνήθως διαχωρίζει κάθε αντικείμενο σε περισσότερα από ένα τμήματα. Για το λόγο αυτό παρουσιάζεται ένας αλγόριθμος συγχώνευσης των τμημάτων χρώματος με βάση την πληροφορία των τμημάτων βάθους. Έτσι οι δύο ανεξάρτητες κατατμήσεις συνδυάζονται και εξάγονται με ακρίβεια τα σημασιολογικά αντικείμενα της ακολουθίας. Η ίδια ακριβώς τεχνική μπορεί να χρησιμοποιηθεί για την συγχώνευση των τμημάτων χρώματος με τα τμήματα κίνησης. Η αναπαράσταση του οπτικού περιεχομένου που προκύπτει από τη συγχώνευση είναι πιο αξιόπιστη και οδηγεί σε αποτελεσματικότερη εξαγωγή περίληψης καθώς και αναζήτησης με βάση το περιεχόμενο. 3.1 ΑΝΙΧΝΕΥΣΗ ΣΗΜΑΣΙΟΛΟΓΙΚΩΝ ΑΝΤΙΚΕΙΜΕΝΩΝ οπτικό περιεχόμενο περιγράφεται με βάση τα αντικείμενα που εμφανίζονται στην ακολουθία και έχουν σημασιολογικό (semantic) περιεχόμενο, δηλαδή πραγματικά αντικείμενα με φυσικό νόημα. Η σημασιολογική κατάτμηση έχει πρόσφατα προσελκύσει μεγάλο ενδιαφέρον στην ερευνητική κοινότητα, και ειδικότερο στο πλαίσιο των αναπτυσσόμενων προτύπων κωδικοποίησης MPEG-4 και MPEG-7 [1,51,85,117]. Παρά το γεγονός ότι κάποιες λύσεις έχουν προταθεί για συγκεκριμένες εφαρμογές (π.χ. βιντεοτηλέφωνο, δελτία ειδήσεων κλπ.) [23,44], η σημασιολογική κατάτμηση για ακολουθίες γενικού περιεχομένου θεωρείται ακόμη ένα άλυτο πρόβλημα [95]. Στις στερεοσκοπικές ακολουθίες βίντεο όμως, όπου η πληροφορία βάθους μπορεί να εκτιμηθεί με αρκετά μεγάλη ακρίβεια, αντικείμενα με σημασιολογικό περιεχόμενο μπορούν να αναγνωρισθούν αφού η επιφάνεια ενός πραγματικού αντικειμένου βρίσκεται συνήθως στο ίδιο επίπεδο βάθους. Για τη σωστή αναγνώριση πραγματικών αντικειμένων, με ταυτόχρονη διατήρηση του ακριβούς περιγράμματος κάθε αντικειμένου, προτείνεται η κατάτμηση των ακολουθιών με βάση το χρώμα, την κίνηση και το πεδίο βάθους, και στη συνέχεια η συγχώνευση των αντικειμένων που προκύπτουν από τις διαφορετικές κατατμήσεις. Παρά το γεγονός ότι η κατάτμηση με βάση το πεδίο βάθους παρέχει καλύτερη αναπαράσταση το οπτικού περιεχομένου, αφού οι περιοχές που ανιχνεύει είναι πιο κοντά στα πραγματικά αντικείμενα, η κατάτμηση αυτή αποτυγχάνει να εκτιμήσει με ακρίβεια τις οριακές περιο- Η εξαγωγή περίληψης μιας ακολουθίας βίντεο, καθώς και η αναζήτηση με βάση το περιεχόμενο, μπορούν να πραγματοποιηθούν πολύ πιο αποδοτικά και αξιόπιστα, αν το 32 Κεφάλαιο 3 Συγχώνευση Αντικειμένων 33 χές των αντικειμένων και τα περιγράμματά τους. Αυτό οφείλεται στις ανακρίβειες της εκτίμησης της απόκλισης ανάμεσα στις εικόνες που προέρχονται από διαφορετικές κάμερες, καθώς και σε ζητήματα που σχετίζονται με την επικάλυψη των αντικειμένων. Αντίθετα, η κατάτμηση με βάση το χρώμα ανιχνεύει με μεγάλη ακρίβεια τα περιγράμματα των αντικειμένων αλλά δε μπορεί να αναγνωρίσει σωστά τα πραγματικά αντικείμενα, αφού συνήθως τα διαχωρίζει σε περισσότερα από ένα τμήματα [1]. Γι’ αυτό το λόγο προτείνεται η συγχώνευση (fusion) των αντικειμένων που προκύπτουν από τα διαφορετικά είδη κατάτμησης σε μία κοινή κατάτμηση η οποία συνδυάζει τα πλεονεκτήματα της κάθε μιας. Ο προτεινόμενος αλγόριθμος συγχώνευσης βασίζεται σε δύο διαφορετικές κατατμήσεις μιας εικόνας, μία με βάση το χρώμα και μία με βάση το πεδίο βάθους. Τα τμήματα που προκύπτουν ονομάζονται τμήματα χρώματος και τμήματα βάθους αντίστοιχα. Ο αλγόριθμος ουσιαστικά συγχωνεύει τα τμήματα χρώματος που ανήκουν (έχουν δηλαδή μεγαλύτερο ποσοστό επικάλυψης) στο ίδιο τμήμα βάθους. Μία ανάλογη διαδικασία μπορεί να πραγματοποιηθεί με τα τμήματα χρώματος και τα τμήματα κίνησης τα οποία προκύπτουν με κατάτμηση με βάση την κίνηση. Τα τμήματα κίνησης, όπως και τα τμήματα βάθους, δεν παρέχουν ακριβή περιγράμματα αλλά δίνουν καλή εκτίμηση των πραγματικών αντικειμένων αφού δύο τμήματα που κινούνται με τον ίδιο τρόπο συνήθως ανήκουν στο ίδιο αντικείμενο. Στην πραγματικότητα, ο χρησιμοποιούμενος αλγόριθμος συγχώνευσης είναι εμπνευσμένος από την εργασία [1], όπου όμως αναφέρεται συγχώνευση χρώματος και κίνησης μόνο, ενώ στο πλαίσιο της διατριβής πραγματοποιείται κυρίως συγχώνευση χρώματος και βάθους. Ο αλγόριθμος προτάθηκε για πρώτη φορά στην εργασία [39] αλλά χρησιμοποιήθηκε και στην [38]. Σημειώνεται ότι η συγχώνευση τμημάτων χρώματος με βάση την κίνηση είναι ιδιαίτερα χρήσιμη όταν η πληροφορία βάθους δεν είναι διαθέσιμη. Η ακόλουθη παρουσίαση του αλγορίθμου αναφέρεται σε συγχώνευση με βάση το βάθος, αλλά μπορεί να εφαρμοσθεί χωρίς αλλαγές και για συγχώνευση με βάση την κίνηση. 3.2 ΑΛΓΟΡΙΘΜΟΣ ΣΥΓΧΩΝΕΥΣΗΣ Ας υποθέσουμε ότι ένα καρέ μιας ακολουθίας διαχωρίζεται σε Kc τμήματα με βάση το χρώμα και σε Kd τμήματα με βάση το πεδίο βάθους. Έστω ότι τα τμήματα χρώματος συμβολίζονται με Sic , i = 1, 2, ..., Kc, και τα τμήματα βάθους με Sid , i = 1, 2, ..., Kd, αντίστοιχα. Τα τμήματα χρώc ματος Sic είναι συνεκτικά και δεν έχουν επικαλύψεις μεταξύ τους, δηλαδή Sic Sk = για d κάθε i, k = 1, 2, ..., Kc, με i k. Όμοια για τα τμήματα βάθους Sid ισχύει Sid Sk = για κάθε i, k = 1, 2, ..., Kd, με i k. Έστω επίσης ότι με Gc και Gd συμβολίζονται τα σύνολα όλων των τμημάτων με βάση το χρώμα και το πεδίο βάθους αντίστοιχα: G c = {Sic , i = 1,2 , G d ,Kc } ,K } d (3-1) (3-2) = {Sid , i = 1,2 , Τα τμήματα χρώματος προβάλλονται στα τμήματα βάθους, έτσι ώστε να διατηρηθούν τα αντικείμενα που ανιχνεύονται από την πληροφορία βάθους, αλλά ταυτόχρονα και τα περιγράμματα που προκύπτουν με βάση το χρώμα. Για το σκοπό αυτό κάθε τμήμα χρώματος Sic σχετίζεται με ένα τμήμα βάθους με τέτοιο τρόπο ώστε η επιφάνεια επικάλυψης των δύο τμη- 34 ΜΕΡΟΣ I Ανάλυση Ακολουθιών Εικόνων σε Αντικείμενα μάτων να μεγιστοποιείται. Αυτό επιτυγχάνεται μέσω μιας συνάρτησης προβολής (projection function): p(Sic , G d ) = arg max{ a( g Sic )} , gG d i = 1, 2, ..., Kc (3-3) όπου a() είναι η επιφάνεια, δηλαδή το πλήθος των pixels, ενός τμήματος. Με βάση την προηγούμενη εξίσωση, ορίζονται Kd σύνολα τμημάτων χρώματος, έστω Ci , i = 1, 2, ..., Kd, κάθε ένα από τα οποία περιέχει όλα τα τμήματα χρώματος που προβάλλονται στο ίδιο τμήμα βάθους S id : C i = { g G c : p( g , G d ) = Sid } , i = 1, 2, ..., Kd κύπτει από τη συγχώνευση όλων των στοιχείων του αντίστοιχου συνόλου Ci : Si = g, gC i (3-4) Στη συνέχεια κατασκευάζονται K = Kd τμήματα Si , i = 1, 2, ..., K, κάθε ένα από τα οποία προi = 1, 2, ..., K (3-5) Τέλος, η συνολική κατάτμηση, G, ορίζεται ως το σύνολο όλων των παραπάνω τμημάτων: G = {Si , i = 1, 2, ..., K} d (3-6) Με άλλα λόγια, τα τμήματα χρώματος συγχωνεύονται κατά ομάδες σε K = K νέα τμήματα με κριτήριο την ομοιότητα βάθους. Η τελική κατάτμηση που παράγεται από τον αλγόριθμο αποτελείται από τμήματα τα οποία περιέχουν τις ίδιες περίπου περιοχές της εικόνας, όπως και τα τμήματα βάθους, αλλά με ακριβή περιγράμματα που προέρχονται από τα τμήματα χρώματος. 3.3 ΠΕΙΡΑΜΑΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ Πειραματικά αποτελέσματα της συγχώνευσης αντικειμένων παρουσιάζονται στα Σχήματα 3-1 και 3-2 για την ακολουθία Claude. Η εικόνα του αριστερού καναλιού του καρέ #2 της αρχικής ακολουθίας φαίνεται στο Σχήμα 3-1α. Αρχικά πραγματοποιείται ανεξάρτητη κατάτμηση με βάση το χρώμα και το πεδίο βάθους, όπως φαίνεται στα Σχήματα 3-1β,γ αντίστοιχα. Η κατάτμηση και στις δύο περιπτώσεις γίνεται με τον αλγόριθμο M-RSST, όπως έχει περιγραφεί αναλυτικά στις Ενότητες 1.3 και 2.5. (α) (β) (γ) Σχήμα 3-1. Κατάτμηση ακολουθίας Claude. (α) Αριστερό κανάλι. (β) Κατάτμηση με βάση το χρώμα. (γ) Κατάτμηση με βάση το πεδίο βάθους. Η κατάτμηση με βάση το βάθος συνδυάζεται στο Σχήμα 3-2α με τα περιγράμματα των τμημάτων χρώματος. Είναι προφανές ότι το πρόσωπο στο προσκήνιο της εικόνας αντιστοιχεί σε ένα μόνο τμήμα βάθους και σε τρία διαφορετικά τμήματα χρώματος, ενώ το φόντο της εικόνας σε ένα πάλι τμήμα βάθους και σε έξι τμήματα χρώματος. Είναι επίσης προφανές ότι Κεφάλαιο 3 Συγχώνευση Αντικειμένων 35 μόνο η κατάτμηση με βάση το πεδίο βάθους δίνει σωστά τα δύο αντικείμενα, ενώ η κατάτμηση με βάση το χρώμα διαχωρίζει τα αντικείμενα αυτά σε περισσότερα τμήματα αλλά διατηρεί τα ακριβή περιγράμματά τους. Ένα τμήμα εικόνας για κάθε αντικείμενο με σημασιολογικό περιεχόμενο, και μάλιστα με το ακριβές περίγραμμα, μπορεί να παραχθεί με τον προτεινόμενο αλγόριθμο συγχώνευσης. (α) (β) (γ) (δ) Σχήμα 3-2. Συγχώνευση αντικειμένων για την ακολουθία Claude. (α) Τμήματα βάθους σε συνδυασμό με περιγράμματα τμημάτων χρώματος. (β) Αποτέλεσμα συγχώνευσης, σε συνδυασμό με τα ίδια περιγράμματα. (γ) Κοντινό αντικείμενο (πρόσωπο, Claude). (δ) Μακρινό αντικείμενο (φόντο). (α) (β) (γ) Σχήμα 3-3. Κατάτμηση ακολουθίας Aqua. (α) Αριστερό κανάλι. (β) Κατάτμηση με βάση το χρώμα. (γ) Κατάτμηση με βάση το πεδίο βάθους. Στο Σχήμα 3-2β φαίνεται το αποτέλεσμα αυτής της συγχώνευσης, και πάλι σε συνδυασμό με τα περιγράμματα των τμημάτων χρώματος. Τα δύο πραγματικά αντικείμενα της εικόνας δηλαδή το κοντινό (πρόσωπο) και το μακρινό (φόντο), φαίνονται χωριστά στα Σχήματα 32γ,δ αντίστοιχα. Σημειώνεται ο διαχωρισμός της εικόνας στα δύο πραγματικά αντικείμενα γίνεται με πλήρως αυτοματοποιημένο τρόπο, χωρίς μάλιστα ο αριθμός των αντικειμένων να είναι εκ των προτέρων γνωστός. 36 ΜΕΡΟΣ I Ανάλυση Ακολουθιών Εικόνων σε Αντικείμενα Στα Σχήματα 3-3 και 3-4 παρουσιάζονται ανάλογα αποτελέσματα συγχώνευσης τμημάτων χρώματος και βάθους για την ακολουθία Aqua. Η εικόνα του αριστερού καναλιού του καρέ #1 της αρχικής ακολουθίας φαίνεται στο Σχήμα 3-3α. Και πάλι πραγματοποιείται ανεξάρτητη κατάτμηση με βάση το χρώμα και το πεδίο βάθους, όπως φαίνεται στα Σχήματα 33β,γ αντίστοιχα. Με τη συγχώνευση παράγονται εννέα συνολικά τμήματα, τα οποία απεικονίζονται στα Σχήματα 3-4α-θ. Παρατηρείται ότι και στην περίπτωση αυτή όλα σχεδόν τα τμήματα αντιστοιχούν σε πραγματικά αντικείμενα της εικόνας με σημασιολογικό περιεχόμενο. Εξαίρεση αποτελεί μόνο το τμήμα του Σχήματος 3-4θ, το οποίο αντιστοιχεί στο φόντο της εικόνας και διαχωρίζεται από το κυρίως φόντο του Σχήματος 3-4α γιατί και στην αρχική εικόνα τα δύο αντικείμενα δεν είναι συνεκτικά. (α) (β) (γ) (δ) (ε) (στ) (ζ) (η) (θ) Σχήμα 3-4. Συγχώνευση αντικειμένων για την ακολουθία Aqua. Παρουσιάζονται χωριστά τα εννέα διαφορετικά αντικείμενα που εξάγονται από τον αλγόριθμο. Ένα ακόμη παράδειγμα συγχώνευσης παρουσιάζεται στο Σχήμα 3-5 για ένα καρέ της στερεοσκοπικής ακολουθίας "Eye to Eye", η οποία χρησιμοποιείται και στην Ενότητα 5.4 για την επιλογή χαρακτηριστικών πλάνων. Το αρχικό αριστερό κανάλι του καρέ φαίνεται στο Σχήμα 3-5α και παρουσιάζει τη σκηνή μιας συνέντευξης με δύο ανθρώπους σε εσωτερικό χώρο (στούντιο). Η κατάτμηση με βάση το χρώμα και το πεδίο βάθους φαίνεται στα Σχήματα 35β και γ αντίστοιχα. Με τη συγχώνευση δημιουργούνται συνολικά τρία τμήματα που απεικονίζονται στα Σχήματα 3-5δ-στ. Πρόκειται για τους δύο ανθρώπους που συμμετέχουν στη συνέντευξη και το τμήμα του φόντου. Επιβεβαιώνεται ότι και στην περίπτωση αυτή τα πραγματικά αντικείμενα της εικόνας εξάγονται με μεγάλη ακρίβεια. Κεφάλαιο 3 Συγχώνευση Αντικειμένων 37 (α) (β) (γ) (δ) (ε) (στ) Σχήμα 3-5. Συγχώνευση αντικειμένων για την ακολουθία "Eye to Eye". (α) Αριστερό κανάλι. (β) Κατάτμηση με βάση το χρώμα. (γ) Κατάτμηση με βάση το πεδίο βάθους. (δ) Κοντινό αντικείμενο #1. (ε) Κοντινό αντικείμενο #2. (στ) Μακρινό αντικείμενο (φόντο). Πρέπει να σημειωθεί ότι η αναγνώριση των πραγματικών αντικειμένων δε μπορεί να επιτευχθεί μόνο με την πληροφορία χρώματος, γιατί συνήθως ένα αντικείμενο αποτελείται από πολλές περιοχές με διαφορετικά χαρακτηριστικά χρώματος. Αντίθετα με χρήση της πληροφορίας βάθους η αναγνώριση αυτή επιτυγχάνεται σε αρκετά μεγάλο βαθμό. Για να γίνει αυτό περισσότερο κατανοητό, πραγματοποιήθηκαν πειράματα κατάτμησης των τριών προηγούμενων ακολουθιών με βάση το χρώμα μόνο. Για να είναι μάλιστα συγκρίσιμα τα αποτελέσματα των δύο τεχνικών, χρησιμοποιήθηκε στον αλγόριθμο M-RSST κατώφλι αριθμού τμημάτων, έτσι ώστε η κατάτμηση με βάση το χρώμα να δώσει τον ίδιο αριθμό τμημάτων που δίνει και ο αλγόριθμος συγχώνευσης. Στα Σχήματα 3-6α,β,γ παρουσιάζονται τα αποτελέσματα κατάτμησης για τις ακολουθίες Claude, Aqua και "Eye to Eye" αντίστοιχα. Ο αριθμός τμημάτων για τις τρεις περιπτώσεις είναι 2 (Claude), 9 (Aqua) και 3 ("Eye to Eye"), ακριβώς όπως και στα Σχήματα 3-2γ-δ, 3-4α-θ, και 3-5δ-στ. (α) (β) (γ) Σχήμα 3-6. Κατάτμηση με βάση το χρώμα μόνο, με περιορισμένο αριθμό τμημάτων. (α) Ακολουθία Claude. (β) Ακολουθία Aqua. (γ) Ακολουθία "Eye to Eye". Τα αποτελέσματα που παρουσιάζονται στο Σχήμα 3-6 δεν είναι ικανοποιητικά αφού περιοχές που ανήκουν σε διαφορετικά αντικείμενα έχουν συγχωνευθεί, ενώ περιοχές του ίδιου αντικειμένου έχουν διαχωριστεί σε διαφορετικά τμήματα. Αντίθετα ο συνδυασμός πληροφορίας χρώματος και βάθους δίνει αποτελεσματική παράσταση του οπτικού περιεχομένου, δικαιολογώντας έτσι το επιπρόσθετο υπολογιστικό κόστος για την εκτίμηση και κατάτμηση με βάση το πεδίο βάθους. Σε κάποιες περιπτώσεις ασφαλώς, και ιδιαίτερα σε μακρινά πλάνα, η 38 ΜΕΡΟΣ I Ανάλυση Ακολουθιών Εικόνων σε Αντικείμενα απόκλιση μεταξύ των εικόνων της αριστερής και δεξιάς κάμερας είναι αμελητέα και επομένως η εκτίμηση βάθους είναι αναξιόπιστη. Οι περιπτώσεις αυτές ανιχνεύονται εύκολα διότι συνήθως οδηγούν σε ένα μόνο τμήμα με βάση το βάθος. Σε αυτές τις περιπτώσεις η κατάτμηση βάθους αγνοείται και λαμβάνεται υπόψη μόνο η κατάτμηση χρώματος και κίνησης. Μ Ε Ρ Ο Σ I I ΧΑΡΑΚΤΗΡΙΣΜΟΣ, ΠΡΟΕΠΙΣΚΟΠΗΣΗ ΚΑΙ ΑΝΑΖΗΤΗΣΗ ΜΕ ΒΑΣΗ ΤΟ ΠΕΡΙΕΧΟΜΕΝΟ Στο δεύτερο Μέρος της διατριβής εισάγεται το πρόβλημα της αναπαράστασης του οπτικού περιεχομένου εικόνων και ακολουθιών βίντεο με τέτοιο τρόπο ώστε να επιτρέπεται η ενιαία περιγραφή όλων των διαθέσιμων χαρακτηριστικών και να διευκολύνονται οι συγκρίσεις εικόνων, καρέ ή πλάνων ακολουθιών. Στη συνέχεια η αναπαράσταση αυτή χρησιμοποιείται για το χαρακτηρισμό και τη δεικτοδότηση του περιεχομένου με δύο κύριες εφαρμογές: την εξαγωγή περίληψης, με σκοπό την προεπισκόπηση οπτικοακουστικού υλικού, και την αναζήτηση με βάση το περιεχόμενο. Στο Κεφάλαιο 4 παρατίθεται η προτεινόμενη μέθοδος αναπαράστασης, στην οποία χρησιμοποιούνται τα χαρακτηριστικά των τμημάτων που προκύπτουν από την κατάτμηση με βάση το χρώμα, την κίνηση και το πεδίο βάθους, περιλαμβάνοντας για παράδειγμα τη θέση, το μέγεθος, τις χρωματικές συνιστώσες, το μέσο διάνυσμα κίνησης και το βάθος του κάθε τμήματος. Τα χαρακτηριστικά αυτά συνδυάζονται για την κατασκευή διανυσμάτων περιγραφής, τα οποία έχουν τη μορφή πολυδιάστατων ασαφών ιστογραμμάτων. Στο Κεφάλαιο 5 περιγράφεται το πρώτο στάδιο εξαγωγής περίληψης, το οποίο περιλαμβάνει την επιλογή ενός περιορισμένου αριθμού χαρακτηριστικών πλάνων, τα οποία όμως περιγράφουν ικανοποιητικά το οπτικό περιεχόμενο μιας ακολουθίας. Για το σκοπό αυτό πραγματοποιείται ανίχνευση και χαρακτηρισμός των πλάνων με συνολικά διανύσματα περιγραφής, και στη συνέχεια υλοποιείται ομαδοποίηση πλάνων με παρόμοιο περιεχόμενο σε ένα προκαθορισμένο αριθμό ομάδων και βέλτιστη επιλογή ενός αντιπροσωπευτικού πλάνου από κάθε ομάδα. Το δεύτερο στάδιο εξαγωγής περίληψης είναι η επιλογή ενός περιορισμένου συνόλου χαρακτηριστικών καρέ από κάθε πλάνο, για την οποία προτείνονται δύο διαφορετικές μέθοδοι. Η μέθοδος χρονικής μεταβολής παρουσιάζεται στο Κεφάλαιο 6 και βασίζεται στην επιλογή ακρότατων σημείων της τροχιάς του διανύσματος περιγραφής, ενώ η μέθοδος συσχέτισης παρουσιάζεται στο Κεφάλαιο 7 και βασίζεται στην ελαχιστοποίηση ενός κριτηρίου συσχέτισης μεταξύ των διανυσμάτων περιγραφής. Τέλος, το πρόβλημα της γενικευμένης αναζήτησης και ανάκλησης εικόνων και ακολουθιών με βάση το περιεχόμενο εξετάζεται στο Κεφάλαιο 8. Προτείνονται δύο εναλλακτικοί μηχανισμοί αναζήτησης, μέσω παραδείγματος και μέσω σχεδιαγράμματος, ενώ και στις δύο περιπτώσεις υιοθετείται μία τεχνική ανάδρασης από το χρήστη, η οποία καθιστά την αναζήτηση μία διαδικασία αλληλεπίδρασης μεταξύ ανθρώπου και υπολογιστικού συστήματος. 39 Κεφάλαιο 4 Αναπαράσταση Ακολουθιών Εικόνων Για την αναπαράσταση του οπτικού περιεχομένου μιας ακολουθίας βίντεο είναι απαραίτητη η εξαγωγή διανυσμάτων περιγραφής για κάθε καρέ και κάθε πλάνο της ακολουθίας, με τέτοιο τρόπο ώστε τα διανύσματα να είναι ίσων διαστάσεων και να υπάρχει ένα προς ένα αντιστοιχία μεταξύ των στοιχείων διαφορετικών διανυσμάτων. Ο χαρακτηρισμός και η δεικτοδότηση μέσω των διανυσμάτων περιγραφής επιτρέπει τη γρήγορη και αποτελεσματική σύγκριση εικόνων, καρέ ή πλάνων ακολουθιών, και κατ’ επέκταση την εξαγωγή περίληψης και την ανάκληση με βάση το περιεχόμενο. Για τη δημιουργία των διανυσμάτων περιγραφής χρησιμοποιούνται τα χαρακτηριστικά των τμημάτων που προκύπτουν από την κατάτμηση με βάση το χρώμα, την κίνηση και το πεδίο βάθους, περιλαμβάνοντας για παράδειγμα τη θέση, το μέγεθος, τις χρωματικές συνιστώσες, το μέσο διάνυσμα κίνησης και το βάθος του κάθε τμήματος. Όλα τα χαρακτηριστικά αυτά ταξινομούνται σε προκαθορισμένες κλάσεις και συγκεντρώνονται σχηματίζοντας ένα πολυδιάστατο ιστόγραμμα. Επιπλέον, για την αποφυγή λανθασμένης ταξινόμησης παρόμοιων χαρακτηριστικών σε διαφορετικές κλάσεις, η τεχνική γενικεύεται με την ασαφή αναπαράσταση της ταξινόμησης, καταλήγοντας έτσι σε ένα ασαφές πολυδιάστατο ιστόγραμμα. Τέλος τα διανύσματα περιγραφής προκύπτουν με τη συγκέντρωση όλων των στοιχείων του ιστογράμματος με προκαθορισμένη σειρά. Για την καλύτερη κατανόηση της μεθόδου δίνεται ένα αναλυτικό παράδειγμα εξαγωγής διανυσμάτων περιγραφής σε μια συνθετική ακολουθία βίντεο. 4.1 ΑΣΑΦΗ ΙΣΤΟΓΡΑΜΜΑΤΑ Ό λα τα χαρακτηριστικά που εξάγονται από την ανάλυση μιας ακολουθίας βίντεο σε αντικείμενα (όπως πλήθος, θέση, μέγεθος, χρώμα και κίνηση κάθε αντικειμένου) μπο- ρούν να χρησιμοποιηθούν για να περιγράψουν το οπτικό περιεχόμενο του κάθε καρέ. Η πε- ριγραφή γίνεται συνήθως με τη μορφή ενός διανύσματος χαρακτηριστικών (feature vector) ή διανύσματος περιγραφής. Όμως στη συγκεκριμένη περίπτωση το διάνυσμα περιγραφής δεν μπορεί να περιέχει άμεσα τα χαρακτηριστικά αυτά, καθώς το πλήθος τους διαφέρει από καρέ σε καρέ. Για παράδειγμα, ένα καρέ που αποτελείται από 20 αντικείμενα απαιτεί το διπλάσιο αριθμό από χαρακτηριστικά στοιχεία σε σχέση με ένα καρέ που αποτελείται από 10 αντικείμενα. Επιπλέον, επιλέγοντας μια τέτοια λύση, δεν υπάρχει καμία απολύτως αντιστοιχία μεταξύ των στοιχείων των διανυσμάτων δύο διαφορετικών καρέ, κάνοντας έτσι αδύνατη τη σύγκριση μεταξύ διανυσμάτων περιγραφής. Για να αντιμετωπισθεί αυτό το πρόβλημα προτείνεται στο πλαίσιο της διατριβής η ταξινόμηση των αντικειμένων ως προς τη θέση, το μέγεθος, το χρώμα την κίνηση ή το βάθος σε προκαθορισμένες κλάσεις, σχηματίζοντας έτσι ένα πολυδιάστατο ιστόγραμμα. Σύμφωνα με αυτή την τεχνική, κάθε στοιχείο του διανύσματος περιγραφής αντιστοιχεί σε μία συγκεκριμένη κλάση (που είναι ισοδύναμη με ένα bin του ιστογράμματος) και περιέχει το πλήθος των τμημάτων που ανήκουν στην κλάση αυτή. 40 Κεφάλαιο 4 Αναπαράσταση Ακολουθιών Εικόνων 41 Το μέγεθος των τμημάτων λαμβάνεται υπόψη αναθέτοντας διαφορετικές κλάσεις για μικρά και μεγάλα αντικείμενα, δηλαδή το μέγεθος θεωρείται ένα χαρακτηριστικό των αντικειμένων όπως και το χρώμα ή η κίνηση. Για παράδειγμα, ένα μεγάλο κινούμενο αντικείμενο ταξινομείται σε διαφορετική κλάση από ένα μικρό. Παρά το γεγονός ότι τα μεγάλα αντικείμενα μπορεί να θεωρούνται πιο σημαντικά από τα μικρά, η παραπάνω προσέγγιση εγγυάται ότι όλες οι πληροφορίες διατηρούνται, και έτσι σε ένα περιβάλλον ανάκλησης με βάση το περιεχόμενο, ο βαθμός σπουδαιότητας κάθε χαρακτηριστικού μπορεί να καθοριστεί από τον τελικό χρήστη, πιθανώς αναθέτοντας κατάλληλα βάρη στα στοιχεία του διανύσματος περιγραφής [35]. Επιπλέον, για να μειωθεί η πιθανότητα ταξινόμησης δύο παρόμοιων αντικειμένων σε διαφορετικές κλάσεις, προκαλώντας λανθασμένες συγκρίσεις, ανατίθεται ένας βαθμός συμμετοχής (degree of membership) κάθε αντικειμένου σε κάθε κλάση, οδηγώντας σε ασαφή ταξινόμηση (fuzzy classification) [76]. Στα συμβατικά ιστογράμματα, κάθε δείγμα ­ δηλαδή κάθε αντικείμενο, τμήμα ή περιοχή εικόνας ­ μπορεί να ανήκει σε μία μόνο κλάση (bin) του ιστογράμματος. Έτσι, δύο παρόμοια δείγματα που βρίσκονται σε αντίθετες πλευρές ως προς το όριο μεταξύ δύο κλάσεων θεωρείται ότι ανήκουν σε διαφορετικές κλάσεις. Αντίθετα, με την ασαφή ταξινόμηση, κάθε δείγμα επιτρέπεται να ανήκει σε περισσότερες από μία κλάσεις (ή και σε όλες), αλλά με διαφορετικό βαθμό συμμετοχής σε κάθε μία. Επομένως στο προηγούμενο παράδειγμα τα δύο παρόμοια δείγματα θα διέφεραν μόνο ελαφρώς στο βαθμό συμμετοχής τους σε σχέση με τις δύο γειτονικές κλάσεις. Επιπλέον, σε περιβάλλοντα ανάκλησης με βάση το περιεχόμενο, η ασαφής αναπαράσταση επιτρέπει στο χρήστη να πραγματοποιεί πολύπλοκες αναζητήσεις, όπως π.χ. να ψάχνει για σχετικά μεγάλα αντικείμενα μπλε χρώματος, που βρίσκονται κοντά στο κάτω μέρος της εικόνας. Σημειώνεται ότι η προτεινόμενη μέθοδος αναπαράστασης οπτικού περιεχομένου με διανύσματα περιγραφής που προκύπτουν από ασαφή πολυδιάστατα ιστογράμματα είναι εξολοκλήρου πρωτότυπη· παρουσιάσθηκε για πρώτη φορά στην εργασία [32] και από τότε χρησιμοποιήθηκε για σκοπούς χαρακτηρισμού, εξαγωγής περίληψης και ανάκλησης στις εργασίες [13,14,33,36] και αργότερα στις [8,31,34,35,37,38,39]. 4.2 ΜΟΝΟΔΙΑΣΤΑΤΗ ΤΑΞΙΝΟΜΗΣΗ Ας θεωρήσουμε αρχικά την απλή περίπτωση ενός μονοδιάστατου χαρακτηριστικού s, που μπορεί να είναι π.χ. το μέγεθος ενός αντικειμένου. Το χαρακτηριστικό αυτό παίρνει τιμές σε ένα διάστημα το οποίο, χωρίς βλάβη της γενικότητας θεωρείται ότι είναι το [0,1], δηλαδή το χαρακτηριστικό s είναι κανονικοποιημένο μεταξύ 0 και 1. Το διάστημα αυτό διαμερίζεται σε Q κλάσεις με τη χρήση Q συναρτήσεων συμμετοχής (membership functions) μn(s), n = 1, 2,..., Q. Για μία δεδομένη πραγματική τιμή s, το μn(s) υποδηλώνει το βαθμό συμμετοχής του χαρακτηριστικού s στη n-οστή κλάση. Οι συναρτήσεις συμμετοχής μn(s), n = 1, 2,..., Q παίρνουν τιμές στο κλειστό διάστημα [0,1], έτσι ώστε τιμές του μn(s) κοντά στη μονάδα (στο μηδέν) να δείχνουν ότι ο βαθμός συμμετοχής του χαρακτηριστικού s στη n-οστή κλάση είναι υψηλός (χαμηλός). Οι πλέον συνηθισμένες συναρτήσεις συμμετοχής είναι οι τριγωνικές, που ορίζονται ως 1 - 2|s - mn |/ w , |s - mn |< w / 2 μn (s ) = |s - mn | w / 2 0 , (4-1) 42 ΜΕΡΟΣ II Χαρακτηρισμός, Προεπισκόπηση και Αναζήτηση με Βάση το Περιεχόμενο για n = 1, 2,..., Q , όπου w είναι το πλάτος της βάσης κάθε τριγώνου και mn = (n - 1) / (Q - 1) είναι το κέντρο κάθε τριγώνου, έτσι ώστε m1 = 0 και mQ = 1. Ένα παράδειγμα ασαφούς ταξινόμησης με χρήση Q = 5 τριγωνικών συναρτήσεων συμμετοχής πλάτους w = 2 / (Q - 1) παρουσιάζεται στο Σχήμα 4-1. Όπως φαίνεται στο Σχήμα αυτό, το πλάτος w ελέγχει το ποσοστό επικάλυψης μεταξύ διαδοχικών διαστημάτων ταξινόμησης, καθορίζοντας το πόσο ασαφής είναι η ταξινόμηση. Στο συγκεκριμένο παράδειγμα χρησιμοποιείται επικάλυψη 50%. Το ακριβές σχήμα και το ποσοστό επικάλυψης των συναρτήσεων μn(s) μπορεί να μεταβάλλεται σημαντικά [76]. Σύμφωνα όμως με πειραματικά αποτελέσματα, η επίδραση της επιλογής συναρτήσεων συμμετοχής στην εξαγωγή χαρακτηριστικών καρέ είναι πολύ περιορισμένη (εκτός από περιπτώσεις συνθετικών ακολουθιών εικόνων, όπως εξηγείται στην επόμενη Ενότητα). Επομένως επιλέχθηκαν τριγωνικές συναρτήσεις κυρίως λόγω των πολύ απλών υπολογισμών που απαιτούν. Συναρτήσεις Συμμετοχής 1 μ1(s) μ2(s) μ3(s) μ4(s) μ5(s) Τιμή Χαρακτηριστικού 0 m2 m3 m4 1 s Σχήμα 4-1. Παράδειγμα μονοδιάστατης ασαφούς ταξινόμησης με χρήση πέντε τριγωνικών συναρτήσεων συμμετοχής με ποσοστό επικάλυψης 50%. Χρησιμοποιώντας τον παραπάνω τρόπο διαμέρισης, ένα ασαφές ιστόγραμμα μπορεί να κατασκευαστεί από ένα αριθμό δειγμάτων χαρακτηριστικών si , i = 1, 2,..., K. Κάθε δείγμα αντιστοιχεί σε ένα τμήμα εικόνας, όπου K είναι το πλήθος των τμημάτων. Η τιμή του ασαφούς ιστογράμματος, έστω H(n), που αντιστοιχεί στην κλάση n, ορίζεται ως H (n) = 1 K μn (si ) , K i =1 n = 1, 2,..., Q (4-2) Πρέπει να παρατηρήσουμε ότι ο παραπάνω ορισμός είναι ισοδύναμος με τον ορισμό των παραδοσιακών ιστογραμμάτων όταν οι συναρτήσεις συμμετοχής παίρνουν μόνο δυαδικές τιμές (0 ή 1). Όμως, επειδή κάθε δείγμα μπορεί να έχει μη μηδενικό βαθμό συμμετοχής σε περισσότερες από μία κλάσεις, το ιστόγραμμα έχει νόημα ακόμη και όταν ο αριθμός των δειγμάτων είναι μικρός. Η ασαφής αναπαράσταση επομένως επιτρέπει την κατασκευή ιστογραμμάτων από ένα πολύ περιορισμένο σύνολο δεδομένων. Αυτό είναι πολύ σημαντικό αφού ο αριθμός αντικειμένων, K, σε μία εικόνα ή σε ένα καρέ από ακολουθία βίντεο, είναι συνήθως μικρότερος από το συνολικό αριθμό κλάσεων. 4.3 ΠΟΛΥΔΙΑΣΤΑΤΗ ΤΑΞΙΝΟΜΗΣΗ Στη γενικότερη περίπτωση όπου χρησιμοποιούνται περισσότερα από ένα χαρακτηριστικά αντικειμένων, όπως μέγεθος, θέση, χρωματικές συνιστώσες, διανύσματα κίνησης και βάθος, κατασκευάζεται ένα πολυδιάστατο διάνυσμα χαρακτηριστικών τμήματος για κάθε αντικείμενο (τμήμα εικόνας). Επειδή έχουν προηγηθεί δύο διαφορετικές κατατμήσεις κάθε εικόνας, μία ως προς το χρώμα και μία ως προς την κίνηση, είναι διαθέσιμα δύο σύνολα τμημάτων: τα Κεφάλαιο 4 Αναπαράσταση Ακολουθιών Εικόνων 43 τμήματα χρώματος Sic , i = 1, 2,..., Kc, και τα τμήματα κίνησης Sim , i = 1, 2,..., Km, όπου Kc είναι το πλήθος τμημάτων χρώματος και Km είναι το πλήθος τμημάτων κίνησης. Για κάθε τμήμα χρώματος Sic σχηματίζεται ένα διάνυσμα sc διαστάσεων Lc 1, ενώ για κάθε τμήμα κίνησης Sim i σχηματίζεται ένα διάνυσμα sm διαστάσεων Lm 1: i sc = [cT (Sic ) lT (Sic ) a(Sic )]T i s m = [ vT (Sim ) lT (Sim ) a(Sim )]T i (4-3) (4-4) όπου a είναι το μέγεθος ενός αντικειμένου, και l είναι ένα διάνυσμα διαστάσεων 2 1 που περιέχει τις συντεταγμένες του κέντρου βάρους του· το c είναι ένα διάνυσμα διαστάσεων 3 1 που περιέχει τις τρεις μέσες χρωματικές συνιστώσες του, και τέλος v είναι το μέσο διάνυσμα κίνησής του, διαστάσεων 2 1. Έτσι, για τμήματα χρώματος έχουμε Lc = 6, ενώ για τμήματα κίνησης Lm = 5. Στην περίπτωση των στερεοσκοπικών ακολουθιών όπου πραγματοποιείται και κατάτμηση με βάση το πεδίο βάθους, είναι διαθέσιμα και τα τμήματα βάθους Sid , i = 1, 2,..., Kd, όπου Kd είναι το πλήθος τους· έτσι για κάθε τμήμα βάθους Sid σχηματίζεται ένα διάνυσμα s id διαστάσεων Ld 1: s id = [ d(Sid ) l T (Sid ) a(Sid )]T (4-5) όπου d( Sid ) είναι η μέση τιμή βάθους του τμήματος, και Ld = 4. Επιπλέον, αν πραγματοποιηθεί συγχώνευση τμημάτων χρώματος και βάθους, όπως αναφέρεται στο Κεφάλαιο 3, είναι δυνατός ο συνδυασμός των διανυσμάτων sc και s id σε ένα: i s i = [cT (Si ) d(Si ) l T (Si ) a(Si )]T (4-6) όπου τα τμήματα Si , i = 1, 2,..., K = Kd ορίζονται στην Εξίσωση (3-5). Η διαδικασία ταξινόμησης που παρουσιάζεται στη συνέχεια είναι ανεξάρτητη από το είδος των αντικειμένων. Επομένως, για απλότητα συμβολισμών, οι δείκτες c, m και d θα παραλείπονται στη συνέχεια· κάθε αντικείμενο, χρώματος, κίνησης ή βάθους, θα παριστάνεται ως Si και θα περιγράφεται από το διάνυσμα si , διαστάσεων L 1, όπου L {4,5,6,7}, ανάλογα με τον τύπο του αντικειμένου. Επιπλέον το πλήθος τμημάτων θα συμβολίζεται με K, όπου Κ = Kc, Κ = Km, ή Κ = Kd, και πάλι ανάλογα με τον τύπο των αντικειμένων. Έστω ότι si = [si,1 si,2 ... si,L]T, i = 1, 2,..., K, είναι το διάνυσμα που περιγράφει το αντικείμενο Si , όπου K είναι το πλήθος των αντικειμένων σε μια εικόνα. Το πεδίο τιμών κάθε στοιχείου si,j , j = 1, 2,..., L, του διανύσματος si διαμερίζεται σε Q περιοχές (κλάσεις) μέσω Q συναρτήσεων συμμετοχής μn j (s i , j ) , nj = 1, 2,..., Q. Όπως και στη μονοδιάστατη περίπτωση, για μια δεδομένη πραγματική τιμή του χαρακτηριστικού si,j , το μn j (si , j ) υποδηλώνει το βαθμό συμμετοχής του στοιχείου si,j στην κλάση με δείκτη nj . Συγκεντρώνοντας τις κλάσεις με δείκτη nj για όλα στοιχεία j = 1, 2,..., L, ορίζεται μία κλάση n = [n1 n2 ... nL]T διάστασης L. Έτσι, ο βαθμός συμμετοχής κάθε διανύσματος si στην κλάση n μπορεί να ορισθεί ως το γινόμενο των συναρτήσεων συμμετοχής μn j (si , j ) όλων των επιμέρους στοιχείων si,j του si στα αντίστοιχα στοιχεία nj του n: 44 ΜΕΡΟΣ II Χαρακτηρισμός, Προεπισκόπηση και Αναζήτηση με Βάση το Περιεχόμενο μn (s i ) = μn j (si , j ) j =1 L (4-7) Για να ανήκει το διάνυσμα si στην κλάση n, θα πρέπει κάθε στοιχείο του, si,j , να ανήκει στην αντίστοιχη κλάση nj . Επομένως οι συναρτήσεις συμμετοχής θα πρέπει να συνδυάζονται με τον τελεστή «ΚΑΙ», ο οποίος συνήθως υλοποιείται στα ασαφή συστήματα με την πράξη του πολλαπλασιασμού. Ένα απλό παράδειγμα διδιάστατων διανυσμάτων απεικονίζεται στο Σχήμα 4-2. Έστω ότι ένα αντικείμενο S περιγράφεται από το διάνυσμα s = [s1 s2]T, και ότι χρησιμοποιούνται Q = 2 συναρτήσεις συμμετοχής μ1(sj) και μ2(sj) για να διαμερίσουν το πεδίο τιμών και των δύο στοιχείων sj , j = 1, 2, του s. Αφού η συνάρτηση μ1(sj) εκφράζει τις «χαμηλές» (low) τιμές του sj και η μ2(sj) τις «υψηλές» (high), μπορούμε να ονομάσουμε τις δύο κλάσεις sj "L" και "H", και τις δύο συναρτήσεις συμμετοχής μL(sj) και μH(sj) αντίστοιχα. Οι διδιάστατες κλάσεις n = [n1 n2]T μπορούν τότε να ονομάζονται "LL", "LH", "HL" και "HH", ενώ ο βαθμός συμμετοχής του διανύσματος s στην κλάση n είναι μn (s) = μn1 (s1 )μn2 (s2 ) , ή, υπολογίζοντας όλους τους συνδυασμούς, μLL(s) = μL(s1) μL(s2), μLH(s) = μL(s1) μH(s2), μHL(s) = μH(s1) μL(s2), και μHH(s) = μH(s1) μH(s2). s2 1 LH μL(s1) μH(s2) HH μH(s1) μH(s2) LL μL(s1) μL(s2) 0 0 HL μH(s1) μL(s2) 1 s1 Σχήμα 4-2. Παράδειγμα διδιάστατης ασαφούς ταξινόμησης με χρήση δύο συναρτήσεων συμμετοχής για κάθε διάσταση. Με βάση τους παραπάνω ορισμούς, είναι δυνατό να κατασκευασθεί ένα πολυδιάστατο ασαφές ιστόγραμμα από τα δείγματα (αντικείμενα) των χαρακτηριστικών si , i = 1, 2,..., K, ακριβώς όπως στη μονοδιάστατη περίπτωση. Η τιμή του ασαφούς ιστογράμματος, H(n), ορίζεται με παρόμοιο τρόπο ως η μέση τιμή, για όλα τα δείγματα, των αντίστοιχων βαθμών συμμετοχής μn(si): H (n) = 1 K 1 K μ n (s i ) = K K i =1 i =1 L μn ( s i , j ) j =1 j (4-8) Η τιμή του ιστογράμματος μπορεί λοιπόν να θεωρηθεί ως ο βαθμός συμμετοχής μιας ολόκληρης εικόνας (ή καρέ) στην κλάση n. Κεφάλαιο 4 Αναπαράσταση Ακολουθιών Εικόνων 45 4.4 ΔΙΑΝΥΣΜΑΤΑ ΠΕΡΙΓΡΑΦΗΣ Συγκεντρώνοντας τις τιμές H(n) του πολυδιάστατου ιστογράμματος για όλες τις κλάσεις n, δηλαδή για όλους τους συνδυασμούς δεικτών n1 , n2 ,..., nL , το διάνυσμα περιγραφής μιας εικόνας ή καρέ ορίζεται ως ένα διάνυσμα f διαστάσεων QL 1 που περιέχει με κατάλληλη σειρά τις παραπάνω τιμές: f = [ f1 f2 f QL ]T (4-9) Για τον υπολογισμό των επιμέρους στοιχείων fi , i = 1, 2,..., QL, του διανύσματος περιγραφής, ορίζεται μία συνάρτηση δεικτών z(n) που απεικονίζει κάθε μία από τις QL κλάσεις σε έναν ακέραιο μεταξύ 1 και QL: z(n ) = 1 + n jQ L - j j =1 L (4-10) Χρησιμοποιώντας τη συνάρτηση δεικτών, τα στοιχεία του διανύσματος περιγραφής f υπολογίζονται ως fz(n) = H(n) για όλες τις κλάσεις n. Επανερχόμενοι τώρα στον αρχικό ορισμό των διανυσμάτων περιγραφής των επιμέρους τμημάτων που περιέχονται σε μία εικόνα, προκύπτει ότι όλη η παραπάνω ανάλυση επαναλαμβάνεται δύο φορές: μία για τα τμήματα χρώματος Sic , που περιγράφονται από τα διανύσματα sc , i = 1, 2,..., Kc, και μία για τα τμήματα κίνησης Sim , που περιγράφονται αντίστοιχα i από τα διανύσματα sm , i = 1, 2,..., Km. Έτσι σχηματίζονται δύο ειδών διανύσματα περιγραφής i εικόνων: το διάνυσμα περιγραφής χρώματος fc για τα τμήματα χρώματος και το διάνυσμα περιγραφής κίνησης fm για τα τμήματα κίνησης. Το συνολικό διάνυσμα περιγραφής, f, μήκους Q L + Q L , που περιγράφει μία ολόκληρη εικόνα ή καρέ, σχηματίζεται συνενώνοντας τα διανύσματα fc και fm: f = [(fc)T (fm)T ]T d c m (4-11) Επιπλέον, στην περίπτωση των στερεοσκοπικών ακολουθιών, είναι διαθέσιμο και το διάνυσμα περιγραφής βάθους fd, μήκους Q L , το οποίο μπορεί επίσης να συνδυαστεί με τα fc και fm στην κατασκευή του συνολικού διανύσματος περιγραφής. Πρέπει να σημειωθεί ότι η διάσταση του διανύσματος περιγραφής, και συνεπώς η υπολογιστική πολυπλοκότητα της προτεινόμενης μεθόδου, αυξάνει εκθετικά ως προς το πλήθος Q των περιοχών διαμέρισης. Επιπλέον, ένας μεγάλος αριθμός τέτοιων περιοχών δεν βελτιώνει υποχρεωτικά την αποτελεσματικότητα της περιγραφής εικόνων, και επομένως της εξαγωγής περίληψης ή της ανάκλησης με βάση το περιεχόμενο. Απεναντίας, οδηγεί σε πολύ μεγάλο αριθμό κλάσεων και συνεπώς σε «θορυβώδη» ταξινόμηση, ενώ συνήθως τα περισσότερα στοιχεία του διανύσματος περιγραφής έχουν μηδενική τιμή. Τα πειράματα οδηγούν στο συμπέρασμα ότι μια λογική επιλογή ως προς την πολυπλοκότητα και την αποτελεσματικότητα είναι Q = 3. Εκτός από τα χαρακτηριστικά των τμημάτων μιας εικόνας ή καρέ που προκύπτουν από τη διαδικασία κατάτμησης, μπορούν να συμπεριληφθούν στο διάνυσμα περιγραφής και ολικά χαρακτηριστικά (global features) που προκύπτουν από την ανάλυση της εικόνας ως σύνολο. Παραδείγματα τέτοιων χαρακτηριστικών είναι το συνολικό ιστόγραμμα χρώματος κάθε εικόνας ή η μέση πολυπλοκότητα υφής που μπορεί να εκτιμηθεί από τους συντελεστές DCT υψηλών συ- 46 ΜΕΡΟΣ II Χαρακτηρισμός, Προεπισκόπηση και Αναζήτηση με Βάση το Περιεχόμενο χνοτήτων των blocks μιας ακολουθίας MPEG. Επιπρόσθετες ιδιότητες των τμημάτων μπορούν επίσης να συμπεριληφθούν στο διάνυσμα περιγραφής, όπως το σχήμα των περιγραμμάτων των αντικειμένων ή οι κεντρικές ροπές μεγάλου βαθμού. Σε αυτή την περίπτωση, το διάνυσμα περιγραφής θα αντιπροσώπευε καλύτερα το οπτικό περιεχόμενο των εικόνων, επιτρέποντας κάθε φορά επιλογή εκείνων των χαρακτηριστικών που θεωρούνται σημαντικότερα για την εξαγωγή περίληψης ή την ανάκληση με βάση το περιεχόμενο. Πρέπει όμως να σημειωθεί ότι η αναπαράσταση του οπτικού περιεχομένου με βάση τα διανύσματα περιγραφής είναι ανεξάρτητη από τους αλγόριθμους επιλογής χαρακτηριστικών πλάνων ή καρέ. Έτσι οποιαδήποτε μεταβολή στα διανύσματα περιγραφής μπορεί να γίνει χωρίς να επηρεάσει τους αλγορίθμους αυτούς. #0 #5 #10 #15 #20 #25 #30 #35 #40 #45 Σχήμα 4-3. Συνθετική ακολουθία βίντεο μήκους 50 καρέ που χρησιμοποιείται για τα παραδείγματα των διανυσμάτων περιγραφής. 0.2 0.15 0.1 0.05 #6 fi 0 10 20 30 i 40 50 60 0.2 0.15 0.1 0.05 #18 fi 0 10 20 30 i 40 50 60 0.2 0.15 0.1 0.05 #31 fi 0 10 20 30 i 40 50 60 0.2 0.15 0.1 0.05 #43 (α) fi 0 10 20 30 i 40 50 60 (β) Σχήμα 4-4. (α) Τέσσερα επιλεγμένα καρέ της συνθετικής ακολουθίας του Σχήματος 4-3. (β) Διαγράμματα των συντελεστών fi , i = 1, 2,..., 64 των αντίστοιχων διανυσμάτων περιγραφής. 4.5 ΠΑΡΑΔΕΙΓΜΑ ΣΥΝΘΕΤΙΚΗΣ ΑΚΟΛΟΥΘΙΑΣ Για να γίνει περισσότερο κατανοητός ο τρόπος με τον οποίο τα προτεινόμενα διανύσματα περιγραφής αναπαριστούν την οπτική πληροφορία, δίνεται στη συνέχεια ένα παράδειγμα που προέρχεται από μία συνθετική ακολουθία βίντεο. Η ακολουθία αποτελείται από 50 καρέ ανάλυσης 256 256 pixels και απεικονίζει ένα συμπαγή μαύρο κύκλο ακτίνας 25 pixels που κινεί- Κεφάλαιο 4 Αναπαράσταση Ακολουθιών Εικόνων 47 ται σε μια κατακόρυφη ελλειψοειδή τροχιά, μπροστά από ένα στατικό φόντο γαλάζιου χρώματος. Στο Σχήμα 4-3 φαίνονται 10 καρέ της ακολουθίας, των οποίων οι αριθμοί είναι ομοιόμορφα κατανεμημένοι μεταξύ 0 και 49 (#0, #5, #10,..., #45). Για απλότητα θεωρούμε ότι το διάνυσμα περιγραφής περιέχει χαρακτηριστικά χρώματος μόνο και όχι κίνησης. Έστω λοιπόν ότι το διάνυσμα περιγραφής του καρέ με αριθμό k, k = 0, 1,..., 49, είναι f(k) = fc(k). Το πεδίο τιμών κάθε χαρακτηριστικού διαμερίζεται σε Q = 2 περιοχές με χρήση δύο τριγωνικών συναρτήσεων συμμετοχής με 50% επικάλυψη, και επομένως το μήκος του διανύσματος περιγραφής είναι Q L = 26 = 64. Έτσι οι δείκτες των κλάσεων είναι ni {1, 2}, i = 1, 2,..., 6, όπου το ni = 1 αντιστοιχεί σε μια «χαμηλή» ("low") τιμή, ενώ το ni = 2 σε μια «υψηλή» ("high") τιμή. Το Σχήμα 4-4 απεικονίζει τέσσερα από τα καρέ της ακολουθίας, και συγκεκριμένα τα #6, #18, #31 και #43, μαζί με μία παράσταση των 64 στοιχείων του αντίστοιχου διανύσματος f(k). Στην πραγματικότητα τα καρέ αυτά έχουν επιλεγεί με τη μέθοδο εξαγωγής χαρακτηριστικών καρέ της Ενότητας 6.2. Μία πρώτη παρατήρηση είναι ότι το διάνυσμα περιγραφής μεταβάλλεται σε κάθε καρέ, παρά το γεγονός ότι η χρωματική σύνθεση της ακολουθίας παραμένει σταθερή. Αυτό είναι αναμενόμενο αφού το διάνυσμα περιγραφής περιέχει επίσης και γεωμετρικά χαρακτηριστικά των τμημάτων, και συγκεκριμένα το μέγεθος καθώς και την οριζόντια και κατακόρυφη θέση του κέντρου βάρους τους, οι οποίες μεταβάλλονται. 0.45 0.4 0.35 0.3 c 0.45 0.4 0.35 0.3 0.45 0.4 0.35 0.3 f1 0.25 0.2 0.15 0.1 0.05 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 f3 0.25 0.2 0.15 0.1 0.05 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 f5 0.25 0.2 0.15 0.1 0.05 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 f1 0.45 0.4 0.35 0.3 f1 0.45 0.4 0.35 0.3 0.45 0.4 0.35 0.3 f1 f1 0.25 0.2 0.15 0.1 0.05 0.05 f3 0.25 0.15 0.2 f5 0.25 0.15 0.2 0.1 0.05 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.1 0.05 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 f3 0.45 0.4 0.35 0.3 0.45 0.4 0.35 0.3 f3 0.45 0.4 0.35 0.3 f3 f1 0.25 0.15 0.2 f3 0.25 0.15 0.2 f5 0.25 0.2 0.15 0.1 0.1 0.05 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.1 0.05 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.05 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 f5 f5 f5 Σχήμα 4-5. Διδιάστατα γραφήματα όλων των συνδυασμών ζευγών από τα στοιχεία f1 , f3 και f5 του διανύσματος περιγραφής. Παρατηρείται επίσης ότι μόνο δύο ομάδες από στοιχεία του διανύσματος περιγραφής έχουν μη μηδενική τιμή. Η πρώτη ομάδα αντιστοιχεί στο μαύρο κύκλο ενώ η δεύτερη στην περιοχή του φόντου. Στο συγκεκριμένο παράδειγμα, οι δείκτες κλάσεων n1 , n2 και n3 αντιστοιχούν στις χρωματικές συνιστώσες R, G και B, οι n4 και n5 στην οριζόντια και κατακόρυφη θέση (x και y, αντίστοιχα), ενώ ο n6 στο μέγεθος κάθε αντικειμένου. Έτσι, οι κλάσεις n της πρώτης ομάδας, για τις οποίες η συνάρτηση δεικτών z(n) παίρνει τιμές στο σύνολο {1, 2,..., 8}, αντιστοιχούν σε «χαμηλές» τιμές κόκκινου, πράσινου και μπλε (μαύρος κύκλος). Παρομοίως, οι 48 ΜΕΡΟΣ II Χαρακτηρισμός, Προεπισκόπηση και Αναζήτηση με Βάση το Περιεχόμενο κλάσεις n της δεύτερης ομάδας, για τις οποίες η z(n) παίρνει τιμές {25, 26,..., 32}, αντιστοιχούν σε «χαμηλές» τιμές κόκκινου, αλλά «υψηλές» τιμές πράσινου και μπλε (γαλάζιο φόντο). Η δεύτερη ομάδα που οφείλεται στο φόντο παραμένει ουσιαστικά σταθερή σε όλη τη διάρκεια της ακολουθίας, ενώ η πρώτη ομάδα που οφείλεται στο αντικείμενο του κύκλου μεταβάλλεται, αφού το αντικείμενο αυτό μετακινείται. Επιπλέον, οι άρτιες τιμές της z(n) αντιστοιχούν σε «μεγάλα» αντικείμενα, ενώ οι περιττές σε «μικρά». Έτσι η ομάδα του φόντου έχει μηδενικές τιμές στις περιττές θέσεις δεικτών, ενώ η ομάδα του κύκλου στις άρτιες. 0.32 0.3 0.28 0.45 0.4 0.35 0.25 0.26 f1+f3 f1+f5 0.24 0.22 0.2 0.18 0.16 0.16 0.18 0.2 0.22 0.24 0.26 0.28 0.3 0.32 0.25 0.2 0.15 0.1 0.05 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.22 0.16 0.18 0.2 0.22 0.24 0.26 0.28 0.3 0.32 f1+f3 0.45 0.4 0.35 0.4 0.35 f1+f3 0.26 f3+f5 0.26 0.3 0.24 0.23 f1+f3 0.25 0.3 f1+f5 f1+f3 0.25 0.2 0.25 0.2 0.15 0.1 0.05 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.15 0.1 0.05 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 f3+f5 0.3 0.24 0.23 0.22 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 f1+f5 0.32 0.3 0.28 0.4 0.35 0.3 f1+f5 0.26 f1+f5 0.25 f1+f3 f1+f5 0.25 0.2 0.24 0.22 0.2 0.18 0.16 0.22 0.24 0.26 0.15 0.1 0.05 0.22 0.24 0.26 f3+f5 0.26 0.24 0.23 0.22 0.22 0.24 0.26 f3+f5 f3+f5 f3+f5 Σχήμα 4-6. Διδιάστατα γραφήματα όλων των συνδυασμών ζευγών από τα αθροίσματα στοιχείων f1 + f3 , f1 + f5 , και f3 + f5 . Στο Σχήμα 4-5 παρουσιάζονται γραφήματα των στοιχείων f1 , f3 και f5 του διανύσματος περιγραφής. Κάθε γράφημα απεικονίζει ένα ζεύγος από τους παραπάνω συντελεστές και έχει το πρώτο μέλος του ζεύγους στον οριζόντιο άξονα και το δεύτερο στον κατακόρυφο. Κάθε σημείο ενός γραφήματος αντιστοιχεί σε ένα καρέ της ακολουθίας· έτσι παρουσιάζεται η χρονική μεταβολή του ζεύγους στοιχείων. Οι μικροί κύκλοι που εμφανίζονται στα γραφήματα αυτά ­ όπως και στα γραφήματα του Σχήματος 4-6 παρακάτω ­ αντιστοιχούν στην επιλογή χαρακτηριστικών καρέ με τη μέθοδο χρονικής μεταβολής και εξηγούνται στο Κεφάλαιο 6 Τα στοιχεία f1 , f3 και f5 αντιστοιχούν σε ίδιες τιμές ως προς τους δείκτες n1 , n2 , n3 και n6 (δηλαδή συνιστώσες R, G, B και μέγεθος), ενώ διαφέρουν μεταξύ τους μόνο ως προς τους δείκτες n4 και n5 (θέση αντικειμένου x και y). Συγκεκριμένα, το f1 αντιστοιχεί σε «χαμηλό» x και «χαμηλό» y (LL), το f3 σε «χαμηλό» x και «υψηλό» y (LH), και το f5 σε «υψηλό» x και «χαμηλό» y (HL), όμοια με το παράδειγμα διδιάστατης ασαφούς ταξινόμησης της προηγούμενης Ενότητας. Ουσιαστικά τα παραπάνω γραφήματα αποτελούν προβολές της τροχιάς του πολυδιάστατου διανύσματος περιγραφής στον υπόχωρο που ορίζεται από τα δύο επιλεγμένα στοιχεία. Τέλος, στο Σχήμα 4-6 παρουσιάζονται γραφήματα παρόμοια με εκείνα του Σχήματος 4-5, αλλά για τα αθροίσματα στοιχείων f1 + f3 , f1 + f5 , και f3 + f5 . Αφού το στοιχείο f1 αντιστοιχεί σε «χαμηλό» y και το f3 σε «υψηλό» y, με την άθροισή τους αφαιρείται η επίδραση της κατακό- Κεφάλαιο 4 Αναπαράσταση Ακολουθιών Εικόνων 49 ρυφης θέσης y, και επομένως το άθροισμα f1 + f3 αναφέρεται σε απλώς σε «χαμηλό» x και είναι ανεξάρτητο από το y. Όμοια, το άθροισμα f1 + f5 αναφέρεται σε «χαμηλό» y και είναι ανεξάρτητο από το x. Το γράφημα που απεικονίζει το άθροισμα f1 + f5 ως προς το f1 + f3 παρουσιάζει ενδιαφέρον καθώς στην πραγματικότητα εκεί απεικονίζεται η κατακόρυφη θέση y του κυκλικού αντικειμένου ως προς την οριζόντια θέση x. Σε αυτή την περίπτωση επιβεβαιώνεται ότι η πληροφορία της ελλειπτικής τροχιάς του αντικειμένου έχει διατηρηθεί στο διάνυσμα περιγραφής. Κεφάλαιο 5 Επιλογή Χαρακτηριστικών Πλάνων Με την ανάλυση μιας ακολουθίας σε αντικείμενα σύμφωνα με τις μεθόδους κατάτμησης του Μέρους I και την παραγωγή διανυσμάτων περιγραφής για κάθε καρέ της ακολουθίας, είναι δυνατή η εξαγωγή περίληψης για την προεπισκόπηση καθώς και τη συμπαγή αναπαράσταση της ακολουθίας με σκοπό την αποτελεσματικότερη ανάκληση με βάση το περιεχόμενο. Στο παρόν Κεφάλαιο παρουσιάζεται το πρώτο στάδιο εξαγωγής περίληψης, το οποίο περιλαμβάνει την επιλογή ενός περιορισμένου αριθμού χαρακτηριστικών πλάνων. Για το σκοπό αυτό πραγματοποιείται αρχικά ανίχνευση αλλαγής πλάνων, χρονική κατάτμηση της ακολουθίας σε ένα αριθμό από διαδοχικά πλάνα καθώς και χαρακτηρισμός των πλάνων με τον προσδιορισμό ενός συνολικού διανύσματος περιγραφής για κάθε πλάνο. Η επιλογή χαρακτηριστικών πλάνων υλοποιείται με τη ομαδοποίηση πλάνων με παρόμοιο οπτικό περιεχόμενο σε ένα προκαθορισμένο αριθμό ομάδων και την επιλογή ενός αντιπροσωπευτικού πλάνου από κάθε ομάδα. Οι συγκρίσεις πραγματοποιούνται στο χώρο των διανυσμάτων περιγραφής, ενώ για τη βέλτιστη ομαδοποίηση χρησιμοποιείται ο γενικευμένος αλγόριθμος Lloyd-Max ή K-means. Η τεχνική αξιολογείται σε πραγματικές ακολουθίες βίντεο από δελτία ειδήσεων, ενώ παρουσιάζονται και πειραματικά αποτελέσματα στερεοσκοπικών ακολουθιών· στην περίπτωση αυτή αξιολογείται η βελτίωση στην ποιότητα της περίληψης σε σχέση με το απαιτούμενο επιπρόσθετο υπολογιστικό κόστος. 5.1 ΑΝΙΧΝΕΥΣΗ ΚΑΙ ΧΑΡΑΚΤΗΡΙΣΜΟΣ ΠΛΑΝΩΝ Τ ο πρώτο στάδιο για την αποτελεσματική εξαγωγή περίληψης μιας ακολουθίας βίντεο με σκοπό την προεπισκόπησή της ή την αναζήτηση με βάση το περιεχόμενο είναι η ανάλυ- σή της σε πλάνα και η επιλογή ενός συνόλου από χαρακτηριστικά πλάνα. Ένα πλάνο (shot) είναι ένα χρονικό τμήμα μιας ακολουθίας το οποίο αντιστοιχεί σε συνεχή λειτουργία μίας και μόνο κάμερας. Επειδή κάθε ακολουθία αποτελείται από ένα μεγάλο αριθμό πλάνων και οι χρονικές στιγμές αρχής και τέλους του κάθε πλάνου δεν είναι γνωστές, απαιτείται αρχικά ανίχνευση αλλαγής πλάνων (shot cut detection). Η διαδικασία αυτή έχει σκοπό τον εντοπισμό των χρονικών στιγμών, δηλαδή των καρέ, κατά τις οποίες τελειώνει ένα πλάνο και αρχίζει το επόμενο. Ο εντοπισμός αυτός πρέπει να γίνεται με αυτόματο τρόπο, με βάση το οπτικό περιεχόμενο της ακολουθίας. Επειδή οι αλλαγές πλάνων μπορεί να είναι απότομες (shot cut) ή πολλές φορές και συνεχείς, με ομοιόμορφη μεταβολή του περιεχομένου (shot fading ή dissolve), η ανίχνευση αλλαγής πλάνων δεν είναι πάντα εύκολη. Έχουν προταθεί αρκετοί αλγόριθμοι στη βιβλιογραφία για αυτόματη ανίχνευση αλλαγής πλάνων, είτε σε ασυμπίεστες είτε απευθείας σε συμπιεσμένες ακολουθίες [97,149]. Οι αλγόριθμοι αυτοί αντιμετωπίζουν συνήθως απότομες αλλαγές (cuts), η ανίχνευση των οποίων θεωρείται πιο εύκολη, ή και αλλαγές τύπου fading ή dissolve. Στην περίπτωση των στερεοσκοπικών ακολουθιών, επειδή οι αλλαγές πλάνων συμβαίνουν την ίδια χρονική στιγμή και στα δύο κα- 50 Κεφάλαιο 5 Επιλογή Χαρακτηριστικών Πλάνων 51 νάλια, η ανίχνευση αλλαγής πλάνου στο ένα μόνο κανάλι είναι επαρκής και δεν απαιτείται ειδικός αλγόριθμος. Στο πλαίσιο των πειραμάτων της διατριβής η ανίχνευση αλλαγής πλάνων βασίζεται στο σφάλμα εκτίμησης κίνησης (block motion estimation error, BME), το οποίο είναι διαθέσιμο στις ακολουθίες MPEG, ή προκύπτει ως ενδιάμεσο αποτέλεσμα της διαδικασίας εκτίμησης κίνησης. Το άθροισμα του σφάλματος εκτίμησης κίνησης σε όλα τα blocks ενός καρέ δίνει ένα μέτρο απόστασης του καρέ αυτού από το προηγούμενό του και μάλιστα δεν επηρεάζεται από τις κινήσεις των αντικειμένων, σε αντίθεση με τις τεχνικές που βασίζονται σε διαφορές pixel προς pixel. Η προτεινόμενη τεχνική ανιχνεύει μόνο απότομες αλλαγές πλάνων, ενώ το υπολογιστικό της κόστος είναι πολύ μικρό αν έχει ήδη προηγηθεί εκτίμηση κίνησης. Σε ακολουθίες MPEG οι αλλαγές πλάνων μπορούν επίσης να ανιχνευθούν με βάση την κατανομή των bits σε καρέ τύπου P και B [32]. #40 #80 #120 #160 #200 #240 #280 #320 #360 #400 #440 #480 #520 #560 #600 #640 #680 #720 #760 #800 #840 #880 #920 #960 Σχήμα 5-1. Ακολουθία τηλεοπτικών ειδήσεων μήκους 1000 καρέ, που περιέχει συνολικά οκτώ πλάνα. 12 10 8 107 BME 6 4 2 0 0 200 400 600 800 1000 Αριθμός καρέ, k Σχήμα 5-2. Σφάλμα εκτίμησης κίνησης συναρτήσει του χρόνου (αριθμού καρέ) για την ακολουθία του Σχήματος 5-1. #1 #265 #463 #542 #682 #754 #846 #860 Σχήμα 5-3. Τα οκτώ πλάνα της ακολουθίας του Σχήματος 5-1. Παρουσιάζεται το πρώτο καρέ του κάθε πλάνου. Ένα παράδειγμα ανίχνευσης πλάνων με την προτεινόμενη μέθοδο δίνεται για μια ακολουθία από πρόγραμμα τηλεοπτικών ειδήσεων συνολικής διάρκειας 40 δευτερολέπτων (1000 καρέ με ρυθμό 25 frames/sec). Η ακολουθία παρουσιάζεται στο Σχήμα 5-1, όπου εικονίζεται ένα καρέ κάθε 40. Αποτελείται συνολικά από οκτώ πλάνα: ένα πλάνο του παρουσιαστή στο 52 ΜΕΡΟΣ II Χαρακτηρισμός, Προεπισκόπηση και Αναζήτηση με Βάση το Περιεχόμενο στούντιο, στη συνέχεια έξι εξωτερικά πλάνα αθλητικού ρεπορτάζ από αγώνα μπάσκετ και τέλος ακόμη ένα πλάνο με τον παρουσιαστή. Το γράφημα του σφάλματος εκτίμησης κίνησης συναρτήσει του χρόνου για την ακολουθία αυτή φαίνεται στο Σχήμα 5-2. Οι χρονικές στιγμές αλλαγής πλάνου εντοπίζονται με χρήση κατωφλίωσης στο γράφημα του σφάλματος εκτίμησης κίνησης. Μάλιστα το τελευταίο καρέ του αθλητικού ρεπορτάζ έχει πολύ μικρή διάρκεια (14 καρέ) και δεν διακρίνεται στο Σχήμα 51. Επίσης είναι εμφανής από το γράφημα η εντονότερη δράση (μεγαλύτερη κίνηση) στα εξωτερικά πλάνα σε σχέση με το στούντιο. Τα οκτώ πλάνα της ακολουθίας παρουσιάζονται στο Σχήμα 5-3, όπου εικονίζεται το πρώτο καρέ του κάθε πλάνου. Σημειώνεται ότι η ανίχνευση αλλαγής πλάνων είναι επιτυχής παρά τις γρήγορες κινήσεις της κάμερας στα πλάνα του αθλητικού ρεπορτάζ. Το επόμενο βήμα μετά την ανίχνευση των πλάνων είναι ο χαρακτηρισμός τους, δηλαδή η κατασκευή ενός διανύσματος περιγραφής για την αναπαράσταση κάθε πλάνου. Για το σκοπό αυτό όλα τα καρέ του κάθε πλάνου αναλύονται σε αντικείμενα με βάση το χρώμα και την κίνηση (καθώς και το πεδίο βάθους για στερεοσκοπικές ακολουθίες), και στη συνέχεια παράγονται διανύσματα περιγραφής των καρέ σύμφωνα με τη διαδικασία του Κεφαλαίου 4. Το διάνυσμα περιγραφής ενός πλάνου ορίζεται ως η μέση τιμή των διανυσμάτων περιγραφής όλων των καρέ του πλάνου. Εναλλακτικά, μπορεί να γίνει πρώτα επιλογή χαρακτηριστικών καρέ και η μέση τιμή να υπολογισθεί για τα χαρακτηριστικά καρέ μόνο. Με τον τρόπο αυτό επιτυγχάνεται καλύτερη αναπαράσταση του οπτικού περιεχομένου των πλάνων. 5.2 ΟΜΑΔΟΠΟΙΗΣΗ ΠΛΑΝΩΝ Με δεδομένα τα διανύσματα περιγραφής των πλάνων μιας ακολουθίας πραγματοποιείται βέλτιστη εξαγωγή των πιο χαρακτηριστικών (αντιπροσωπευτικών) πλάνων. Κάτι τέτοιο επιτυγχάνεται με την ομαδοποίηση (clustering) των πλάνων παρόμοιου οπτικού περιεχομένου σε ένα περιορισμένο αριθμό ομάδων (clusters) και την επιλογή ενός αντιπροσωπευτικού πλάνου από κάθε ομάδα. Η διαδικασία ομαδοποίησης υλοποιείται με τον αλγόριθμο Lloyd-Max ή Kmeans. Η εξαγωγή περίληψης μέσω ομαδοποίησης έχει ξαναχρησιμοποιηθεί [3,74], αλλά η επιλογή χαρακτηριστικών πλάνων μέσω ομαδοποίησης με τον αλγόριθμο Lloyd-Max [46] είναι πρωτότυπη· προτάθηκε αρχικά στην εργασία [14] και χρησιμοποιήθηκε επίσης στις [31,33,36,39]. Έστω ότι hi , i = 1, 2, ..., NS , είναι το διάνυσμα περιγραφής του i-οστού πλάνου, μήκους Q L + Q L , όπου NS είναι ο συνολικός αριθμός πλάνων της ακολουθίας. Έτσι ορίζεται το σύνολο E = {hi , i = 1, 2, ..., NS} όλων των διανυσμάτων περιγραφής πλάνων. Έστω ότι το πλήθος χαρακτηριστικών πλάνων που πρέπει να επιλεγούν είναι KS , ενώ με qi , i = 1, 2, ..., KS , συμβολίζονται KS αυθαίρετα διανύσματα του χώρου Μ. Για κάθε qi σχηματίζεται μία ζώνη επιρροής (influence zone), έστω Zi , η οποία περιέχει όλα τα διανύσματα περιγραφής πλάνων h E που είναι πλησιέστερα στο qi : Zi = {h E: h - qi < h - qj j i}, i = 1, 2, ..., KS (5-1) c m όπου είναι η Ευκλείδεια απόσταση δύο διανυσμάτων. Με χρήση των ζωνών επιρροής επιτυγχάνεται ομαδοποίηση των διανυσμάτων περιγραφής, αφού σε κάθε διάνυσμα qi αντιστοιχεί Κεφάλαιο 5 Επιλογή Χαρακτηριστικών Πλάνων 53 ένα σύνολο (ομάδα) διανυσμάτων περιγραφής. Για κάθε ομάδα το αντίστοιχο διάνυσμα qi ονομάζεται κέντρο ομάδας (cluster center). Τότε η μέση παραμόρφωση (distortion) των διανυσμάτων qi , i = 1, 2, ..., KS , ορίζεται ως το άθροισμα αποστάσεων των διανυσμάτων περιγραφής από το κέντρο της ομάδας τους, για όλες τις ομάδες: RS (q 1 , q 2 ,..., q KS ) = KS i = 1 hZi h - qi (5-2) Η μέση παραμόρφωση είναι ένα μέτρο αξιολόγησης της αναπαράστασης των διανυσμάτων περιγραφής πλάνων από τα κέντρα ομάδων qi . Επομένως τα βέλτιστα διανύσματα λογίζονται με ελαχιστοποίηση της παραμόρφωσης RS : ^ ^ ^ (q 1 , q 2 ,..., q KS ) = q1 ,q2 ,...,qKs M ^ q i υπο(5-3) arg min RS (q 1 , q 2 ,..., q KS ) Με άλλα λόγια, τα βέλτιστα κέντρα ομάδων θα πρέπει να ορίζονται με τέτοιο τρόπο, ώστε να έχουν την ελάχιστη απόσταση (και επομένως τη μεγαλύτερη ομοιότητα) με τα διανύσματα περιγραφής των ομάδων τους. Όμως η ελαχιστοποίηση του μέτρου παραμόρφωσης είναι μία πολύπλοκη διαδικασία γιατί οι άγνωστες παράμετροι qi , i = 1, 2, ..., KS , εμπλέκονται και στις αποστάσεις αλλά και στις ζώνες επιρροής Zi της Εξίσωσης (5-2). Για το λόγο αυτό η ελαχιστοποίηση πραγματοποιείται αναδρομικά με χρήση του γενικευμένου αλγορίθμου LloydMax, ή K-means [46]. Συγκεκριμένα, ξεκινώντας από αυθαίρετα αρχικά κέντρα ομάδων qi(0), i = 1, 2, ..., KS , τα επόμενα κέντρα υπολογίζονται με τις παρακάτω Εξισώσεις για την επανάληψη n 0: Zi(n) = {h E: h - qi (n) < h - qj (n) j i}, qi (n + 1)) = cent(Zi(n)), i = 1, 2, ..., KS i = 1, 2, ..., KS (5-4) (5-5) όπου qi (n) είναι το i-οστό κέντρο ομάδας στην n-οστή επανάληψη, και Zi(n) είναι η ζώνη επιρροής του. Το κέντρο, cent(), της ζώνης Zi(n), υπολογίζεται ως η μέση τιμή των διανυσμάτων περιγραφής που ανήκουν στη ζώνη: cent(Zi (n )) = 1 Zi ( n ) hZi ( n ) h (5-6) όπου |Zi(n)| είναι το πλήθος στοιχείων της ζώνης Zi(n). Επαναλαμβάνοντας τη αναδρομική ^ ^ ^ διαδικασία των Εξισώσεων (5-4) και (5-5), ο αλγόριθμος συγκλίνει στη λύση (q 1 , q 2 ,..., q KS ) έπειτα από μικρό αριθμό επαναλήψεων. Τελικά, επειδή δεν υπάρχει εγγύηση ότι τα βέλτιστα ^ ^ ^ κέντρα ομάδων (q 1 , q 2 ,..., q K ) αντιστοιχούν σε πραγματικά διανύσματα περιγραφής πλάS νων, τα KS χαρακτηριστικά πλάνα της ακολουθίας επιλέγονται ως εκείνα τα πλάνα των οποί- ^ ^ ^ ων τα διανύσματα περιγραφής είναι πλησιέστερα στα (q 1 , q 2 ,..., q KS ) . Πρέπει να σημειωθεί ότι όσο το πλήθος χαρακτηριστικών πλάνων KS αυξάνεται, η μέση παραμόρφωση RS μειώνεται, αφού τα διανύσματα περιγραφής πλάνων είναι πλησιέστερα στα κέντρα των ομάδων πλάνων. Ειδικότερα στην οριακή περίπτωση KS = NS, όπου διατηρούνται όλα τα πλάνα της ακολουθίας ως χαρακτηριστικά, κάθε πλάνο παριστά μία ομάδα και επομένως η παραμόρφωση RS μηδενίζεται. Αντίθετα, μικρές τιμές του KS είναι συνήθως επιθυμητές για τη μείωση των απαιτήσεων αποθήκευσης και την εξαγωγή αποδοτικής περίληψης. Οι μικρές τιμές του KS όμως οδηγούν σε μεγάλη παραμόρφωση και επομένως σε απώλεια πληρο- 54 ΜΕΡΟΣ II Χαρακτηρισμός, Προεπισκόπηση και Αναζήτηση με Βάση το Περιεχόμενο φορίας, αφού μικρός αριθμός πλάνων δε μπορεί να περιγράψει ικανοποιητικά το οπτικό περιεχόμενο της ακολουθίας. Η βέλτιστη τιμή του KS εκτιμάται με χρήση ενός κριτηρίου που βασίζεται στη θεωρία πληροφορίας, και συγκεκριμένα το minimum description length (MDL) [144]. 5.3 ΠΕΙΡΑΜΑΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ Η προτεινόμενη μέθοδος επιλογής αντιπροσωπευτικών πλάνων δοκιμάσθηκε σε μία ακολουθία συνολικής διάρκειας 2.5 λεπτών (3750 καρέ) που προέρχεται από τηλεοπτικό δελτίο ειδήσεων. Με την ανίχνευση αλλαγής πλάνων η ακολουθία αναλύθηκε αρχικά σε πλάνα και στη συνέχεια μέσω κατάτμησης χρώματος και κίνησης υπολογίσθηκαν τα διανύσματα περιγραφής των όλων των καρέ του κάθε πλάνου, καθώς και τα συνολικά διανύσματα περιγραφής των πλάνων. Για την κατασκευή διανυσμάτων περιγραφής, το πεδίο τιμών κάθε χαρακτηριστικού διαμερίστηκε σε Q = 2 κλάσεις μέσω τριών τριγωνικών συναρτήσεων συμμετοχής με 50% επικάλυψη. Έτσι το συνολικό μήκος των διανυσμάτων περιγραφής είναι Q L + Q L = 96 για Lc = 6 και Lm = 5. c m #1 #2 #3 #4 #5 #6 #7 #8 #9 #10 #11 #12 #13 #14 #15 #16 #17 #18 #19 #20 Σχήμα 5-4. Ακολουθία τηλεοπτικών ειδήσεων, διάρκειας 2.5 λεπτών (3750 καρέ), που περιέχει συνολικά NS = 20 πλάνα. Παρουσιάζεται ένα καρέ για κάθε πλάνο. (Ομ. 1) #1 (Ομ. 2) #4 (Ομ. 3) #17 (Ομ. 4) #8 #15 #20 #18 #5 #6 #7 #9 #11 #12 #2 #3 #10 #13 #14 #16 #19 Σχήμα 5-5. Ομάδες πλάνων για την ακολουθία του Σχήματος 5-4. Η ακολουθία αποτελείται από NS = 20 πλάνα, τα οποία φαίνονται στο Σχήμα 5-4. Με στόχο την αποτελεσματική παρουσίαση, για κάθε πλάνο εικονίζεται ένα καρέ, του οποίο το διάνυσμα περιγραφής είναι το πλησιέστερο στο διάνυσμα περιγραφής του όλου πλάνου, επομένως το καρέ αυτό αντιπροσωπεύει καλύτερα το οπτικό περιεχόμενο του πλάνου. Από το κρι- Κεφάλαιο 5 Επιλογή Χαρακτηριστικών Πλάνων 55 τήριο MDL το βέλτιστο πλήθος χαρακτηριστικών πλάνων προκύπτει KS = 4. Έτσι, τα 20 πλάνα ομαδοποιούνται με τον προτεινόμενο αλγόριθμο σε τέσσερις ομάδες, οι οποίες απεικονίζονται στo Σχήμα 5-5. Κάθε ομάδα περιέχει τα πλάνα των οποίων τα διανύσματα περιγραφής είναι πλησιέστερα στο κέντρο της ομάδας. Ομάδα 1 Ομάδα 2 Ομάδα 3 Ομάδα 4 #14 #9 #17 #15 Σχήμα 5-6. Χαρακτηριστικά πλάνα για την ακολουθία του Σχήματος 5-4. Τα τέσσερα επιλεγμένα χαρακτηριστικά πλάνα εικονίζονται στο Σχήμα 5-6. Πρόκειται για τα πλάνα εκείνα των οποίων τα διανύσματα περιγραφής είναι πλησιέστερα στα βέλτιστα κέντρα ομάδων που προκύπτουν από τον αλγόριθμο ομαδοποίησης. Είναι εμφανές ότι τα τέσσερα επιλεγμένα πλάνα δίνουν ικανοποιητική αναπαράσταση του οπτικού περιεχομένου της ακολουθίας χωρίς να περιέχουν περιττή πληροφορία. Παρατηρείται επίσης ότι κάθε ομάδα περιέχει πλάνα με παρόμοιες ιδιότητες, όπως το πλήθος και η πολυπλοκότητα των αντικειμένων. 5.4 ΑΠΟΤΕΛΕΣΜΑΤΑ ΣΕ ΣΤΕΡΕΟΣΚΟΠΙΚΕΣ ΑΚΟΛΟΥΘΙΕΣ Για την αξιολόγηση της προτεινόμενης μεθόδου εξαγωγής περίληψης σε στερεοσκοπικές ακολουθίες χρησιμοποιήθηκε το στερεοσκοπικό τηλεοπτικό πρόγραμμα "Eye to Eye" [118], συνολικής διάρκειας 25 λεπτών (12739 καρέ με ρυθμό 10 frames/sec). Η παραγωγή του προγράμματος έγινε στo πλαίσιο του έργου ACTS MIRAGE [47] σε συνεργασία με την AEA Technology και το Independent Television Commission (ITC). Οι λήψεις των εσωτερικών πλάνων πραγματοποιήθηκαν με τη στερεοσκοπική μονάδα στούντιο που αναπτύχθηκε από την AEA Technology από κοινού με την Thomson Multimedia στο πλαίσιο του παλαιότερου έργου RACE DISTIMA [153], ενώ οι λήψεις των εξωτερικών πλάνων με ειδική στερεοσκοπική κάμερα ελαφριάς και γερής κατασκευής που αναπτύχθηκε για το ITC από την AEA Technology. Στην ακολουθία εφαρμόζεται αρχικά στερεοσκοπική ανάλυση και για κάθε ζεύγος εικόνων (καρέ) υπολογίζεται ένα πεδίο βάθους. Στη συνέχεια πραγματοποιείται κατάτμηση με βάση το χρώμα του αριστερού καναλιού και το πεδίο βάθους, με χρήση του αλγορίθμου MRSST. Τα τμήματα χρώματος και βάθους συγχωνεύονται για την εξαγωγή αντικειμένων και καταγράφονται τα χαρακτηριστικά του κάθε αντικειμένου, συμπεριλαμβανομένων του μεγέθους, της θέσης, του χρώματος, του βάθους και της κίνησης. Για την κατασκευή διανυσμάτων περιγραφής των καρέ, το πεδίο τιμών κάθε χαρακτηριστικού διαμερίζεται σε Q = 3 κλάσεις μέσω τριών τριγωνικών συναρτήσεων συμμετοχής με 50% επικάλυψη. Έτσι το συνολικό μήκος των διανυσμάτων περιγραφής είναι QL = 2,187 καθώς στη συγκεκριμένη περίπτωση χρησιμοποιείται το σύνθετο διάνυσμα περιγραφής της Εξίσωσης (4-6) και επομένως L = 7. Στη συνέχεια ανιχνεύονται οι αλλαγές πλάνων και υπολογίζονται διανύσματα περιγραφής πλάνων. Όλες οι παραπάνω πληροφορίες χαρακτηρισμού της ακολουθίας αποθηκεύονται σε βάση δεδομένων και είναι διαθέσιμες για τη διεξαγωγή πειραμάτων επιλογής αντιπροσωπευτικών πλάνων και καρέ. 56 ΜΕΡΟΣ II Χαρακτηρισμός, Προεπισκόπηση και Αναζήτηση με Βάση το Περιεχόμενο #1 #2 #3 #4 #5 #6 #7 #8 #9 #10 #11 #12 #13 #14 #15 #16 #17 #18 #19 #20 #21 #22 #23 #24 #25 #26 #27 #28 #29 #30 #31 #32 #33 #34 #35 #36 #37 #38 #39 #40 #41 #42 #43 #44 #45 #46 #47 #48 #49 #50 #51 #52 #53 #54 #55 #56 #57 #58 #59 #60 #61 #62 #63 #64 #65 #66 #67 #68 #69 #70 #71 #72 #73 #74 #75 #76 Σχήμα 5-7. Η στερεοσκοπική ακολουθία "Eye to Eye", διάρκειας 25 λεπτών, η οποία περιέχει NS = 76 πλάνα. Παρουσιάζεται ένα καρέ για κάθε πλάνο. Η ακολουθία "Eye to Eye" αποτελείται συνολικά από NS = 76 πλάνα τα οποία φαίνονται στο Σχήμα 5-7. Όπως και στο Σχήμα 5-4, για κάθε πλάνο εικονίζεται ένα καρέ, του οποίου το διάνυσμα περιγραφής είναι το πλησιέστερο στο διάνυσμα περιγραφής του όλου πλάνου, επομένως το καρέ αυτό αντιπροσωπεύει καλύτερα το οπτικό περιεχόμενο του πλάνου. Με χρήση του κριτηρίου MDL, το βέλτιστο πλήθος χαρακτηριστικών πλάνων προκύπτει KS = 10. Με τον προτεινόμενο αλγόριθμο τα 76 πλάνα ομαδοποιούνται σε 10 ομάδες, οι οποίες απεικονίζονται στo Σχήμα 5-8. Όπως παρατηρείται, η πλειοψηφία των πλάνων που περιέχουν παρόμοιο οπτικό περιεχόμενο, όσον αφορά στο πλήθος και στην πολυπλοκότητα των αντικειμένων, ανήκουν στην ίδια ομάδα πλάνων. Επίσης, στο Σχήμα 5-9 παρουσιάζονται τα δέκα αντιπροσωπευτικά πλάνα των ομάδων, δηλαδή εκείνα τα πλάνα των οποίων τα διανύσματα περιγραφής είναι πλη- Κεφάλαιο 5 Επιλογή Χαρακτηριστικών Πλάνων 57 σιέστερα στα κέντρα των ομάδων. Είναι εμφανές ότι τα δέκα επιλεγμένα πλάνα αποτελούν ικανοποιητική περίληψη του οπτικού περιεχομένου της όλης ακολουθίας, συνολικής διάρκειας 25 λεπτών. Το σύνολο των χαρακτηριστικών πλάνων δίνει έτσι τη δυνατότητα παραγωγής περιληπτικών βίντεο κλιπ μικρής διάρκειας και χαμηλής ανάλυσης για σκοπούς προεπισκόπησης. (Ομ. 1) #1 #30 #65 (Ομ. 2) #12 (Ομ. 3) #33 #44 (Ομ. 4) #3 #53 (Ομ. 5) #67 #69 #70 #71 #72 #36 #55 #46 #59 #48 #63 (Ομ. 10) #31 #42 #73 #76 #50 (Ομ. 9) #34 #35 #41 #37 #38 #39 #40 #16 #19 #20 #21 (Ομ. 8) #13 #49 #60 #29 #52 #62 #43 #54 #64 #45 #56 #66 #47 #58 #68 #22 #24 #25 #2 #32 #74 #26 #51 #75 #9 #10 #14 #17 #18 #27 #57 #28 #61 (Ομ. 7) #4 #5 #6 #7 #8 (Ομ. 6) #11 #15 #23 Σχήμα 5-8. Ομάδες πλάνων για την ακολουθία "Eye to Eye", με συγχώνευση τμημάτων χρώματος και βάθους. Ομάδα 1 Ομάδα 2 Ομάδα 3 Ομάδα 4 Ομάδα 5 Ομάδα 6 Ομάδα 7 Ομάδα 8 Ομάδα 9 Ομάδα 10 #57 #16 #38 #63 #69 #15 #6 #54 #34 #42 Σχήμα 5-9. Χαρακτηριστικά πλάνα για την ακολουθία "Eye to Eye", με συγχώνευση τμημάτων χρώματος και βάθους. Για να αξιολογηθεί το επιπρόσθετο όφελος από τη στερεοσκοπική ανάλυση, την εκτίμηση βάθους και τη συγχώνευση αντικειμένων στη διαδικασία εξαγωγής περίληψης, πραγματοποιείται ένα δεύτερο πείραμα στο οποίο χρησιμοποιείται μόνο η πληροφορία χρώματος του ενός καναλιού. Συγκεκριμένα, πραγματοποιείται μόνο κατάτμηση με βάση το χρώμα, με είσοδο την εικόνα αριστερού καναλιού για κάθε καρέ, χωρίς εκτίμηση βάθους ή συγχώνευση αντικειμένων. Τα διανύσματα περιγραφής που παράγονται από τα νέα τμήματα χρώματος χρησιμοποιούνται εκ νέου για την ομαδοποίηση των πλάνων σε KS = 10 ομάδες. Τα αποτελέσματα του πειράματος αυτού παρουσιάζονται στo Σχήμα 5-10. Είναι ξεκάθαρο ότι ο διαχωρισμός πλάνων ως προς το οπτικό περιεχόμενο δεν είναι το ίδιο επιτυχημένος όπως στην περίπτωση της στερεοσκοπικής ανάλυσης, όπου χρησιμοποιείται η πληροφορία του βάθους για πιο αξιόπιστη εξαγωγή αντικειμένων. Για παράδειγμα, όλα τα 58 ΜΕΡΟΣ II Χαρακτηρισμός, Προεπισκόπηση και Αναζήτηση με Βάση το Περιεχόμενο πλάνα που απεικονίζουν την παρουσιάστρια του προγράμματος ταξινομούνται στη ίδια ομάδα πλάνων (ομάδα 1) με χρήση του πεδίου βάθους. Αντίθετα, με κατάτμηση χρώματος μόνο, τα πλάνα αυτά ταξινομούνται σε περισσότερες από μία ομάδες (κυρίως στις ομάδες 7, 8 και 9). Με όμοιο τρόπο, τα αντιπροσωπευτικά πλάνα των ομάδων με κατάτμηση χρώματος μόνο παρουσιάζονται στο Σχήμα 5-11. Παρατηρείται ότι τα επιλεγμένα χαρακτηριστικά πλάνα περιέχουν πολλαπλές εμφανίσεις του ίδιου οπτικού περιεχομένου, ενώ αντίθετα ορισμένα χαρακτηριστικά πλάνα της ακολουθίας και μάλιστα μεγάλης διάρκειας δεν έχουν ένα αντίστοιχο αντιπρόσωπο ομάδας. (Ομ. 1) #73 (Ομ. 2) #12 #20 (Ομ. 3) #5 (Ομ. 4) #13 (Ομ. 5) #33 #56 #65 (Ομ. 6) #14 #15 #34 #35 #49 #52 #43 #58 #45 #60 #47 #63 #53 #64 (Ομ. 10) #4 #6 #8 #10 #48 #37 #75 #42 #66 #67 #69 #36 #50 #54 #62 (Ομ. 9) #3 #23 #26 #28 #29 #7 #9 #11 #68 #70 #71 #72 #74 #16 #21 #17 #24 #18 #25 #19 (Ομ. 8) #1 #38 #2 #39 #30 #40 #31 #41 #32 #44 #76 (Ομ. 7) #22 #57 #27 #59 #46 #61 #51 #55 Σχήμα 5-10. Ομάδες πλάνων για την ακολουθία "Eye to Eye", με κατάτμηση χρώματος μόνο. Ομάδα 1 Ομάδα 2 Ομάδα 3 Ομάδα 4 Ομάδα 5 Ομάδα 6 Ομάδα 7 Ομάδα 8 Ομάδα 9 Ομάδα 10 #73 #25 #7 #54 #43 #34 #51 #38 #23 #6 Σχήμα 5-11. Χαρακτηριστικά πλάνα για την ακολουθία "Eye to Eye", με κατάτμηση χρώματος μόνο. Πρέπει επίσης να σημειωθεί ότι το επιπλέον υπολογιστικό κόστος για την εκτίμηση της απόκλισης και την κατάτμηση με βάση το βάθος δεν αποτελεί σοβαρό περιοριστικό παράγοντα. Για παράδειγμα, η επεξεργασία με κατάτμηση χρώματος μόνο απαιτεί 4.37 sec/frame σε υπολογιστή Sun Ultra 10 (333 MHz) για ανάλυση καρέ 352 264 pixels. Αντίθετα η επεξεργασία με κατάτμηση βάθους και συγχώνευση απαιτεί 9.91 sec/frame, συμπεριλαμβανομένης και της κατάτμησης χρώματος. Οι παραπάνω χρόνοι επεξεργασίας είναι οι μέσες τιμές για όλα τα καρέ της ακολουθίας. Κεφάλαιο 5 Επιλογή Χαρακτηριστικών Πλάνων 59 Για επιτάχυνση της στερεοσκοπικής ανάλυσης πραγματοποιήθηκε στα παραπάνω πειράματα υποδειγματοληψία των εικόνων των δύο καναλιών για εκτίμηση και κατάτμηση βάθους (χρησιμοποιήθηκαν δηλαδή blocks διαστάσεων 2 2 pixels). Σημειώνεται ότι με επιπλέον υποδειγματοληψία (δηλαδή 4 4 blocks) ο συνολικός χρόνος επεξεργασίας μειώνεται στα 5.85 sec/frame, χρόνος συγκρίσιμος με την επεξεργασία ενός καναλιού με κατάτμηση χρώματος μόνο. Η υποδειγματοληψία δεν επηρεάζει σημαντικά την εξαγωγή αντικειμένων, αφού τα ακριβή περιγράμματα των αντικειμένων παράγονται ουσιαστικά από την κατάτμηση χρώματος. Επιπλέον μείωση του υπολογιστικού κόστους για την εκτίμηση του πεδίου απόκλισης μπορεί να επιτευχθεί με τον αλγόριθμο που προτάθηκε πρόσφατα στην εργασία [129]. Έτσι, συμπεραίνεται ότι όφελος από τη χρήση της πληροφορίας βάθους δικαιολογεί το απαιτούμενο υπολογιστικό κόστος. Σε κάποιες περιπτώσεις βέβαια οι διαφορές απόκλισης μεταξύ αντικειμένων στη χρησιμοποιούμενη ανάλυση εικόνας είναι μικρές, έχοντας ως αποτέλεσμα λανθασμένη εκτίμηση βάθους. Αυτό συμβαίνει ιδιαίτερα στα μακρινά πλάνα, όπου οι διαφορές βάθους είναι πολύ μικρές για να εκτιμηθούν με ακρίβεια. Κάτι τέτοιο όμως δεν είναι πολύ συχνό, ειδικά στις στερεοσκοπικές ακολουθίες, στην παραγωγή των οποίων συνήθως δίνεται έμφαση στην πληροφορία βάθους. Συγκεκριμένα, στην ακολουθία "Eye to Eye", 532 μόνο από τα 12,739 καρέ ανιχνεύονται ως καρέ χωρίς σημαντική πληροφορία βάθους, δηλαδή 4.18% της συνολικής ακολουθίας. Τα καρέ αυτά ανιχνεύονται εύκολα γιατί παράγουν ένα μόνο τμήμα βάθους, ενώ η επεξεργασία τους περιλαμβάνει κατάτμηση χρώματος μόνο, δηλαδή η πληροφορία βάθους αγνοείται. Κεφάλαιο 6 Επιλογή Χαρακτηριστικών Καρέ με Βάση τη Χρονική Μεταβολή Το δεύτερο στάδιο εξαγωγής περίληψης από μία ακολουθία βίντεο είναι η επιλογή ενός περιορισμένου συνόλου χαρακτηριστικών καρέ τα οποία να δίνουν ικανοποιητική περιγραφή του οπτικού περιεχομένου της ακολουθίας. Ουσιαστικά η επιλογή χαρακτηριστικών καρέ αποτελεί χρονική δειγματοληψία της ακολουθίας, η οποία όμως είναι μη ομοιόμορφη και βασίζεται στο περιεχόμενο. Η επιλογή χαρακτηριστικών καρέ μπορεί να γίνει είτε στο σύνολο των χαρακτηριστικών πλάνων είτε σε ολόκληρη την ακολουθία· η πρώτη τεχνική είναι περισσότερο κατάλληλη για προεπισκόπηση ενώ η δεύτερη για ανάκληση με βάση το περιεχόμενο. Στο πλαίσιο της διατριβής προτείνονται δύο μέθοδοι επιλογής χαρακτηριστικών καρέ. Η πρώτη βασίζεται στη χρονική μεταβολή του διανύσματος περιγραφής και παρουσιάζεται στο παρόν Κεφάλαιο ενώ η δεύτερη βασίζεται στην ελαχιστοποίηση ενός κριτηρίου συσχέτισης και παρουσιάζεται στο Κεφάλαιο 7. Πιο συγκεκριμένα, η μέθοδος χρονικής μεταβολής βασίζεται στην παρατήρηση ότι το διάνυσμα περιγραφής διαδοχικών καρέ ως συνάρτηση του χρόνου σχηματίζει μία τροχιά σε ένα πολυδιάστατο χώρο· επομένως η επιλογή χαρακτηριστικών καρέ είναι ισοδύναμη με την επιλογή κατάλληλων σημείων της τροχιάς που να περιγράφουν το σχήμα της. Ως τέτοια επιλέγονται τα ακρότατα σημεία της καμπύλης της τροχιάς, ενώ η επιλογή υλοποιείται με τη μεγιστοποίηση ενός μέτρου καμπυλότητας της τροχιάς, αφού πρώτα η τροχιά εξομαλυνθεί για την αφαίρεση του θορύβου που οφείλεται σε σφάλματα κατάτμησης. Η λειτουργία της μεθόδου χρονικής μεταβολής επιδεικνύεται στη συνθετική ακολουθία του Κεφαλαίου 4 καθώς και σε πραγματικές ακολουθίες. 6.1 ΤΡΟΧΙΑ ΔΙΑΝΥΣΜΑΤΟΣ ΠΕΡΙΓΡΑΦΗΣ φής όλων των καρέ σχηματίζουν μία τροχιά σε ένα πολυδιάστατο χώρο η οποία εκφράζει τη χρονική μεταβολή του οπτικού περιεχομένου του πλάνου. Επομένως, η επιλογή των χαρακτηριστικών καρέ (key frames) μέσα σε ένα πλάνο είναι ισοδύναμη με την επιλογή ενός μικρού συνόλου σημείων της τροχιάς τα οποία είναι σε θέση να περιγράψουν τη μορφή της. Τα επιλεγμένα σημεία θα πρέπει να παρέχουν αρκετή πληροφορία σχετικά με το σχήμα της τροχιάς, έτσι ώστε αυτή να μπορεί να αναπαραχθεί από τα σημεία μέσω κάποιου είδους παρεμβολής. Αυτό μπορεί να επιτευχθεί με την εξαγωγή των χρονικών στιγμών, δηλαδή των αριθμών των καρέ, που βρίσκονται σε ακραίες θέσεις της τροχιάς. Για την εξαγωγή αυτών των χρονικών στιγμών προτείνεται η χρήση ενός μέτρου καμπυλότητας της τροχιάς, και συγκεκριμένα του μέτρου της δεύτερης παραγώγου του διανύσματος περιγραφής ως προς το χρόνο. Η δεύτερη παράγωγος ουσιαστικά εκφράζει το μέγεθος και την κατεύθυνση της επιτάχυνσης ή επιβράδυνσης ενός αντικειμένου που κινείται κατά μήκος της τροχιάς. Τα τοπικά μέγιστα του μέτρου της παραγώγου αντιστοιχούν σε χρονικές στιγμές μέγιστης μεταβολής της τα- Α φού κάθε καρέ σε ένα πλάνο αντιστοιχεί σε μία συγκεκριμένη χρονική στιγμή και χαρακτηρίζεται από ένα συγκεκριμένο διάνυσμα περιγραφής, τα διανύσματα περιγρα- 60 Κεφάλαιο 6 Επιλογή Χαρακτηριστικών Καρέ με Βάση τη Χρονική Μεταβολή 61 χύτητας του αντικειμένου, δηλαδή σε ακραία σημεία της τροχιάς. Όμοια τα τοπικά ελάχιστα αντιστοιχούν σε χρονικές στιγμές όπου η ταχύτητα είναι σχεδόν σταθερή, δηλαδή σε σχεδόν ευθύγραμμα τμήματα της τροχιάς που βρίσκονται μεταξύ των ακραίων σημείων. Έτσι η επιλογή των χαρακτηριστικών καρέ γίνεται ακριβώς στα παραπάνω σημεία των τοπικών μεγίστων και ελαχίστων. Για παράδειγμα, έστω ότι ένα διδιάστατο διάνυσμα περιγραφής μεταβάλλεται χρονικά σχηματίζοντας τη συνεχή καμπύλη r(t) = (x(t), y(t)) όπως φαίνεται στο Σχήμα 6-1. Τότε τα σημεία που αντιστοιχούν στα τοπικά μέγιστα και ελάχιστα του μέτρου της δεύτερης παραγώγου, D(t), και που απεικονίζονται στα Σχήματα 6-1α,β ως κύκλοι, παρέχουν επαρκή πληροφορία για το σχήμα της καμπύλης r(t), αφού όπως φαίνεται η τελευταία μπορεί να αναπαραχθεί με ικανοποιητική ακρίβεια από τα επιλεγμένα σημεία με χρήση κάποιου είδους παρεμβολής. Η παραπάνω διαδικασία εξαγωγής χαρακτηριστικών καρέ ονομάζεται μέθοδος χρονικής μεταβολής. Στη συνέχεια δίνεται αναλυτική περιγραφή της μεθόδου, χρησιμοποιώντας διακριτό χρόνο για την αναπαράσταση των καρέ. 4 3 2 y(t) 1 0 -1 -2 1200 1000 800 |D(t)| -1 0 1 2 3 4 600 400 200 0 0 0.5 1 1.5 2 2.5 3 x(t) t (α) (β) Σχήμα 6-1. (α) Μία διδιάστατη συνεχής καμπύλη r(t) = (x(t), y(t)). (β) Το μέτρο της δεύτερης παραγώγου της καμπύλης, D(t), συναρτήσει του χρόνου t. Η ιδέα της εξαγωγής χαρακτηριστικών καρέ έχει προταθεί παλαιότερα στην εργασία [5], ενώ η επιλογή τους με βάση τις ιδιότητες της πολυδιάστατης καμπύλης τροχιάς του διανύσματος περιγραφής έχει προταθεί στην [30]. Όμως η χρήση του μέτρου καμπυλότητας της τροχιάς για το σκοπό αυτό στο πλαίσιο της διατριβής είναι πρωτότυπη. Η τεχνική αυτή δημοσιεύθηκε αρχικά στην εργασία [32], ενώ χρησιμοποιήθηκε και στις [8,14]. 6.2 ΜΕΘΟΔΟΣ ΧΡΟΝΙΚΗΣ ΜΕΤΑΒΟΛΗΣ Ας υποθέσουμε ότι ένα πλάνο μιας ακολουθίας βίντεο αποτελείται από NF καρέ, και έστω ότι f(k), k = 0, 1,..., NF - 1, είναι το διάνυσμα περιγραφής του k-οστού καρέ, όπως ορίζεται στην Εξίσωση (4-11). Στο διακριτό χρόνο που χρησιμοποιείται για την αναπαράσταση των καρέ, η παράγωγος του f(k) ως προς τον αύξοντα αριθμό καρέ k εκτιμάται ως η διαφορά διανυσμάτων περιγραφής δύο διαδοχικών καρέ: d1(k) = f(k + 1) - f(k), k {0, 1,..., NF - 2} (6-1) Όμως η παραπάνω διαφορά είναι ιδιαίτερα ευαίσθητη στο θόρυβο, αφού γενικά η διαδικασία παραγώγισης ενισχύει τις υψηλές συχνότητες. Έτσι, για να εξαλειφθεί η επίδραση του θορύβου, υπολογίζεται ένας μέσος όρος με βάρη της διαφοράς d1(k) σε ένα παράθυρο προκαθορισμένου μήκους 2NW + 1 με κέντρο το καρέ k: 62 ΜΕΡΟΣ II l = β1 ( k ) l = α1 ( k ) Χαρακτηρισμός, Προεπισκόπηση και Αναζήτηση με Βάση το Περιεχόμενο l = β1 ( k ) l = α1 ( k ) w d1 (k) = wl-k d 1 (l) = wl-k ( f(l + 1) - f(l)) , k = 0, 1,..., NF - 2 (6-2) όπου α1(k) = max(0, k - NW) και β1(k) = min(NF - 2, k + NW). Τα βάρη wl ορίζονται για l {-NW , NW}, ενώ στην απλή περίπτωση ενός τετραγωνικού παραθύρου είναι όλα ίσα με 1 / (2NW + 1). Όπως φαίνεται στην Εξίσωση (6-2), το μήκος του παραθύρου μειώνεται γραμμικά στα όρια (στην αρχή και το τέλος) του πλάνου. Με όμοιο τρόπο ορίζεται ένας μέσος όρος με βάρη για τη δεύτερη παράγωγο: w d2 (k) = l = β2 ( k ) l = α2 ( k ) w w wl - k (d 1 (l + 1) - d 1 (l )) , k = 0, 1,..., NF - 3 (6-3) όπου, όπως προηγουμένως, α2(k) = max(0, k - NW), β2(k) = min(NF - 3, k + NW), και τα βάρη wl , l {-NW , NW}, είναι ίσα με τα βάρη της Εξίσωσης (6-2) για την πρώτη παράγωγο, με την υπόθεση ότι χρησιμοποιείται το ίδιο είδος παραθύρου για τις δύο παραγώγους. w Τα στοιχεία της δεύτερης παραγώγου, d 2 ( k ) , εκφράζουν τη χρονική μεταβολή των επιμέw ρους στοιχείων του διανύσματος περιγραφής f(k), ενώ το διάνυσμα d 2 ( k ) εκφράζει συνολικά την κατεύθυνση της επιτάχυνσης του f(k). Για να ληφθεί υπόψη η χρονική μεταβολή όλων των w στοιχείων του f(k) υπολογίζεται το μέτρο της δεύτερης παραγώγου, D( k ) =|d 2 ( k )|, το οποίο εκφράζει το μέγεθος της επιτάχυνσης του f(k). Στη συνέχεια, οι τιμές του k {0, 1,..., NF} που αντιστοιχούν σε τοπικά μέγιστα ή ελάχιστα του D(k) επιλέγονται ως χαρακτηριστικά καρέ. Πρέπει να σημειωθεί ότι το μέτρο D(k) είναι μία ακολουθία διακριτού χρόνου, σε αντίθεση με το D(t) του Σχήματος 6-1β που είναι μία συνεχής καμπύλη. 6.3 ΠΑΡΑΔΕΙΓΜΑ ΣΥΝΘΕΤΙΚΗΣ ΑΚΟΛΟΥΘΙΑΣ Για να γίνει περισσότερο κατανοητή η μέθοδος, παρουσιάζεται στη συνέχεια ένα παράδειγμα επιλογής χαρακτηριστικών καρέ από μία συνθετική ακολουθία βίντεο. Πρόκειται ουσιαστικά για την ίδια ακολουθία με εκείνη της Ενότητας 4.5, η οποία όμως επαναλαμβάνεται δύο φορές, έχει επομένως μήκος NF = 100 καρέ, ενώ ο μαύρος κύκλος διαγράφει την ίδια ελλειπτική τροχιά δύο συνεχόμενες φορές. Πρόκειται για ακολουθία με ένα και μοναδικό πλάνο, επομένως δεν υφίσταται στην περίπτωση αυτή ανίχνευση πλάνων ή εξαγωγή χαρακτηριστικών πλάνων. Στο Σχήμα 6-2 φαίνονται 20 καρέ της ακολουθίας, των οποίων οι αριθμοί είναι ομοιόμορφα κατανεμημένοι μεταξύ 0 και 99 (#0, #5, #10,..., #95). Όπως και στην Ενότητα 4.5, το διάνυσμα περιγραφής περιέχει χαρακτηριστικά χρώματος μόνο, δηλαδή f(k) = fc(k), k = 0, 1,..., 99, ενώ χρησιμοποιούνται και πάλι Q = 2 τριγωνικές συναρτήσεις συμμετοχής με 50% επικάλυψη για κάθε χαρακτηριστικό. Έτσι το μήκος του διανύσματος περιγραφής είναι και πάλι ίσο με 64. Το Σχήμα 6-3 απεικονίζει το μέτρο της δεύτερης παραγώγου, D(k), για όλα τα καρέ της ακολουθίας, k = 0, 1,..., NF - 1 = 99. Τέσσερα τοπικά μέγιστα και τέσσερα τοπικά ελάχιστα ανιχνεύονται συνολικά και παρουσιάζονται στο σχήμα ως μικροί κύκλοι. Τα τοπικά μέγιστα αντιστοιχούν σε καρέ (ή και χρονικές στιγμές) της ακολουθίας όπου ο μαύρος κύκλος προσεγγίζει τις ακρότατες θέσεις της ελλειπτικής του τροχιάς κατά την κατακόρυφη κατεύθυνση, δηλαδή το πάνω και κάτω άκρο της εικόνας. Αντίστοιχα τα τοπικά ελάχιστα αντιστοιχούν σε Κεφάλαιο 6 Επιλογή Χαρακτηριστικών Καρέ με Βάση τη Χρονική Μεταβολή 63 χρονικές στιγμές όπου ο κύκλος προσεγγίζει τις ακρότατες θέσεις του κατά την οριζόντια κατεύθυνση. Αφού η τροχιά διαγράφεται δύο συνεχόμενες φορές, τα δύο πρώτα τοπικά μέγιστα / ελάχιστα ανήκουν στη πρώτη περίοδο και τα δύο τελευταία στη δεύτερη. Τα χαρακτηριστικά καρέ της ακολουθίας επιλέγονται στις χρονικές στιγμές των τεσσάρων τοπικών μεγίστων και ελαχίστων. Πρόκειται συγκεκριμένα για τα καρέ #6, #18, #31, #43, #56, #68, #81 και #93 όπως φαίνεται στο Σχήμα 6-4. #0 #5 #10 #15 #20 #25 #30 #35 #40 #45 #50 #55 #60 #65 #70 #75 #80 #85 #90 #95 Σχήμα 6-2. Συνθετική ακολουθία βίντεο μήκους 100 καρέ για την επίδειξη της μεθόδου χρονικής μεταβολής. 0.10 0.08 |D(k)| 0.06 0.04 0.02 0.00 0 20 40 60 80 100 Αριθμός καρέ, k Σχήμα 6-3. Μέτρο δεύτερης παραγώγου του διανύσματος περιγραφής για την ακολουθία του Σχήματος 6-2. Οι χρονικές στιγμές των χαρακτηριστικών καρέ απεικονίζονται επίσης ως μικροί κύκλοι στα γραφήματα των Σχημάτων 4-5 και 4-6, τα οποία όπως έχει ήδη αναφερθεί αναπαριστούν προβολές της τροχιάς του διανύσματος περιγραφής σε διδιάστατους υπόχωρους που ορίζονται από ζεύγη στοιχείων του διανύσματος. Επιβεβαιώνεται ότι σε όλες τις περιπτώσεις τα επιλεγμένα χαρακτηριστικά καρέ βρίσκονται σε ακραία σημεία της τροχιάς. Παρατηρείται επίσης ότι μόνο οκτώ από τα 100 καρέ της αρχικής ακολουθίας απαιτούνται για την αναπαράσταση του οπτικού της περιεχομένου, οδηγώντας σε μείωση κατά 92% των απαιτήσεων αποθήκευσης. Παρά το γεγονός ότι η πραγματική πληροφορία μειώνεται κατά το ίδιο ποσοστό, το οπτικό περιεχόμενο της ακολουθίας διατηρείται. #6 #18 #31 #43 #56 #68 #81 #93 Σχήμα 6-4. Χαρακτηριστικά καρέ με τη μέθοδο χρονικής μεταβολής για την ακολουθία του Σχήματος 6-2. Η εξαγωγή χαρακτηριστικών καρέ με τη μέθοδο της χρονικής μεταβολής είναι μία πολύ απλή και γρήγορη διαδικασία, αφού στο διακριτό χρόνο η δεύτερη παράγωγος υλοποιείται με εξισώσεις διαφορών. Επιπλέον, το πλήθος των χαρακτηριστικών καρέ δεν είναι γνωστό εκ 64 ΜΕΡΟΣ II Χαρακτηρισμός, Προεπισκόπηση και Αναζήτηση με Βάση το Περιεχόμενο των προτέρων. Αντίθετα, η μέθοδος εκτιμά ταυτόχρονα το πλήθος και τις θέσεις των χαρακτηριστικών καρέ. Βέβαια, σε περιπτώσεις όπου η μεταβολή του διανύσματος περιγραφής είναι σταθερή, η παραπάνω μέθοδος μπορεί να μη δώσει ικανοποιητικά αποτελέσματα. Τέτοιες περιπτώσεις όμως είναι πολύ σπάνιες και μπορεί να εμφανιστούν μόνο σε συνθετικές ακολουθίες βίντεο· σε πραγματικές ακολουθίες τα στοιχεία του διανύσματος περιγραφής δεν ακολουθούν κάποιο μαθηματικό ή φυσικό νόμο. Η συμπεριφορά του αλγορίθμου χρονικής μεταβολής μπορεί να βελτιωθεί σε αυτές τις περιπτώσεις με τη χρήση περισσότερων ασαφών συναρτήσεων συμμετοχής. Επίσης η χρήση μη γραμμικών συναρτήσεων συμμετοχής (π.χ. σιγμοειδών ή Γκαουσιανή) μπορεί να βοηθήσει σε αυτή την κατεύθυνση, αφού οι τριγωνικές συναρτήσεις είναι επίσης μη γραμμικές αλλά αποτελούνται από γραμμικά τμήματα. 6.4 ΠΕΙΡΑΜΑΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ Για την εκτίμηση της επίδοσης των προτεινόμενων αλγορίθμων επιλογής χαρακτηριστικών καρέ χρησιμοποιήθηκε μία βάση δεδομένων με ακολουθίες MPEG. Το οπτικοακουστικό υλικό της βάσης προέρχεται από πραγματικές ακολουθίες βίντεο συνολικής διάρκειας 3.5 περίπου ωρών και περιέχει πλάνα από τηλεοπτικά προγράμματα και συγκεκριμένα δελτία ειδήσεων, ενημερωτικές και αθλητικές εκπομπές, κινηματογραφικές ταινίες και διαφημιστικά σποτ. Οι διαδικασίες ανίχνευσης πλάνων και εξαγωγής διανυσμάτων περιγραφής εφαρμόσθηκαν σε όλες τις ακολουθίες και οι πληροφορίες που σχετίζονται με τις χρονικές στιγμές αλλαγής πλάνου και τα διανύσματα περιγραφής κάθε καρέ αποθηκεύθηκαν στη βάση ώστε να είναι διαθέσιμες για τα πειράματα επιλογής χαρακτηριστικών καρέ. #0 #10 #20 #30 #40 #50 #60 #70 #80 #90 #100 #110 #120 #130 #140 #150 #160 #170 #180 #190 #200 #210 #220 Σχήμα 6-5. Ακολουθία δοκιμαστικής οδήγησης αυτοκινήτων, μήκους 223 καρέ (22 δευτερολέπτων). Οι προτεινόμενοι αλγόριθμοι επιλογής χαρακτηριστικών καρέ εφαρμόσθηκαν ανεξάρτητα σε κάθε πλάνο του οπτικοακουστικού υλικού, χρησιμοποιώντας απευθείας τα διανύσματα περιγραφής όλων των καρέ του κάθε πλάνου. Στην Ενότητα αυτή παρουσιάζεται ένα παράδειγμα των πειραμάτων της μεθόδου χρονικής μεταβολής, ενώ στην Ενότητα 7.4 παρουσιάζονται αποτελέσματα για τις τρεις προτεινόμενες μεθόδους βέλτιστης επιλογής. Για την εξαγωγή διανυσμάτων περιγραφής, τα πεδία τιμών των χαρακτηριστικών χρώματος και κίνησης διαμερίσθηκαν σε Q = 3 κλάσεις με χρήση τριών συναρτήσεων συμμετοχής με 50% επικάλυψη. Έτσι το συνολικό μήκος του διανύσματος περιγραφής είναι Q L + Q L = 972 για Lc = 6 και Lm = 5, όπως αναφέρεται στην Ενότητα 4.4. c m Κεφάλαιο 6 Επιλογή Χαρακτηριστικών Καρέ με Βάση τη Χρονική Μεταβολή 65 1.5 x 10-3 1 |D(k)| 0.5 0 0 50 100 150 200 250 Αριθμός καρέ, k Σχήμα 6-6. Μέτρο της δεύτερης παραγώγου του διανύσματος περιγραφής, |D(k)|, συναρτήσει του αριθμού καρέ, k, για την ακολουθία του Σχήματος 6-5. #30 #55 #83 #116 #140 #162 #194 Σχήμα 6-7. Επτά χαρακτηριστικά καρέ του πλάνου του Σχήματος 6-5, με τη μέθοδο χρονικής μεταβολής. Ένα πλάνο από το περιεχόμενο της βάσης χρησιμοποιείται στην Ενότητα αυτή για επίδειξη της μεθόδου χρονικής μεταβολής. Το πλάνο προέρχεται από ένα πρόγραμμα δοκιμαστικής οδήγησης αυτοκινήτων, έχει διάρκεια 22 περίπου δευτερόλεπτα (NF = 223 καρέ με ρυθμό 10 frames/sec) και περιέχει γρήγορα κινούμενα αντικείμενα. Το περιεχόμενου του πλάνου φαίνεται στο Σχήμα 6-5, όπου για λόγους παρουσίασης απεικονίζεται ένα κάθε 10 καρέ. Τα αποτελέσματα της μεθόδου χρονικής μεταβολής παρουσιάζονται στα Σχήματα 6-6 και 6-7. Συγκεκριμένα, το Σχήμα δείχνει το μέτρο της δεύτερης παραγώγου του διανύσματος περιγραφής, |D(k)|, συναρτήσει του αριθμού καρέ, k. Η μεταβολή του |D(k)| φανερώνει ότι, λόγω του περιεχομένου του πλάνου, η τροχιά του διανύσματος περιγραφής είναι πιο πολύπλοκη από εκείνη του παραδείγματος της συνθετικής ακολουθίας του Σχήματος 6-2. Παρά το γεγονός αυτό, η καμπύλη του |D(k)| διατηρείται λεία λόγω της διαδικασίας φιλτραρίσματος που παρουσιάσθηκε στην Ενότητα 6.2. Έτσι εξασφαλίζεται ότι τα τοπικά ακρότατα του |D(k)|, που φαίνονται ως μικροί κύκλοι στο Σχήμα 6-6, αντιστοιχούν σε πραγματικές μεταβολές του οπτικού περιεχομένου του πλάνου και όχι σε θόρυβο που προέρχεται από τη διαδικασία κατάτμησης. 66 ΜΕΡΟΣ II Χαρακτηρισμός, Προεπισκόπηση και Αναζήτηση με Βάση το Περιεχόμενο Τα επτά επιλεγμένα χαρακτηριστικά καρέ του πλάνου, που αντιστοιχούν στις χρονικές στιγμές των τοπικών ακρότατων του |D(k)|, παρουσιάζονται στο Σχήμα 6-7. Παρατηρείται ότι αυτά τα καρέ παρέχουν ικανοποιητική πληροφορία για προεπισκόπηση του πλάνου το οποίο αποτελείται από 223 καρέ συνολικά. Επίσης, παρά το γεγονός ότι η σημαντική δράση του πλάνου περιέχεται σε ένα τμήμα του με μικρή διάρκεια, η μέθοδος επιτυγχάνει την εξαγωγή της δράσης. Αντίθετα, η επιλογή επτά καρέ σε ίσα χρονικά διαστήματα μεταξύ τους δεν θα είχε το ίδιο αποτέλεσμα. Όμως κάποια από τα χαρακτηριστικά καρέ είναι παρόμοια μεταξύ τους, όπως για παράδειγμα τα καρέ #30 και #55. Έτσι φαίνεται ότι ενώ η μέθοδος χρονικής μεταβολής έχει τη δυνατότητα να ανιχνεύει περιοδικές επαναλήψεις του οπτικού περιεχομένου, έχει την τάση να διατηρεί περιττή πληροφορία. Πιο σύντομη περίληψη του πλάνου μπορεί να επιτευχθεί με βέλτιστο τρόπο εξετάζοντας την ομοιότητα των καρέ, και αυτό είναι το αντικείμενο της μεθόδου συσχέτισης που παρουσιάζεται στο επόμενο Κεφάλαιο. Κεφάλαιο 7 Βέλτιστη Επιλογή Χαρακτηριστικών Καρέ Η δεύτερη μέθοδος επιλογής χαρακτηριστικών καρέ βασίζεται στην ελαχιστοποίηση ενός κριτηρίου συσχέτισης μεταξύ των διανυσμάτων περιγραφής, έτσι ώστε τα επιλεγμένα καρέ να εμφανίζουν όσο το δυνατόν μικρότερες ομοιότητες μεταξύ τους. Έτσι ένας μικρός αριθμός κατάλληλα επιλεγμένων καρέ είναι δυνατόν να περιγράψει ικανοποιητικά το οπτικό περιεχόμενο μιας ακολουθίας. Όμως το πρόβλημα βελτιστοποίησης ανάγεται σε ένα συνδυαστικό πρόβλημα του οποίου η πολυπλοκότητα είναι τέτοια ώστε η εξαντλητική έρευνα για τη βέλτιστη λύση να είναι ανέφικτη. Για το λόγο αυτό προτείνονται δύο επιμέρους τεχνικές υλοποίησης της μεθόδου συσχέτισης. Η πρώτη προέρχεται σαν ιδέα από την εκτίμηση κίνησης σε ακολουθίες βίντεο και εκτελεί λογαριθμική αναζήτηση στον πολυδιάστατο χώρο των διανυσμάτων περιγραφής. Η δεύτερη χρησιμοποιεί γενετικό αλγόριθμο και έχει τη δυνατότητα παράλληλης αναζήτησης με στοχαστικό τρόπο. Οι δύο τεχνικές αναζήτησης, καθώς και μία στοχαστική εκδοχή του αλγορίθμου λογαριθμικής αναζήτησης αξιολογούνται σε ένα μεγάλο σύνολο πραγματικών ακολουθιών και δίνονται συγκριτικές μετρήσεις που αφορούν το βέλτιστο μέτρο συσχέτισης και τον απαιτούμενο χρόνο εκτέλεσης. Στα πειράματα η μέθοδος συσχέτισης συνδυάζεται με τη μέθοδο χρονικής μεταβολής, λόγω της ικανότητας της τελευταίας να ανιχνεύει αυτόματα τις μεταβολές του οπτικού περιεχομένου και συνεπώς τον απαιτούμενο αριθμό χαρακτηριστικών καρέ σε κάθε πλάνο της ακολουθίας. 7.1 ΜΕΘΟΔΟΣ ΣΥΣΧΕΤΙΣΗΣ πτικού περιεχομένου. Αυτό μπορεί να είναι χρήσιμο για την κατανόηση της χρονικής εξέλιξης της δράσης ενός πλάνου. Σε περιπτώσεις όμως όπου η χρονική εξέλιξη ενός πλάνου δεν είναι το ζητούμενο, η μέθοδος αυτή δεν παρέχει συμπαγή αναπαράσταση του οπτικού περιεχομένου, αφού διατηρεί περιττές πληροφορίες. Σε τέτοιες περιπτώσεις, είναι επιθυμητή η επιλογή ενός όσο το δυνατόν μικρού συνόλου καρέ που να χαρακτηρίζουν επαρκώς το οπτικό περιεχόμενο αλλά ταυτόχρονα να είναι όσο το δυνατόν ανόμοια μεταξύ τους. Γι’ αυτό το λόγο προτείνεται στη συνέχεια ένας αλγόριθμος βέλτιστης επιλογής χαρακτηριστικών καρέ (optimal key-frame selection) που βασίζεται σε μια μέθοδο βελτιστοποίησης, η οποία εντοπίζει το σύνολο των πλέον ασυσχέτιστων διανυσμάτων περιγραφής σε ένα πλάνο. Η μέθοδος ονομάζεται μέθοδος συσχέτισης και επιτυγχάνει το στόχο της με την ελαχιστοποίηση ενός κριτηρίου ετεροσυσχέτισης μεταξύ των διανυσμάτων περιγραφής των καρέ σε ένα δεδομένο πλάνο μιας ακολουθίας. Υπενθυμίζεται ότι f(k) είναι το διάνυσμα περιγραφής του k-οστού καρέ του δεδομένου πλάνου, όπου k V, και V = {0, 1,..., NF - 1} (7-1) Ό πως έγινε φανερό από το παράδειγμα της Ενότητας 6.4, η μέθοδος της χρονικής μεταβολής έχει την ικανότητα να ανιχνεύει παραπάνω από μία επαναλήψεις του ίδιου ο- 67 68 ΜΕΡΟΣ II Χαρακτηρισμός, Προεπισκόπηση και Αναζήτηση με Βάση το Περιεχόμενο είναι το σύνολο των καρέ που περιέχονται στο πλάνο και NF είναι το πλήθος των καρέ του πλάνου. Έστω επίσης ότι KF είναι το πλήθος των καρέ που πρέπει να επιλεγούν ως αντιπροσωπευτικά του πλάνου. Σε αντίθεση με την προηγούμενη μέθοδο, ο αριθμός αυτός πρέπει να είναι εκ των προτέρων γνωστός. Ένας τρόπος εκτίμησής του είναι η χρήση της μεθόδου χρονικής μεταβολής. Συγκεκριμένα, τα πειράματα δείχνουν ότι στις περισσότερες περιπτώσεις ο αριθμός KF πρέπει να είναι περίπου ο μισός από τον αριθμό χαρακτηριστικών καρέ που εξάγονται με τη μέθοδο της χρονικής μεταβολής. Ως μέτρο ομοιότητας μεταξύ δύο καρέ k, l V χρησιμοποιείται ο συντελεστής συσχέτισης ρk,l μεταξύ των αντίστοιχων διανυσμάτων περιγραφής f(k), f(l) ρk,l = Ck,l / (σk σl ), k, l V (7-2) όπου Ck,l είναι η συμμεταβλητότητα των διανυσμάτων f(k), f(l ) Ck,l = (f(k) - m)T (f(l ) - m), k, l V ενώ m είναι η μέση τιμή των διανυσμάτων περιγραφής για όλη τη διάρκεια του πλάνου m= 1 NF N F -1 i =0 (7-3) f( i ) (7-4) και τέλος 2 σ k = Ck,k , είναι η διασπορά του διανύσματος f(k), k V. Με βάση τους συντελεστές συσχέτισης μεταξύ ζευγών από διανύσματα περιγραφής, μπορεί να ορισθεί ένα μέτρο συσχέτισης ενός συνόλου από KF διανύσματα. Για το σκοπό αυτό ορίζεται αρχικά ένα διάνυσμα δεικτών: x = ( x1 , όπου W = {( x 1 , , xKF ) V KF : x1 < < xKF } (7-6) , xKF ) W V KF (7-5) είναι το υποσύνολο του V KF που περιέχει όλα διανύσματα δεικτών x τα οποία αντιστοιχούν σε σύνολα καρέ ταξινομημένα κατά αύξουσα σειρά αριθμού εμφάνισης στο πλάνο. Έτσι, το μέτρο συσχέτισης R(x) του συνόλου των διανυσμάτων περιγραφής f(k), k = x1 ,..., xKF ορίζεται ως R( x ) = R( x1 , , xKF ) = K F -1 K F 2 ( ρ x ,x ) 2 K F ( K F - 1) i = 1 j = i + 1 i j (7-7) και παίρνει τιμές στο κλειστό διάστημα [0,1]. Με βάση τον παραπάνω ορισμό είναι εμφανές ότι η αναζήτηση ενός συνόλου από KF ελάχιστα συσχετισμένων διανυσμάτων περιγραφής είναι ισοδύναμη με την αναζήτηση ενός διανύσματος δεικτών x W το οποίο να ελαχιστοποιεί το μέτρο R(x). Η αναζήτηση περιορίζεται στο υποσύνολο W, αφού τα διανύσματα δεικτών χρησιμοποιούνται για την κατασκευή συνόλων από διανύσματα περιγραφής, και επομένως αν ένα διάνυσμα δεικτών x αντιστοιχεί σε ένα δεδομένο σύνολο διανυσμάτων περιγραφής, τότε οποιαδήποτε αναδιάταξη των στοιχείων του x αντιστοιχεί στο ίδιο ακριβώς σύνολο. Είναι επιπλέον φανερό ότι το μέτρο συσχέτισης R(x) όπως ορίζεται στην Εξίσωση (7-7) είναι ανεξάρτητο από τη διάταξη των στοιχείων του διανύσματος x. Έτσι, το σύνολο των KF ελάχιστα συσχετισμένων διανυσμάτων περιγραφής, που αντιστοιχεί στο σύνολο των KF χαρακτηριστικών καρέ του δεδομένου πλάνου, ορίζεται ως Κεφάλαιο 7 Βέλτιστη Επιλογή Χαρακτηριστικών Καρέ ^ ^ x = ( x1 , ^ , x KF ) = arg min R( x ) xW 69 (7-8) Δυστυχώς, το πλήθος δυνατών συνδυασμών καρέ και επομένως η πολυπλοκότητα της εξαντλητικής αναζήτησης της ελάχιστης τιμής του μέτρου R(x) είναι τέτοια ώστε η απ’ ευθείας αναζήτηση είναι πρακτικά ανέφικτη. Για παράδειγμα, για την επιλογή πέντε χαρακτηριστικών καρέ από ένα πλάνο που περιέχει συνολικά μόνο 128 καρέ, απαιτείται αναζήτηση σε ένα σύνολο 264 εκατομμυρίων συνδυασμών καρέ, κάθε ένας από τους οποίους απαιτεί και υπολογισμούς για την εκτίμηση του R(x). Γι’ αυτό το λόγο προτείνονται στη συνέχεια δύο εναλλακτικές τεχνικές υλοποίησης της μεθόδου συσχέτισης: η λογαριθμική αναζήτηση και η αναζήτηση με γενετικό αλγόριθμο. Η τεχνική λογαριθμικής αναζήτησης για την υλοποίηση της μεθόδου συσχέτισης είναι πρωτότυπη, δημοσιεύθηκε για πρώτη φορά στην εργασία [36] και ξαναχρησιμοποιήθηκε στην [37], αλλά και στην [8] όπου γίνεται εκτεταμένη σύγκριση με την τεχνική του γενετικού αλγορίθμου. Η τελευταία είναι επίσης πρωτότυπη: η πρώτη της δημοσίευση έγινε στην εργασία [33] και στη συνέχεια λόγω των σημαντικών επιδόσεών της χρησιμοποιήθηκε σε πολλές ακόμη εργασίες [8,31,34,38,39]. 7.2 ΛΟΓΑΡΙΘΜΙΚΗ ΑΝΑΖΗΤΗΣΗ Η πρώτη λύση που προτείνεται για την πρακτική υλοποίηση της μεθόδου συσχέτισης για την επιλογή χαρακτηριστικών καρέ ονομάζεται λογαριθμική αναζήτηση και βασίζεται σε μία τεχνική παρόμοια με εκείνη που χρησιμοποιείται στα πρότυπα MPEG για την εκτίμηση κίνησης (block motion estimation) [127]. Η βασική διαφορά είναι ότι η εκτίμηση κίνησης γίνεται στο διδιάστατο χώρο των εικόνων ενώ η αναζήτηση χαρακτηριστικών καρέ γίνεται στον πολυδιάστατο χώρο W. Συγκεκριμένα, αντί να εκτελεσθεί εξαντλητική αναζήτηση σε όλα τα διανύσματα δεικτών του χώρου W, ακολουθείται ένα απλό μονοπάτι σημείων του χώρου, που έχει ως σημείο εκκίνησης ένα κατάλληλα επιλεγμένο σημείο του W. Σε κάθε σημείο του μονοπατιού εξετάζεται μόνο το σύνολο των γειτονικών του σημείων και το επόμενο σημείο επιλέγεται ως εκείνο το γειτονικό σημείο του συνόλου, που αντιστοιχεί στο ελάχιστο μέτρο συσχέτισης. Σε κάθε βήμα του αλγορίθμου η περιοχή που καλύπτει το σύνολο γειτονικών σημείων μειώνεται εκθετικά. Όταν η περιοχή αυτή φτάσει σε μέγεθος το ένα σημείο, το σημείο αυτό επιλέγεται ως λύση του προβλήματος βελτιστοποίησης. Παρά το γεγονός ότι εξετάζεται μόνο ένα πολύ μικρό υποσύνολο του χώρου αναζήτησης W, ο αλγόριθμος παρουσιάζει ικανοποιητική επίδοση. Αυτό είναι αναμενόμενο διότι τα καρέ που έχουν μικρή απόσταση μεταξύ τους (στο χρόνο) έχουν συνήθως παρόμοια διανύσματα περιγραφής, και επομένως τα διανύσματα δεικτών που έχουν μικρή απόσταση μεταξύ τους (στο χώρο W ) έχουν συνήθως παρόμοιο μέτρο συσχέτισης. Χωρίς βλάβη της γενικότητας γίνεται παρακάτω η υπόθεση ότι το πλήθος των καρέ είναι δύναμη του δύο, δηλαδή NF = 2M όπου M ακέραιος. Στην περίπτωση που το πλήθος των καρέ δεν ικανοποιεί αυτό τον περιορισμό γίνεται επέκτασή του προς την αμέσως μεγαλύτερη δύναμη του δύο με προσθήκη «εικονικών» καρέ, των οποίων οι συντελεστές συσχέτισης παίρνουν μεγάλη τιμή ώστε να απορρίπτονται από τη διαδικασία επιλογής χαρακτηριστικών καρέ. 70 ΜΕΡΟΣ II Χαρακτηρισμός, Προεπισκόπηση και Αναζήτηση με Βάση το Περιεχόμενο Στην αρχικοποίηση του αλγορίθμου πρέπει να επιλεγεί ένα αρχικό διάνυσμα δεικτών, έστω x(0). Μία προφανής επιλογή είναι το κεντρικό σημείο ~ = ( μ , , μ) όπου μ = 2 M -1 - 1 είναι x η κεντρική χρονική στιγμή του πλάνου, μήκους NF = 2M. Όμως το σημείο αυτό δεν ανήκει στο χώρο W αφού τα στοιχεία του δεν ικανοποιούν τις συνθήκες ανισότητας της Εξίσωσης (7-6). Έτσι το x(0) επιλέγεται ως το σημείο του χώρου W που είναι το πλησιέστερο στο κεντρικό σημείο ~ , δηλαδή x x(0) = (μ - KF / 2 , ..., μ - 1, μ + 1, ..., μ + KF / 2 ) αν το KF είναι άρτιο, και x(0) = (μ - KF / 2 , ..., μ - 1, μ, μ + 1, ..., μ + KF / 2 ) (7-10) (7-9) αν το KF είναι περιττό. Ας υποθέσουμε τώρα ότι στη n-οστή επανάληψη του αλγορίθμου το μονοπάτι περνά από το σημείο x(n). Τότε για την επιλογή του επόμενου σημείου του μονοπατιού, x(n + 1), υπολογίζεται το μέτρο συσχέτισης για όλα τα γειτονικά σημεία του x(n) στη γειτονική περιοχή N(x(n), δ(n)) που ορίζεται γενικά ως N(x, δ) = {y W : y = x + δp, p G K F }, xW (7-11) όπου G = {-1, 0, 1} και δ(n) είναι ένας ακέραιος που καθορίζει το μέγεθος της γειτονικής περιοχής στη n-οστή επανάληψη. Η παραπάνω εξίσωση υποδεικνύει ότι τα γειτονικά σημεία του x(n) βρίσκονται σε ένα πλέγμα που προκύπτει από το G KF με επέκταση κατά δ(n) και μετατόπιση κατά x(n). Το μέγεθος γειτονικής περιοχής αρχικοποιείται ως δ(0) = 2 M -2 έτσι ώστε ο αλγόριθμος να μπορεί να καλύψει όλα τα δυνατά σημεία του χώρου W. Με βάση τα παραπάνω, οι ενέργειες που επαναλαμβάνονται σε κάθε βήμα του αλγορίθμου είναι (α) επιλογή του γειτονικού σημείου του x(n) με το ελάχιστο μέτρο συσχέτισης ως το επόμενο σημείο του μονοπατιού, x(n + 1), και (β) μείωση στο μισό του μεγέθους γειτονικής περιοχής. Ισοδύναμα, x(n + 1) = arg min R( x ) xN ( x ( n ),δ ( n )) (7-12) (7-13) δ(n + 1) = δ(n) / 2 Μετά την αρχικοποίηση του αλγορίθμου, δηλαδή τον υπολογισμό των x(0) και δ(0), τα παραπάνω βήματα επαναλαμβάνονται για n = 0, 1,..., M - 2, δηλαδή μέχρι δ(n) = 1. Έτσι, ο αλγό^ ριθμος σταματά μετά από M - 1 επαναλήψεις και το τελικό αποτέλεσμα είναι x = x(M - 1). Αυτό σημαίνει ότι οι χρονικές στιγμές των χαρακτηριστικών καρέ επιλέγονται ως τα στοιχεία του διανύσματος x(M - 1). Το Σχήμα 7-1 παρουσιάζει μία γραφική αναπαράσταση του αλγορίθμου για NF = 16 (M = 4) και KF = 2, όπου ο οριζόντιος και κατακόρυφος άξονας αντιστοιχούν στα δύο στοιχεία, x1 και x2 , του διανύσματος δεικτών x. Η τριγωνική διαγραμμισμένη περιοχή περιλαμβάνει τα διανύσματα δεικτών που δεν ανήκουν στο χώρο W, δηλαδή δεν αποτελούν λύσεις του προβλήματος ελαχιστοποίησης. Στο ίδιο Σχήμα, τα βέλη δείχνουν την πορεία του μονοπατιού ^ αναζήτησης x(0) x(1) x(2) x(3) = x . Για κάθε σημείο του μονοπατιού, η γειτονική περιοχή αναπαριστάται με ένα διακεκομμένο τετράγωνο, ενώ τα γειτονικά σημεία που βρίσκονται εντός του χώρου W φαίνονται ως μικροί κύκλοι. Είναι εμφανές ότι το μέγεθος της γειτονικής περιοχής μειώνεται στο μισό σε κάθε βήμα του αλγορίθμου, ώστε να εντοπίζεται πρώτα η ευρύτερη περιοχή της βέλτιστης λύσης και στη συνέχεια το ακριβές σημείο της. Η όλη διαδικασία στηρίζεται στην υπόθεση ότι όσο πιο κοντά βρίσκονται δύο σημεία στο χώρο W, τόσο μικρότερη είναι και η διαφορά των μέτρων συσχέτισής τους. Η υπόθεση αυτή επιβεβαιώνεται Κεφάλαιο 7 Βέλτιστη Επιλογή Χαρακτηριστικών Καρέ 71 στην πράξη στις περισσότερες περιπτώσεις, αφού οι περισσότερες ακολουθίες βίντεο παρουσιάζουν «συνεχή» μεταβολή ενώ οι απότομες μεταβολές εκλαμβάνονται ως αλλαγές πλάνου. 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 x2 0 0 x1 1 2 3 4 N(x(0),δ(0)) 5 6 7 8 9 10 11 12 13 14 15 x(3) x(0) x(2) N(x(2),δ(2)) x(1) N(x(1),δ(1)) W Σχήμα 7-1. Γραφική αναπαράσταση του αλγορίθμου λογαριθμικής αναζήτησης για NF = 16 (M = 4) και KF = 2. Η προτεινόμενη τεχνική της λογαριθμικής αναζήτησης μειώνει δραστικά την απαιτούμενη πολυπλοκότητα και καθιστά την εξαγωγή χαρακτηριστικών καρέ με τη μέθοδο συσχέτισης όχι μόνο πρακτικά εφικτή αλλά και πολύ γρήγορη. Όμως εξετάζει ένα μόνο συγκεκριμένο μονοπάτι του χώρου W που αποτελεί ένα πολύ μικρό υποσύνολο του χώρου και αγνοεί πλήρως τον υπόλοιπο χώρο. Έτσι πολύ συχνά «εγκλωβίζεται» σε ένα τοπικό ελάχιστο του R(x) και το τελικό της αποτέλεσμα πολλές φορές απέχει σημαντικά από το βέλτιστο. Γι’ αυτό το λόγο έχει προταθεί μία στοχαστική εκδοχή του αλγορίθμου [8] η οποία εξετάζει περισσότερα από ένα μονοπάτια, η επιλογή των οποίων γίνεται με τυχαίο τρόπο. Η τεχνική αυτή δίνει πάντα καλύτερα αποτελέσματα, αλλά με αυξημένο υπολογιστικό κόστος. 7.3 ΑΝΑΖΗΤΗΣΗ ΜΕ ΓΕΝΕΤΙΚΟ ΑΛΓΟΡΙΘΜΟ Ο αλγόριθμος λογαριθμικής αναζήτησης που παρουσιάσθηκε παραπάνω παρέχει πολύ γρήγορη σύγκλιση σε μία υπο-βέλτιστη λύση του προβλήματος ελαχιστοποίησης του μέτρου συσχέτισης R(x), αλλά με σημαντική πιθανότητα σύγκλισης σε τοπικά ελάχιστα του R(x). Η πιθανότητα αυτή μειώνεται σε μεγάλο βαθμό με τη χρήση της στοχαστικής εκδοχής του αλγορίθμου, η οποία βέβαια έχει αυξημένη υπολογιστική πολυπλοκότητα. Η στοχαστική εκδοχή βασίζεται στην ιδέα της καθοδηγούμενης τυχαίας αναζήτησης (guided random search), αφού ένας αριθμός από τυχαία μονοπάτια ακολουθούνται παράλληλα, ενώ η πιθανότητα αλλαγής πορείας ενός μονοπατιού προς μία νέα κατεύθυνση εξαρτάται από το μέτρο συσχέτισης του γειτονικού σημείου στην κατεύθυνση αυτή. Η ιδέα αυτή μπορεί να επεκταθεί περισσότερο με τη χρήση ενός εξελικτικού προγράμματος (evolution program, EP) [88]. 72 ΜΕΡΟΣ II Γενετικοί Αλγόριθμοι Χαρακτηρισμός, Προεπισκόπηση και Αναζήτηση με Βάση το Περιεχόμενο Σε αντίθεση με τις απαριθμητικές τεχνικές αναζήτησης, όπως ο δυναμικός προγραμματισμός, οι οποίες μπορεί να αποτύχουν σε πολύπλοκα προβλήματα, τα εξελικτικά προγράμματα παρέχουν μοναδική ευελιξία και ευρωστία σε τέτοια προβλήματα. Γι’ αυτό το λόγο υιοθετείται στη συνέχεια η προσέγγιση ενός γενετικού αλγόριθμου (genetic algorithm, GA) [48]. Οι γενετικοί αλγόριθμοι αποτελούν ειδική περίπτωση των εξελικτικών προγραμμάτων και χρησιμοποιούνται κυρίως σε διακριτά προβλήματα βελτιστοποίησης. Η προσέγγιση αυτή φαίνεται πολύ αποτελεσματική για το συγκεκριμένο πρόβλημα βελτιστοποίησης, δεδομένων των διαστάσεων του χώρου αναζήτησης και της φύσης του κριτηρίου ελαχιστοποίησης, το οποίο παρουσιάζει μεγάλο αριθμό τοπικών ελαχίστων. Το γεγονός αυτό γίνεται εμφανές στην επόμενη Ενότητα όπου παρουσιάζονται συγκριτικά πειραματικά αποτελέσματα. Σε έναν γενετικό αλγόριθμο, οι δυνατές λύσεις του προβλήματος βελτιστοποίησης αναπαρίστανται από χρωμοσώματα (chromosomes), των οποίων το γενετικό υλικό αποτελείται από έναν αριθμό γονιδίων (genes). Τα γονίδια ενός χρωμοσώματος περιέχουν πληροφορία που σχετίζεται με την αντίστοιχη λύση του προβλήματος και η οποία αποθηκεύεται με ένα συγκεκριμένο σχέδιο κωδικοποίησης (encoding scheme). Στην αρχικοποίηση του γενετικού αλγορίθμου παράγεται ένας αρχικός πληθυσμός (population) χρωμοσωμάτων. Στη συνέχεια, σε κάθε επανάληψη, επιλέγεται ένα υποσύνολο του πληθυσμού σύμφωνα με ένα κριτήριο ικανότητας (fitness). Το υποσύνολο αυτό περιέχει τα γονικά χρωμοσώματα (parents) στα οποία εφαρμόζεται μία σειρά από γενετικές διαδικασίες για τη δημιουργία απογόνων (offspring). Ο πληθυσμός της επόμενης γενιάς, και της επόμενης επανάληψης του αλγορίθμου, σχηματίζεται με το συνδυασμό των απογόνων με ένα ποσοστό χρωμοσωμάτων της προηγούμενης γενιάς, σύμφωνα με μία στρατηγική αντικατάστασης (replacement strategy). Η παραπάνω διαδικασία επαναλαμβάνεται μέχρι ο αλγόριθμος να συγκλίνει σε μία βέλτιστη λύση, δηλαδή μέχρι o πληθυσμός να σταματήσει να εξελίσσεται. Με την απομίμηση της διαδικασίας της φυσικής επιλογής που οφείλεται στη βιολογική εξέλιξη, ο γενετικός αλγόριθμος επιτυγχάνει παράλληλη αναζήτηση σε διαφορετικές περιοχές του χώρου αναζήτησης, ενώ ταυτόχρονα εντείνει την αναζήτηση σε περιοχές με αυξημένη πιθανότητα εύρεσης βέλτιστης λύσης. Έτσι αποφεύγει τον εγκλωβισμό σε τοπικά ελάχιστα και παρέχει λύσεις πολύ κοντά στη βέλτιστη με πολύ μικρό υπολογιστικό κόστος, το οποίο είναι πολλές φορές μικρότερο ακόμη και σε σχέση με τον αλγόριθμο λογαριθμικής αναζήτησης. Κωδικοποίηση Γονιδίων Στο συγκεκριμένο πρόβλημα βελτιστοποίησης, οι δυνατές λύσεις είναι σύνολα από καρέ ενός πλάνου μιας ακολουθίας βίντεο, τα οποία αναπαρίστανται από τα διανύσματα δεικτών x = (x1 ,..., xKF ) W, ενώ τα στοιχεία xi , i = 1, 2,..., KF , κάθε διανύσματος είναι οι αριθμοί (δείκτες ή χρονικές στιγμές) των καρέ. Έτσι τα διανύσματα δεικτών x χρησιμοποιούνται ως χρωμοσώματα ενώ τα στοιχεία τους xi ως γονίδια των χρωμοσωμάτων. Τα γονίδια κωδικοποιούνται ως ακέραιοι αριθμοί (integer encoding scheme). Ο λόγος για την επιλογή αυτή, σε αντίθεση με μία εναλλακτική δυαδική κωδικοποίηση (binary encoding scheme) είναι ότι οι γενετικές διαδικασίες πρέπει να εφαρμόζονται απευθείας στα γονίδια xi και όχι σε αυθαίρετα bits της δυαδικής τους αναπαράστασης. Κεφάλαιο 7 Βέλτιστη Επιλογή Χαρακτηριστικών Καρέ 73 Ο αρχικός πληθυσμός (initial population), X(0) = {x1 ,..., xP}, αποτελούμενος από P χρωμοσώματα, παράγεται με την επιλογή P συνόλων από καρέ των οποίων τα διανύσματα περιγραφής βρίσκονται σε ακραίες θέσεις της τροχιάς του διανύσματος περιγραφής, σύμφωνα με τη μέθοδο χρονικής μεταβολής, όπως περιγράφεται στην Ενότητα 6.2. Συνήθως η επιλογή αρχικού πληθυσμού σε ένα γενετικό αλγόριθμο γίνεται με τυχαίο τρόπο. Αφού όμως η μέθοδος χρονικής μεταβολής δίνει κάποια αρχική πληροφορία σχετικά με την κατανομή των τοπικών ελαχίστων, η παραπάνω προσέγγιση εκμεταλλεύεται το χρονικό συσχετισμό των διανυσμάτων περιγραφής και αυξάνει την πιθανότητα εντοπισμού συνόλων διανυσμάτων περιγραφής με μικρή συσχέτιση από τα πρώτα κιόλας βήματα του γενετικού αλγορίθμου. Εκτίμηση Ικανότητας Για την εκτίμηση της επίδοσης όλων των χρωμοσωμάτων xi , i = 1,..., P, ενός δεδομένου πληθυσμού X(n), n 0, χρησιμοποιείται το μέτρο συσχέτισης R(x) ως αντικειμενική συνάρτηση (objective function). Όμως στη συνέχεια χρησιμοποιείται μία συνάρτηση ικανότητας (fitness function) για την απεικόνιση αντικειμενικών τιμών σε τιμές ικανότητας. Η απεικόνιση αυτή γίνεται με τη μέθοδο της κανονικοποίησης ταξινόμησης (rank-based normalization scheme). Συγκεκριμένα, τα χρωμοσώματα xi , i = 1,..., P, ταξινομούνται κατά αύξουσα σειρά του μέτρου συσχέτισης R(xi), αφού η αντικειμενική συνάρτηση πρέπει να ελαχιστοποιηθεί. Έστω ότι rank(xi) {1,..., P } είναι η σειρά ταξινόμησης του χρωμοσώματος xi (rank = 1 αντιστοιχεί στο καλύτερο χρωμόσωμα και rank = P στο χειρότερο). Ορίζοντας αυθαίρετα την τιμή ικανότητας του καλύτερου χρωμοσώματος ως FB , η ικανότητα F(xi) του χρωμοσώματος xi δίνεται από τη γραμμική συνάρτηση F(xi) = FB - (rank(xi) - 1) DR, i = 1,..., P (7-14) όπου DR είναι ο ρυθμός μείωσης (decrement rate) της τιμής ικανότητας. Το βασικό πλεονέκτημα της μεθόδου κανονικοποίησης ταξινόμησης είναι ότι, αφού οι τιμές ικανότητας είναι ομοιόμορφα κατανεμημένες, εμποδίζει τη δημιουργία υπερ-χρωμοσωμάτων (super chromosomes), αποφεύγοντας έτσι την πρόωρη σύγκλιση σε τοπικά ελάχιστα. Επιπλέον, με τη ρύθμιση των δύο παραμέτρων FB και DR , μπορεί κανείς να ελέγξει την τάση επιλογής (selective pressure) του αλγορίθμου, επηρεάζοντας ουσιαστικά την ταχύτητα σύγκλισης. Επιλογή Γονέων Αφού υπολογισθεί η συνάρτηση ικανότητας F(xi), i = 1,..., P, για όλα τα μέλη του πληθυσμού, πραγματοποιείται επιλογή γονέων (parent selection) με τρόπο τέτοιο ώστε ένα ικανότερο χρωμόσωμα να δώσει μεγαλύτερο αριθμό απογόνων και επομένως να έχει μεγαλύτερη πιθανότητα επιβίωσης στην επόμενη γενιά. Συγκεκριμένα, για την επιλογή γονέων χρησιμοποιείται η μέθοδος της ρουλέτας (roulette wheel selection), η οποία δίνει σε κάθε χρωμόσωμα xi , i = 1,..., P, πιθανότητα επιλογής pi ανάλογη με την τιμή ικανότητάς του: pi = F( x i ) P F( x j ) j =1 , i = 1,..., P (7-15) Για την επιλογή ενός υποσυνόλου Q γονέων (2 Q P) από το σύνολο του πληθυσμού X(n) = {x1 ,..., xP }, n 0, κατασκευάζονται αρχικά οι αθροιστικές πιθανότητες 74 ΜΕΡΟΣ II Χαρακτηρισμός, Προεπισκόπηση και Αναζήτηση με Βάση το Περιεχόμενο qi = p j , j =1 i i = 1,..., P (7-16) με q0 = 0, και στη συνέχεια παράγεται ένα σύνολο τυχαίων αριθμών rk , k = 1,..., Q , με ομοιόμορφη κατανομή πιθανότητας στο διάστημα [0,1]. Τότε οι γονείς που επιλέγονται είναι pk = xi X(n) : q i -1 < rk qi , k = 1,..., Q (7-17) Σημειώνεται ότι με τη μέθοδο αυτή ένα χρωμόσωμα με μεγάλη ικανότητα μπορεί να επιλεγεί παραπάνω από μία φορές ως γονέας και έτσι να δώσει μεγαλύτερο αριθμό απογόνων σε σχέση με άλλα πιο αδύναμα χρωμοσώματα. Η μέθοδος της ρουλέτας είναι μία από τις πλέον δημοφιλείς μεθόδους επιλογής γονέων, διότι εγγυάται ότι κάθε χρωμόσωμα έχει ρυθμό ανάπτυξης ανάλογο με την ικανότητά του. Παρατηρείται επίσης ότι, λόγω της κανονικοποίησης ταξινόμησης, οι πιθανότητες επιλογής καθώς και οι αθροιστικές πιθανότητες pi , qi , i = 1,..., P, παραμένουν σταθερές σε κάθε γενιά. Ανταλλαγή Γονιδίων Στη συνέχεια πραγματοποιείται ζευγάρωμα των επιλεγμένων γονέων και παραγωγή ενός συνόλου απογόνων (offspring) με τη διαδικασία ανταλλαγής γονιδίων (crossover) μεταξύ ζευγών γονέων. Το γενετικό υλικό των γονέων συνδυάζεται με ένα τυχαίο τρόπο και παράγει το γενετικό υλικό των απογόνων. Για παράδειγμα, θεωρώντας ένα απλό σημείο ανταλλαγής γονιδίων (single point crossover), δύο γονείς a = (a1 , a2 ,..., ac , ac+1 ,..., aKF ) b = (b1 , b2 ,..., bc , bc+1 ,..., bKF ) δημιουργούν τους απογόνους a = (a1 , a2 ,..., ac , bc+1 ,..., bKF ) b = (b1 , b2 ,..., bc , ac+1 ,..., aKF ) Σημείo Ανταλλαγής Γονιδίων Σημεία Ανταλλαγής Γονιδίων Γονικά Χρωμοσώματα Γονικά Χρωμοσώματα Απόγονοι Απόγονοι (α) (β) Σχήμα 7-2. Ανταλλαγή γονιδίων. (α) Απλό σημείο ανταλλαγής. (β) Πολλαπλά σημεία ανταλλαγής. Η παραπάνω διαδικασία μπορεί να γίνει και με πολλαπλά σημεία ανταλλαγής (multipoint crossover). Ένα παράδειγμα απλού σημείου ανταλλαγής γονιδίων παρουσιάζεται στο Σχήμα 7-2α, ενώ στο Σχήμα 7-2β δίνεται αντίστοιχα ένα παράδειγμα πολλαπλών σημείων. Μία πιο γενικευμένη τεχνική, που χρησιμοποιείται και στα πειράματα, είναι η ομοιόμορφη ανταλλαγή γονιδίων (uniform crossover), στην οποία κάθε γονίδιο θεωρείται ως πιθανό σημείο ανταλλαγής. Αυτό σημαίνει ότι δύο γονείς Κεφάλαιο 7 Βέλτιστη Επιλογή Χαρακτηριστικών Καρέ 0 0 a 0 = ( a1 , a2 , 1 1 a 1 = ( a1 , a2 , 0 , aK ) 1 , aK ) 75 δημιουργούν τους απογόνους s s a = ( a11 , a22 , 0 s , aKK ) 1 , aK-sK ) 1 1 a = ( a1 -s1 , a2-s2 , 1 όπου το σύμβολο KF αντικαταστάθηκε με K για απλότητα συμβολισμών, και οι αριθμοί si , i = 1,..., KF είναι τυχαίοι αριθμοί που παίρνουν τιμή 0 ή 1 με ίση πιθανότητα, έτσι ώστε κάθε γονίδιο να προέρχεται από τον πρώτο ή το δεύτερο γονέα με ίση πιθανότητα. Παρά το γεγονός ότι η ανταλλαγή απλού σημείου θεωρείται κατώτερη από άλλες τεχνικές, δεν έχουν αναφερθεί αποτελέσματα υπέρ της ομοιόμορφης ανταλλαγής, της ανταλλαγής πολλαπλών σημείων ή άλλων τεχνικών (όπως arithmetical, segmented ή shuffle crossover) [88]. Αντίθετα, η επιλογή εξαρτάται σε μεγάλο βαθμό από τη φύση του συγκεκριμένου προβλήματος βελτιστοποίησης, και στην περίπτωση της εξαγωγής χαρακτηριστικών καρέ η ομοιόμορφη ανταλλαγή έχει ελαφρώς καλύτερες επιδόσεις όσον αφορά στην ταχύτητα σύγκλισης. Μετάλλαξη Το επόμενο βήμα είναι η εφαρμογή μετάλλαξης (mutation) στα νέα χρωμοσώματα του πληθυσμού. Η διαδικασία της μετάλλαξης εισάγει ένα μικρό ποσοστό τυχαίων γονιδιακών μεταβολών σε κάθε χρωμόσωμα. Οι μεταβολές αυτές είναι χρήσιμες για την αποκατάσταση χαμένου γενετικού υλικού, αλλά κυρίως για την παραγωγή νέου υλικού που αντιστοιχεί σε νέες περιοχές αναζήτησης. Η ομοιόμορφη μετάλλαξη (uniform mutation) είναι το πιο συνηθισμένο είδος μετάλλαξης και επιλέγεται για το συγκεκριμένο πρόβλημα βελτιστοποίησης. Συγκεκριμένα, κάθε γονίδιο xi , i = 1, 2,..., KF , κάθε απογόνου, αντικαθιστάται από ένα τυχαίο γονίδιο x V = {0, 1,..., NF - 1}, με πιθανότητα pm . Αυτό σημαίνει ότι παράγεται ένας τυχαίος αριθi μός r με ομοιόμορφη κατανομή πιθανότητας στο διάστημα [0,1], και η αντικατάσταση λαμβάνει χώρα αν r < pm , αλλιώς το γονίδιο παραμένει ανέπαφο. Συνηθισμένες τιμές για την πιθανότητα μετάλλαξης pm είναι μεταξύ 0.02 και 0.07. Άλλες εναλλακτικές τεχνικές είναι επίσης δυνατές, όπως οι nonuniform, boundary και swap mutation. Η μη ομοιόμορφη (nonuniform) μετάλλαξη προτιμάται γενικά σε αριθμητικά προβλήματα βελτιστοποίησης όσον αφορά στην ακρίβεια και στην ταχύτητα σύγκλισης, αλλά δεν επιτυγχάνει καλύτερη επίδοση στο συγκεκριμένο πρόβλημα της επιλογής χαρακτηριστικών καρέ. Αντικατάσταση Πληθυσμού Αφού παραχθούν τα νέα χρωμοσώματα ­ απόγονοι για ένα δεδομένο πληθυσμό X(n), n 0, ο πληθυσμός της επόμενης γενιάς, X(n + 1), σχηματίζεται με την εισαγωγή αυτών των νέων χρωμοσωμάτων στο σύνολο X(n) και τη διαγραφή ενός κατάλληλου αριθμού παλαιών, έτσι ώστε ο πληθυσμός σε κάθε γενιά να αποτελείται από ακριβώς P χρωμοσώματα. Ο ακριβής αριθμός χρωμοσωμάτων που αντικαθίστανται από νέα καθορίζει τη στρατηγική αντικατάστασης (replacement strategy) του γενετικού αλγορίθμου. Στα πειράματα εξαγωγής χαρακτηριστικών καρέ χρησιμοποιήθηκε η στρατηγική επίλεκτων (elitist strategy), σύμφωνα με την οποία ένα μικρό ποσοστό των πιο ικανών χρωμοσωμάτων αντιγράφεται στον πληθυσμό της επόμενης γενιάς, μαζί με τους απογόνους τους. Η στρατηγική αυτή βελτιώνει σε μεγάλο βαθμό την ταχύ- 76 ΜΕΡΟΣ II Χαρακτηρισμός, Προεπισκόπηση και Αναζήτηση με Βάση το Περιεχόμενο τητα σύγκλισης του αλγορίθμου [48]. Ένας αριθμός από γενετικές περιόδους (GA cycles) λαμβάνει χώρα με την επανάληψη των διαδικασιών εκτίμησης ικανότητας, επιλογής γονέων, ανταλλαγής γονιδίων, μετάλλαξης και αντικατάστασης πληθυσμού, μέχρι ο πληθυσμός να συγκλίνει σε μία λύση του προβλήματος αναζήτησης. Ο γενετικός αλγόριθμος τερματίζει όταν η ικανότητα του καλύτερου χρωμοσώματος παραμένει σταθερή για ένα μεγάλο αριθμό γενεών, υποδεικνύοντας ότι περαιτέρω βελτίωση είναι απίθανη. 7.4 ΠΕΙΡΑΜΑΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ Για την εκτίμηση της επίδοσης των προτεινόμενων αλγορίθμων χρησιμοποιήθηκε η βάση δεδομένων που παρουσιάσθηκε στην Ενότητα 6.4. Και πάλι οι χρονικές στιγμές αλλαγής πλάνου και τα διανύσματα περιγραφής κάθε καρέ είναι ήδη αποθηκευμένα στη βάση και διαθέσιμα για τα πειράματα επιλογής χαρακτηριστικών καρέ. Για την επίδειξη της μεθόδου συσχέτισης χρησιμοποιείται το πλάνο δοκιμαστικής οδήγησης αυτοκινήτων, διάρκειας 22 περίπου δευτερολέπτων (NF = 223), που παρουσιάσθηκε στη Σχήμα 6-5. Για το συγκεκριμένο πλάνο επιλέχθηκαν επτά χαρακτηριστικά καρέ με τη μέθοδο χρονικής μεταβολής, επομένως για τη μέθοδο συσχέτισης επιλέχθηκε KF = 4, όπως εξηγείται στην Ενότητα 7.1. 0.07 0.68 0.06 Log Sto Gen Μέτρο συσχέτισης, R(x) 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1 0.66 0.05 Συχνότητα εμφάνισης 0.64 0.04 0.62 0.03 0.6 0.02 0.01 0.58 0 0.55 0.56 0 5 10 15 20 25 30 35 40 Μέτρο συσχέτισης, R(x) Γενετικός κύκλος (γενιά) (α) (β) Σχήμα 7-3. Μέθοδος συσχέτισης για την ακολουθία του Σχήματος 6-5. (α) Ιστόγραμμα του μέτρου συσχέτισης R(x), μαζί με τις βέλτιστες τιμές των τριών αλγορίθμων. Log: λογαριθμική αναζήτηση. Sto: στοχαστική αναζήτηση. Gen: γενετικός αλγόριθμος. (β) Ελάχιστη τιμή του R(x), συναρτήσει της γενετικής περιόδου (γενιάς) για το γενετικό αλγόριθμο. Παρατηρείται ότι όλοι οι προτεινόμενοι αλγόριθμοι υλοποίησης της μεθόδου συσχέτισης δίνουν εκτίμηση μόνο της ελάχιστης τιμής του μέτρου συσχέτισης R(x), ενώ η πραγματική ελάχιστη τιμή δεν είναι γνωστή, αφού η πολυπλοκότητα υπολογισμού της είναι απαγορευτική. Σημειώνεται ότι στο συγκεκριμένο παράδειγμα το σύνολο των δυνατών λύσεων είναι περίπου 1.11010. Έτσι, για να εκτιμηθεί η επίδοση των αλγορίθμων ως προς τον υπολογισμό του μέτρου συσχέτισης πραγματοποιήθηκε ένα πείραμα υπολογισμού του R(x) για 100.000 τυχαία διανύσματα δεικτών x και κατασκευής ενός ιστογράμματος του R(x), όπως φαίνεται στο Σχήμα 7-3α. Το ιστόγραμμα δίνει μία καλή εκτίμηση για την κατανομή του μέτρου συσχέτισης R(x) και επομένως για το πόσο κοντά είναι μια τιμή στην πραγματική ελάχιστη. Στο Σχήμα 73α, μαζί με το ιστόγραμμα του R(x), φαίνονται ως κατακόρυφες γραμμές και οι εκτιμήσεις των τριών αλγορίθμων ­ λογαριθμική αναζήτηση, στοχαστική λογαριθμική αναζήτηση και γενετικός αλγόριθμος. Κεφάλαιο 7 Βέλτιστη Επιλογή Χαρακτηριστικών Καρέ 77 #59 #95 (α) #160 #171 #59 #141 (β) #159 #177 #25 #118 (γ) #133 #160 Σχήμα 7-4. Χαρακτηριστικά καρέ του πλάνου του Σχήματος 6-5, με τη μέθοδο συσχέτισης (KF = 4). (a) Λογαριθμική αναζήτηση. (β) Στοχαστική λογαριθμική αναζήτηση. (γ) Γενετικός αλγόριθμος. Παρατηρείται αρχικά ότι εκτιμήσεις και των τριών αλγορίθμων είναι κοντά στο ελάχιστο της κατανομής του R(x). Όμως ο αλγόριθμος λογαριθμικής αναζήτησης καθώς και η στοχαστική εκδοχή του δίνουν εκτίμηση μεγαλύτερη από το ελάχιστο του ιστογράμματος. Αντίθετα η εκτίμηση του γενετικού αλγορίθμου είναι όχι μόνο μικρότερη από τις άλλες δύο αλλά και από το ελάχιστο του πειράματος τυχαίων διανυσμάτων, παρά το γεγονός ότι το πείραμα αυτό απαιτεί περίπου 100 φορές μεγαλύτερο χρόνο εκτέλεσης. Επιβεβαιώνεται έτσι η ανωτερότητα του γενετικού αλγορίθμου ως προς την εκτίμηση της βέλτιστης επιλογής χαρακτηριστικών καρέ αλλά και ως προς την ταχύτητα. Όσον αφορά στο γενετικό αλγόριθμο, στο Σχήμα 7-3β παρουσιάζεται η ελάχιστη τιμή, σε όλο τον πληθυσμό, του μέτρου συσχέτισης R(x) συναρτήσει της γενετικής περιόδου, δηλαδή της γενιάς ή της επανάληψης του αλγορίθμου. Όπως αναμένεται, το R(x) ελαττώνεται όσο η γενιά αυξάνεται, μέχρι να φτάσει μια ελάχιστη τιμή στη γενιά 40, μετά την οποία παραμένει σταθερό. Στο συγκεκριμένο πείραμα η στρατηγική αντικατάστασης είναι τέτοια ώστε μόνο τα μισά χρωμοσώματα του πληθυσμού αντικαθίστανται από νέα σε κάθε γενιά. Έτσι, στις περιπτώσεις όπου όλοι οι απόγονοι έχουν μικρότερη τιμή ικανότητας από τους γονείς, το μέτρο συσχέτισης παραμένει σταθερό. Αυτό εξηγεί την «κλιμακωτή» μορφή της καμπύλης του Σχήματος 7-3β. Σημειώνεται επίσης ότι το πλάτος κάθε βήματος της καμπύλης αυξάνεται με την αύξηση της γενιάς, αφού το πλάτος αυτό συνδέεται άμεσα με την πιθανότητα περαιτέρω βελτιστοποίησης. Τα τέσσερα επιλεγμένα χαρακτηριστικά καρέ για το πλάνο του παραδείγματος παρουσιάζονται στο Σχήμα 7-4 για τους τρεις προτεινόμενους αλγορίθμους. Παρά το γεγονός ότι επιλέγεται ένα πολύ μικρό ποσοστό των συνολικών καρέ του πλάνου, είναι εμφανές ότι σε ό- 78 ΜΕΡΟΣ II Χαρακτηρισμός, Προεπισκόπηση και Αναζήτηση με Βάση το Περιεχόμενο λες τις περιπτώσεις μπορεί κάποιος να κατανοήσει το οπτικό περιεχόμενο του πλάνου μόνο από τα επιλεγμένα καρέ. Έτσι τα χαρακτηριστικά καρέ δίνουν μια ικανοποιητική αναπαράσταση του περιεχομένου με τη μικρότερη δυνατή ποσότητα πληροφορίας. Μολονότι μία σύγκριση των τριών αλγορίθμων με βάση το περιεχόμενο των χαρακτηριστικών καρέ θα ήταν μάλλον υποκειμενική, μπορεί κανείς να ισχυρισθεί ότι τα καρέ του γενετικού αλγόριθμου είναι πιο αντιπροσωπευτικά, αφού για παράδειγμα τα καρέ #59 και #95, καθώς και τα #160 και #171, της λογαριθμικής αναζήτησης μοιάζουν αρκετά μεταξύ τους. Το ίδιο συμβαίνει και με τα καρέ #159 και #171 της στοχαστικής λογαριθμικής αναζήτησης. Αλγόριθμος Ομοιόμορφη επιλογή Τυχαία αναζήτηση Λογαριθμική αναζήτηση Στοχαστική αναζήτηση Γενετικός αλγόριθμος R 0.85 0.52 0.63 0.59 0.44 T (sec) - 55.38 1.92 12.43 0.54 Πίνακας 7-1. Αποτελέσματα μεθόδου συσχέτισης με τους τρεις προτεινόμενους αλγορίθμους για το σύνολο των πλάνων της βάσης: μέση τιμή βέλτιστου μέτρου συσχέτισης, R , και μέσος χρόνος εκτέλεσης, T (sec). Τα παραπάνω πειράματα επαναλήφθηκαν για το σύνολο των ακολουθιών της βάσης δεδομένων, έτσι ώστε η σύγκριση μεταξύ των αλγορίθμων να είναι αξιόπιστη. Σε κάθε πλάνο εφαρμόσθηκε πρώτα η μέθοδος χρονικής μεταβολής για την εκτίμηση του πλήθους χαρακτηριστικών καρέ, καθώς και του αρχικού πληθυσμού για την περίπτωση του γενετικού αλγορίθμου. Στη συνέχεια ακολούθησε η μέθοδος συσχέτισης, χρησιμοποιώντας ως KF το μισό από το πλήθος καρέ που ανιχνεύθηκαν με τη μέθοδο χρονικής μεταβολής. Η μέση τιμή, R , του βέλτιστου μέτρου συσχέτισης, παρουσιάζεται στον Πίνακα 7-1, μαζί με το μέσο χρόνο εκτέλεσης, T , για κάθε αλγόριθμο. Στον Πίνακα παρουσιάζεται επίσης για σκοπούς σύγκρισης και η τυχαία αναζήτηση με χρήση 100,000 τυχαίων διανυσμάτων για κάθε πλάνο, καθώς και η περίπτωση επιλογής χαρακτηριστικών καρέ σε ομοιόμορφα χρονικά διαστήματα· η τελευταία έχει σχεδόν μηδενικό χρόνο εκτέλεσης, αλλά αποτυγχάνει να ανιχνεύσει ασυσχέτιστα καρέ. Συμπεραίνεται ότι ο γενετικός αλγόριθμος έχει καλύτερη απόδοση όσον αφορά στην ακρίβεια των αποτελεσμάτων αλλά και την ταχύτητα. Σημειώνεται όμως ότι η μέθοδος χρονικής μεταβολής εξακολουθεί να είναι χρήσιμη σε περιπτώσεις περιοδικής επανάληψης του οπτικού περιεχομένου, αλλά και ως εργαλείο προεπεξεργασίας για την εκτίμηση της πολυπλοκότητας κάθε πλάνου. Πρέπει τέλος να τονισθεί ότι η εξαγωγή χαρακτηριστικών καρέ με τη μέθοδο συσχέτισης βασίζεται σε ένα αντικειμενικό, αριθμητικό κριτήριο, δηλαδή στην ελαχιστοποίηση του μέτρου συσχέτισης μεταξύ των διανυσμάτων περιγραφής των καρέ. Για την εκτίμηση όμως της απόδοσης των προτεινόμενων μεθόδων, θα μπορούσαν να χρησιμοποιηθούν υποκειμενικά κριτήρια, τα οποία να λαμβάνουν υπόψη την ανθρώπινη αντίληψη. Σε αυτή την περίπτωση, τα επιλεγμένα χαρακτηριστικά καρέ θα μπορούσαν να συγκριθούν με εκείνα που επιλέγονται από μία ομάδα ανθρώπων, ώστε να υπάρχει ένδειξη για το ποια μέθοδος δίνει αποτελέσματα πιο κοντά στην ανθρώπινη κρίση. Κεφάλαιο 8 Αναζήτηση με Βάση το Περιεχόμενο Η προτεινόμενη αναπαράσταση του οπτικού περιεχομένου μέσω διανυσμάτων περιγραφής επιτρέπει την ταχεία και αξιόπιστη σύγκριση μεταξύ διαφορετικών εικόνων, καρέ ή πλάνων μιας ακολουθίας, αφού παρέχει ερμηνεία της οπτικής πληροφορίας που είναι κοντά στην ανθρώπινη αντίληψη. Έτσι με τη δεικτοδότηση του οπτικοακουστικού υλικού με διανύσματα περιγραφής και τον προσδιορισμό ενός μέτρου ομοιότητας διανυσμάτων είναι δυνατή η αναζήτηση και ανάκληση με βάση το περιεχόμενο. Επιπλέον, περιορίζοντας την αναζήτηση στα επιλεγμένα χαρακτηριστικά πλάνα και καρέ, η αναζήτηση από ακολουθίες βίντεο ουσιαστικά ανάγεται σε αναζήτηση ακίνητων εικόνων και μάλιστα είναι πολύ πιο αποδοτική σε σχέση με την αναζήτηση από το σύνολο του διαθέσιμου υλικού. Προτείνονται δύο εναλλακτικοί μηχανισμοί αναζήτησης: αναζήτηση μέσω παραδείγματος και αναζήτηση μέσω σχεδιαγράμματος. Στον πρώτο ο χρήστης υποβάλλει μία διαθέσιμη εικόνα ως είσοδο στο σύστημα ανάκλησης, ενώ στο δεύτερο σχεδιάζει ένα προσεγγιστικό σκίτσο της εικόνας, τονίζοντας τα χαρακτηριστικά που τον ενδιαφέρουν. Επιπλέον, και στις δύο περιπτώσεις υιοθετείται μία τεχνική ανάδρασης από το χρήστη, η οποία καθιστά την αναζήτηση μία διαδικασία αλληλεπίδρασης μεταξύ ανθρώπου και υπολογιστικού συστήματος. Με την τεχνική αυτή ο χρήστης έχει τη δυνατότητα να επιλέξει ένα υποσύνολο των αποτελεσμάτων αναζήτησης που χαρακτηρίζει ως πλέον «κατάλληλα». Η πληροφορία αυτή ανατροφοδοτείται στο σύστημα για την αναπροσαρμογή του μέτρου ομοιότητας· έτσι ο χρήστης απαλλάσσεται από την επιλογή παραμέτρων ή την κατανόηση χαρακτηριστικών χαμηλού επιπέδου. 8.1 ΜΗΧΑΝΙΣΜΟΣ ΑΝΑΖΗΤΗΣΗΣ Ο χαρακτηρισμός κάθε καρέ και κάθε πλάνου μιας ακολουθίας βίντεο με διανύσματα περιγραφής και η επιλογή χαρακτηριστικών καρέ και πλάνων, έτσι ώστε να απορρί- πτεται κάθε περιττή πληροφορία, επιτρέπει τη δημιουργία μιας αποδοτικής αναπαράστασης της ακολουθίας. Αν υπάρχει διαθέσιμο ένα μεγάλο σύνολο ακολουθιών σε μία βάση δεδομένων, η αναπαράσταση αυτή περιλαμβάνει τα διανύσματα περιγραφής των επιλεγμένων καρέ / πλάνων κάθε ακολουθίας. Η αποθήκευση αυτής της πληροφορίας στη βάση επιτρέπει την αναζήτηση (query ή search) και ανάκληση με βάση το περιεχόμενο (content-based retrieval) για την εύρεση εικόνων ή πλάνων με συγκεκριμένες ιδιότητες, όπως για παράδειγμα καρέ με σκοτεινά χρώματα, καρέ με έντονη κίνηση κλπ. Στο σημείο αυτό, το πρόβλημα της αναζήτησης με βάση το περιεχόμενο από μία βάση με ακολουθίες βίντεο έχει ουσιαστικά αναχθεί σε αναζήτηση ακίνητων εικόνων [13,60,62,72], αφού η αναζήτηση περιορίζεται στα διανύσματα περιγραφής των επιλεγμένων χαρακτηριστικών καρέ / πλάνων και δεν εκτελείται σε όλο το διαθέσιμο οπτικοακουστικό υλικό. Στο πλαίσιο της διατριβής διερευνώνται δύο περιπτώσεις αναζήτησης: αναζήτηση μέσω παραδείγματος (query-by-example) και αναζήτηση μέσω σχεδιαγράμματος (query-by-sketch). Στην πρώτη περί- 79 80 ΜΕΡΟΣ II Χαρακτηρισμός, Προεπισκόπηση και Αναζήτηση με Βάση το Περιεχόμενο πτωση ο χρήστης παρουσιάζει μια εικόνα ως είσοδο στο σύστημα αναζήτησης, ενώ στη δεύτερη σχεδιάζει ένα σκίτσο της επιθυμητής εικόνας. Και στις δύο περιπτώσεις το σύστημα αναζήτησης βελτιώνεται με τη χρήση ενός μηχανισμού ανάδρασης (relevance feedback) ο οποίος με την αλληλεπίδραση με το χρήστη παρέχει ένα τρόπο απεικόνισης των υποκειμενικών κριτηρίων αναζήτησης σε χαμηλού επιπέδου χαρακτηριστικά και αυτόματης ενημέρωσης των παραμέτρων απόστασης για προσαρμογή του μηχανισμού αναζήτησης στις ανάγκες του χρήστη. Σημειώνεται ότι η ανάκληση μέσω παραδείγματος και σχεδιαγράμματος, καθώς και η τεχνική της ανάδρασης είναι γνωστές [106,107]. Όμως η προτεινόμενη στο πλαίσιο της διατριβής τεχνική ενημέρωσης παραμέτρων προτάθηκε για πρώτη φορά στην εργασία [13] και χρησιμοποιήθηκε επίσης και στην εργασία [35]. Αναζήτηση Μέσω Παραδείγματος Σε ένα περιβάλλον αναζήτησης μέσω παραδείγματος ο χρήστης υποβάλλει ερωτήματα (queries) με τη μορφή στατικών εικόνων (καρέ) ή μικρών ακολουθιών (πλάνων), τα οποία αναλύονται από το σύστημα με τον ίδιο ακριβώς τρόπο όπως και το περιεχόμενο της βάσης, και στη συνέχεια τα παραγόμενα διανύσματα περιγραφής συγκρίνονται με τα διανύσματα που περιέχονται στη βάση. Ο χώρος των διανυσμάτων περιγραφής είναι ιδανικός για τέτοιες συγκρίσεις, καθώς περιέχει όλα τα ουσιαστικά χαρακτηριστικά των εικόνων, ενώ η διάστασή του είναι πολύ μικρότερη από εκείνη του αντίστοιχου χώρο των ίδιων των εικόνων. Επιπλέον, επιτυγχάνεται δραματική μείωση στον αριθμό των καρέ που απαιτούνται για αναζήτηση. Αντί να εξετάζεται κάθε καρέ μιας ακολουθίας, η αναζήτηση εκτελείται στο μικρό σύνολο των χαρακτηριστικών καρέ / πλάνων τα οποία παρέχουν αξιόπιστη αναπαράσταση του οπτικού περιεχομένου της ακολουθίας. Για κάθε ακίνητη εικόνα ή πλάνο (μικρό σύνολο από διαδοχικά καρέ) που δίνεται από το χρήστη ως είσοδος, εξάγεται η πληροφορία χρώματος και κίνησης με τον αλγόριθμο κατάτμησης M-RSST. Στη συνέχεια τα χαρακτηριστικά των τμημάτων συγκεντρώνονται σε ένα διάνυσμα περιγραφής με τη μέθοδο του ασαφούς ιστογράμματος και ενεργοποιείται ο μηχανισμός αναζήτησης. Συγκεκριμένα, το σύνολο του υλικού που είναι διαθέσιμο στη βάση ερευνάται για καρέ ή πλάνα με ιδιότητες παρόμοιες με το παράδειγμα του χρήστη· τα M καλύτερα καρέ / πλάνα επιλέγονται και επιστρέφονται στο χρήστη ως αποτέλεσμα της αναζήτησης. Η έρευνα υλοποιείται υπολογίζοντας το διάνυσμα περιγραφής x του καρέ / πλάνου εισόδου και εκτελώντας συγκρίσεις ανάμεσα στο x και στα διανύσματα περιγραφής y όλων των καρέ / πλάνων της βάσης. Όπως και στις παραδοσιακές εφαρμογές ανάκλησης ακίνητων εικόνων, χρησιμοποιείται μία απόσταση (distance) ή μέτρο ομοιότητας (similarity measure) για την εύρεση του συνόλου που ταιριάζουν καλύτερα με την εικόνα-παράδειγμα του χρήστη. Όμως, επειδή μπορεί να απαιτούνται από το χρήστη διαφορετικά κριτήρια δεικτοδότησης ή αναζήτησης, όπως αναζήτηση με βάση το χρώμα, την κίνηση, το σχήμα ή την υφή, ορισμένα στοιχεία των διανυσμάτων περιγραφής πρέπει να λαμβάνονται υπόψη σε μικρότερο ή μεγαλύτερο βαθμό κατά την εκτίμηση του μέτρου ομοιότητας. Γι’ αυτό το λόγο υιοθετείται μία παραμετρική απόσταση (parametric distance) ή απόσταση με βάρη (weighted distance), αυξάνοντας έτσι την ευελιξία του μηχανισμού ανάκλησης. Αυτό σημαίνει ότι ανατίθεται ένα σύνολο από βάρη (weights) στο μέτρο ομοιότητας και ο χρήστης Κεφάλαιο 8 Αναζήτηση με Βάση το Περιεχόμενο 81 έχει τη δυνατότητα να προσδιορίσει τα βάρη ανάλογα με τις συγκεκριμένες ανάγκες για αναζήτηση πληροφορίας. Πιο συγκεκριμένα, η παραμετρική απόσταση ανάμεσα στο διάνυσμα περιγραφής x της εισόδου και στα διανύσματα περιγραφής y όλων χαρακτηριστικών καρέ / πλάνων που είναι διαθέσιμα στη βάση, ορίζεται ως d w ( x , y ) = w j ( x j - y j )2 = w j e 2 j j =1 j =1 N N (8-1) όπου w είναι το διάνυσμα βαρών (weight vector) ή διάνυσμα παραμέτρων (parameter vector), διαστάσεων N 1, N είναι το μήκος κάθε διανύσματος περιγραφής, e = x - y είναι ένα διάνυσμα σφάλματος (error vector) και xj , yj , wj και ej είναι τα στοιχεία των διανυσμάτων x, y, w και e αντίστοιχα. Το σύνολο των M χαρακτηριστικών καρέ / πλάνων που αντιστοιχούν στα διανύσματα περιγραφής yi , i = 1, ..., M, με την ελάχιστη απόσταση dw(x,yi) επιστρέφεται στο χρήστη ως αποτέλεσμα της αναζήτησης. Αναζήτηση Μέσω Σχεδιαγράμματος Σε ένα περιβάλλον αναζήτησης μέσω σχεδιαγράμματος ο χρήστης σχεδιάζει το σκίτσο μιας εικόνας και το υποβάλλει σαν ερώτημα στο σύστημα αναζήτησης. Το σκίτσο μπορεί να περιέχει μικρό αριθμό στοιχειωδών αντικειμένων με απλό γεωμετρικό σχήμα (όπως ορθογώνια, πολύγωνα, κύκλοι ή ελλείψεις) και συγκεκριμένες ιδιότητες όπως θέση, χρώμα, κίνηση και μέγεθος. Εναλλακτικά το σκίτσο μπορεί να περιλαμβάνει απλώς το περίγραμμα ενός αντικειμένου και η αναζήτηση να εκτελεσθεί με βάση το σχήμα του περιγράμματος· η περίπτωση αυτή εξετάζεται στο Κεφάλαιο 11. Στο σενάριο αυτό τα αντικείμενα που σχεδιάζονται από το χρήστη μπορούν θεωρηθούν τμήματα εικόνας που προκύπτουν από κατάτμηση μιας εικόνας με βάση το χρώμα ή την κίνηση, ακριβώς όπως στην περίπτωση της αναζήτησης μέσω παραδείγματος. Αυτό σημαίνει ότι οι ιδιότητες των αντικειμένων μπορούν να χρησιμοποιηθούν άμεσα για την κατασκευή ενός πολυδιάστατου ασαφούς ιστογράμματος που περιγράφει το σκίτσο του χρήστη, σύμφωνα με τη μεθοδολογία του Κεφαλαίου 4. Το ιστόγραμμα είναι στην πράξη το διάνυσμα περιγραφής της εισόδου και έχει ακριβώς την ίδια μορφή με τα διανύσματα περιγραφής των χαρακτηριστικών καρέ / πλάνων της βάσης. Συνεπώς, η αναζήτηση ανάγεται στην προηγούμενη περίπτωση και η άμεση σύγκριση του υπολογιζόμενου διανύσματος περιγραφής με τα διαθέσιμα διανύσματα της βάσης μπορεί να χρησιμοποιηθεί για σκοπούς ανάκλησης· η παρούσα περίπτωση μάλιστα είναι απλούστερη αφού παραλείπεται το στάδιο της κατάτμησης. Όπως στην περίπτωση αναζήτησης μέσω παραδείγματος, οι συγκρίσεις πραγματοποιούνται στο χώρο των διανυσμάτων περιγραφής βάσει του μέτρου απόστασης της Εξίσωσης (8-1), ενώ η έρευνα περιορίζεται και πάλι στο σύνολο των επιλεγμένων χαρακτηριστικών καρέ / πλάνων, επιτρέποντας ταχεία υλοποίηση της διαδικασίας αναζήτησης. Οι βασικές διαφορές των δύο προσεγγίσεων είναι ότι (α) δεν απαιτείται από το χρήστη η εισαγωγή μιας υπάρχουσας εικόνας ή πλάνου (β) η αναζήτηση περιορίζεται στα αντικείμενα που σχεδιάζονται και επομένως ενδιαφέρουν το χρήστη, και δεν επηρεάζεται από την ύπαρξη άλλων αντικειμένων που μπορεί να εμφανιστούν σε μια αναζήτηση μέσω παραδείγματος 82 ΜΕΡΟΣ II Χαρακτηρισμός, Προεπισκόπηση και Αναζήτηση με Βάση το Περιεχόμενο Συνεπώς η αναζήτηση μέσω σχεδιαγράμματος τείνει να εκφράζει με μεγαλύτερη ακρίβεια τις πληροφοριακές ανάγκες του χρήστη. Επιπλέον, αυτό το είδος μπορεί σχετικά εύκολα να αναχθεί σε αναζήτηση μέσω κειμένου (textual query) χωρίς ουσιαστικές τροποποιήσεις στην υπολογιστική υποδομή. Για παράδειγμα, ένας χρήστης μπορεί να αναζητήσει ένα «σκούρο αντικείμενο που κινείται προς τα αριστερά» ή ένα «μεγάλο μπλε αντικείμενο στο κάτω άκρο της εικόνας». Στην περίπτωση αυτή με τη συντακτική ανάλυση (parsing) των ερωτημάτων μπορούν να προσδιορισθούν οι ιδιότητες των αντικειμένων που διαφορετικά θα υπολογίζονταν από το σκίτσο. 8.2 ΑΝΑΔΡΑΣΗ Από τον ορισμό του διανύσματος περιγραφής ως πολυδιάστατο ιστόγραμμα και από τα παραδείγματα του Κεφαλαίου 4 προκύπτει ότι η πληροφορία για κάθε χαρακτηριστικό (θέση, χρώμα, κίνηση κλπ.) αποθηκεύεται αυτόνομα σε κάθε διάνυσμα· συνεπώς είναι δυνατή η αναζήτηση κάθε είδους πληροφορίας με κατάλληλη επιλογή βαρών στο μέτρο ομοιότητας (8-1). Αυτή η προσέγγιση όμως έχει το μειονέκτημα ότι ο χρήστης δεν έχει πάντα τη δυνατότητα να εκφράσει ένα ερώτημα βάσει χαρακτηριστικών χαμηλού επιπέδου, επομένως η διαδικασία επιλογής βαρών είναι μία επιπρόσθετη επιβάρυνση για το χρήστη και συνήθως οδηγεί σε κατώτερη απόδοση ανάκλησης. Γι’ αυτό υιοθετείται μία προσέγγιση ανάδρασης καταλληλότητας, σχετικότητας ή απλώς ανάδρασης (relevance feedback) στην προτεινόμενη εφαρμογή ανάκλησης με βάση το περιεχόμενο, η οποία καθιστά την αναζήτηση μία διαδικασία αλληλεπίδρασης (interaction) μεταξύ ανθρώπου και υπολογιστικού συστήματος [106]. Σύμφωνα με την τεχνική της ανάδρασης ο χρήστης μετά από μία ανάκληση έχει επιπλέον τη δυνατότητα να επιλέξει ένα υποσύνολο των αντικειμένων που ανακλήθηκαν, το οποίο κρίνει ότι ταιριάζει περισσότερο στο ερώτημα που έθεσε. Έστω λοιπόν ότι ο χρήστης επιλέγει και χαρακτηρίζει ως «κατάλληλα» ή «σχετικά» (relevant) τα m καρέ / πλάνα από τα M που επιστράφηκαν από το σύστημα ως αποτελέσματα αναζήτησης. Τότε τα υπόλοιπα M - m καρέ / πλάνα θεωρούνται λανθασμένα ή «ακατάλληλα» ή «μη σχετικά» (irrelevant). Σε ένα γενικότερο σενάριο, ο χρήστης θα μπορούσε να ταξινομήσει τα αποτελέσματα δίνοντας διαφορετικούς βαθμούς καταλληλότητας ή σχετικότητας (relevance). Έτσι η πληροφορία καταλληλότητας θα ήταν πιο ακριβής, επιβαρύνοντας βέβαια το χρήστη με την εισαγωγή περισσότερης πληροφορίας. Η πληροφορία καταλληλότητας ανατροφοδοτείται στο σύστημα και χρησιμοποιείται για την αυτόματη ενημέρωση ή αναπροσαρμογή των βαρών w του μέτρου ομοιότητας, έτσι ώστε στην αμέσως επόμενη απόπειρα αναζήτησης τα αποτελέσματα να προσεγγίσουν καλύτερα τις αρχικές ανάγκες πληροφόρησης [18]. Με την τροποποίηση των βαρών άλλα στοιχεία του διανύσματος περιγραφής υπολογίζονται σε μεγαλύτερο και άλλα σε μικρότερο βαθμό, έτσι ώστε η νέα απόσταση του διανύσματος περιγραφής x της εισόδου από τα m κατάλληλα καρέ / πλάνα να είναι μικρότερη, ενώ η αντίστοιχη νέα απόσταση από τα M - m ακατάλληλα καρέ / πλάνα να είναι μεγαλύτερη. Συνεπώς, στην αμέσως επόμενη φάση αναζήτησης επιλέγονται περισσότερα καρέ / πλάνα που σχετίζονται με το ερώτημα του χρήστη, αφού οι παράμετροι του μέτρου ομοιότητας έχουν προσαρμοσθεί στις ιδιότητες των καρέ / πλάνων που χαρακτηρίζονται από το χρήστη ως κατάλληλα. Πρακτικά με αυτό τον τρόπο ο χρήστης απαλλάσσεται από το βάρος της επιλογής Κεφάλαιο 8 Αναζήτηση με Βάση το Περιεχόμενο 83 παραμέτρων ή της κατανόησης χαρακτηριστικών και αναπαραστάσεων χαμηλού επιπέδου· παράλληλα το υπολογιστικό σύστημα εφοδιάζεται με ένα εργαλείο για την αυτόματη αντιστοίχιση των χαρακτηριστικών χαμηλού επιπέδου σε υψηλού επιπέδου προδιαγραφές αναζήτησης, καθώς και για την αντιμετώπιση της υποκειμενικότητας με την οποία ο χρήστης καθορίζει τις προδιαγραφές αυτές. Στις περισσότερες περιπτώσεις, η απλή ανάδραση (single relevance feedback), δηλαδή η μία μόνο επανάληψη της διαδικασίας ανάκλησης / ενημέρωσης παραμέτρων / νέας ανάκλησης, είναι επαρκής για την ανάκληση του επιθυμητού υλικού. Σε μια πρακτική εφαρμογή όμως, μία απλή ενημέρωση των παραμέτρων του μέτρου ομοιότητας δεν αποδίδει πάντα βέλτιστα αποτελέσματα αναζήτησης σύμφωνα με τις προδιαγραφές του χρήστη. Σε τέτοιες περιπτώσεις ο χρήστης πρέπει να έχει τη δυνατότητα να αναπροσαρμόσει και πάλι το μηχανισμό αναζήτησης, επιλέγοντας ένα δεύτερο σύνολο κατάλληλων αποτελεσμάτων. Τότε απαιτείται μία δεύτερη φάση ενεργοποίησης του μηχανισμού ενημέρωσης παραμέτρων καθώς και μία ακόμη φάση ανάκλησης. Η επανάληψη της παραπάνω διαδικασίας οδηγεί τελικά στην πολλαπλή ανάδραση (multiple relevance feedback). Στην επόμενη Ενότητα προτείνεται ένας αναδρομικός αλγόριθμος για την ενημέρωση των παραμέτρων που διακρίνεται ανάλογα με τον τύπο της ανάδρασης. 8.3 ΕΝΗΜΕΡΩΣΗ ΠΑΡΑΜΕΤΡΩΝ Ο στόχος του μηχανισμού ενημέρωσης παραμέτρων είναι να μειωθεί η απόσταση του διανύσματος περιγραφής x της εισόδου από τα διανύσματα που χαρακτηρίζονται «κατάλληλα» και ταυτόχρονα να αυξηθεί η απόσταση του από τα διανύσματα που χαρακτηρίζονται «ακατάλληλα». Ο προτεινόμενος αλγόριθμος ενημέρωσης για την απλή ανάδραση περιγράφεται αμέσως παρακάτω, ενώ για την περίπτωση πολλαπλής ανάδρασης ο αντίστοιχος αλγόριθμος μελετάται στη συνέχεια. Απλή Ανάδραση Έστω ότι yi , i = 1, ..., M, είναι τα διανύσματα περιγραφής των καρέ ή πλάνων που ανακαλούνται από τη βάση κατά την πρώτη αναζήτηση. Χωρίς βλάβη της γενικότητας, έστω επίσης ο χρήστης επιλέγει ως «κατάλληλα» τα διανύσματα yi , i = 1, ..., m, όπου m < M. Τότε η απόσταση ανάμεσα στο διάνυσμα περιγραφής x της εισόδου και τα διανύσματα yi , i = 1, ..., m, πρέπει να ελαχιστοποιηθεί, ενώ η απόσταση του x από τα yi , i = m+1, ..., M, πρέπει να μεγιστοποιηθεί στην επόμενη αναζήτηση. Συνεπώς η συνάρτηση κόστους (cost function) που ορίζεται ως J ( w ) = dw ( x , y i ) - i=1 m M i =m + 1 dw ( x , y i ) (8-2) πρέπει να ελαχιστοποιηθεί ως προς το διάνυσμα παραμέτρων w, υπό τον περιορισμό ότι το μέτρο του διανύσματος w παραμένει σταθερό. Ο περιορισμός είναι απαραίτητος διότι το μέτρο απόστασης χρησιμοποιείται μόνο σε συγκρίσεις, οπότε διανύσματα παραμέτρων που διαφέρουν μόνο ως προς το μέτρο τους δίνουν ακριβώς τα ίδια αποτελέσματα αναζήτησης. Χωρίς βλάβη της γενικότητας, έστω w = 1: ^ w = arg min J ( w ) w =1 (8-3) 84 ΜΕΡΟΣ II Χαρακτηρισμός, Προεπισκόπηση και Αναζήτηση με Βάση το Περιεχόμενο Η βέλτιστη λύση της (8-3) μπορεί να προκύψει αναλυτικά σε κλειστή μορφή θέτοντας J(w)/wk = 0 για k = 1, ..., N. Η λύση είναι [13]: N ^ wk = Ak Al2 l =1 -1 / 2 , k = 1, ..., N (8-4) όπου οι όροι Ak , k = 1, ..., N, ορίζονται ως Ak = ( x k - y ( i ) ) 2 - k i =1 m i =m + 1 (x k - y (ki ) )2 , M k = 1, ..., N (8-5) και y (i ) , k = 1, ..., N, είναι τα στοιχεία του διανύσματος yi . Στην παραπάνω ανάλυση έγινε εk πιπλέον η υπόθεση ότι ο χρήστης θα επιλέξει τουλάχιστον μία εικόνα ως σχετική με την αναζήτησή του, έτσι ώστε να υπάρχει τρόπος εντοπισμού των στοιχείων εκείνων του διανύσματος περιγραφής που αντιστοιχούν στο κριτήριο αναζήτησης (για παράδειγμα, χρώμα, μέγεθος ή κίνηση αντικειμένων). Η υπόθεση αυτή είναι λογική καθώς στην αντίθετη περίπτωση ο χρήστης θα ξεκινούσε νέα αναζήτηση αφού τα αποτελέσματα της πρώτης αναζήτησης θα ήταν όλα ακατάλληλα. Πολλαπλή Ανάδραση Με την παραπάνω διαδικασία ελαχιστοποίησης ουσιαστικά υπολογίζονται τα βέλτιστα βάρη w για μία συγκεκριμένη εικόνα εισόδου (καρέ ή πλάνο) με διάνυσμα περιγραφής x. Στην πράξη όμως, μία απλή ενημέρωση του διανύσματος παραμέτρων w δεν αποδίδει πάντα βέλτιστα αποτελέσματα αναζήτησης σύμφωνα με τις προδιαγραφές του χρήστη. Τότε είναι απαραίτητη η πολλαπλή ανάδραση η οποία υλοποιείται μέσω πολλαπλών, διαδοχικών φάσεων αναζήτησης ανάμεσα στις οποίες μεσολαβεί η κατάλληλη ενημέρωση του w. Σε αυτή τη γενικότερη περίπτωση, τα διανύσματα εισόδου, x, και εξόδου, yi , i = 1, ..., M, μπορούν να θεωρηθούν ακολουθίες διακριτού χρόνου x(n) και yi (n), i = 1, ..., M, αντίστοιχα. Συνεπώς ο αλγόριθμος ενημέρωσης παραμέτρων της περίπτωσης απλής ανάδρασης θα μπορούσε να εφαρμοσθεί αναδρομικά και στην παρούσα περίπτωση, παράγοντας μία νέα εκτίμηση του διανύσματος παραμέτρων σε κάθε επανάληψη. Όμως τα αποτελέσματα των προηγούμενων αναζητήσεων καθώς και οι αντίστοιχες τροποποιήσεις του διανύσματος παραμέτρων θα έπρεπε να ληφθούν επίσης υπόψη σε μικρό βαθμό κατά τη νέα ενημέρωση. Για το σκοπό αυτό εισάγουμε έναν παράγοντα μνήμης (memory factor) λ, όπου 0 < λ <1 με τον οποίο πολλαπλασιάζουμε τα αποτελέσματα των προηγούμενων σταδίων βελτιστοποίησης. Έτσι οι Εξισώσεις (8-4), (8-5) τροποποιούνται ως εξής [13]: N ^ wk (n) = Bk (n) Bl2 (n) l =1 όπου Bk (n ) = λ j Ak (n - j ) , j =0 m -1 / 2 , k = 1, ..., N (8-6) k = 1, ..., N (8-7) k = 1, ..., N (8-8) Ak (n) = ( x k (n) - y ( i ) (n))2 - k i =1 i = m+ 1 (xk (n) - y (ki ) (n))2 , M Επιπλέον, προκύπτει ότι ο υπολογισμός των παραγόντων Bk (n) ανάγεται τελικά στην παρακάτω αναδρομική σχέση: Κεφάλαιο 8 Αναζήτηση με Βάση το Περιεχόμενο 1 Bk (n - 1) , λ 85 Bk (n ) = Ak (n) + k = 1, ..., N (8-9) Αυτός ο αλγόριθμος αναδρομικής υλοποίησης της ενημέρωσης του διανύσματος παραμέτρων οδηγεί σε σημαντική μείωση του υπολογιστικού κόστους ενημέρωσης. Επιπρόσθετα, η αναδρομική υλοποίηση λαμβάνει υπόψη της τη γνώση για τις προηγούμενες τροποποιήσεις, συνεπώς κατά τη λειτουργία του συστήματος ανάκλησης σε πραγματικές συνθήκες οι παράμετροι απόστασης δεν ενημερώνονται από την αρχή σε κάθε απόπειρα αναζήτησης. 8.4 ΠΕΙΡΑΜΑΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ Η προτεινόμενη τεχνική αναζήτησης, ανάκλησης και ανάδρασης από το χρήστη δοκιμάσθηκε και αξιολογήθηκε σε μία βάση δεδομένων που περιέχει οπτικοακουστικό υλικό κυρίως από τηλεοπτικά δελτία ειδήσεων. Το σύνολο των διαθέσιμων ακολουθιών και ακίνητων εικόνων χαρακτηρίσθηκε υπολογίζοντας τα διανύσματα περιγραφής για κάθε καρέ (ή εικόνα) και επιλέγοντας χαρακτηριστικά καρέ και πλάνα, όσον αφορά στις ακολουθίες. Η πληροφορία χαρακτηρισμού αποθηκεύθηκε στη βάση και χρησιμοποιήθηκε για συγκρίσεις στα πειράματα αναζήτησης. Η διαδικασία αναζήτησης γίνεται σε πραγματικό χρόνο, αφού κατά τη διαδικασία αυτή αναλύεται μόνο η είσοδος του χρήστη, ενώ οι συγκρίσεις με το υλικό της βάσης πραγματοποιούνται στο χώρο των διανυσμάτων περιγραφής ενός πολύ μικρού ποσοστού των διαθέσιμων πλάνων, καρέ ή ακίνητων εικόνων. Αντίθετα η διαδικασία χαρακτηρισμού απαιτεί πολύ υπολογιστικό χρόνο και γι’ αυτό πραγματοποιείται πριν από οποιοδήποτε πείραμα ανάκλησης (off-line). (α) (β) Σχήμα 8-1. Αναζήτηση μέσω παραδείγματος από ακολουθίες δελτίων ειδήσεων. (α) Εικόνα εισόδου. (β) Αρχικά αποτελέσματα αναζήτησης για M = 10 εικόνες. Από αυτές, επιλέγεται ένα υποσύνολο από m = 4 εικόνες που χαρακτηρίζονται από το χρήστη ως «κατάλληλες» (διακρίνονται σε μαύρο πλαίσιο). Στο Σχήμα 8-1 παρουσιάζεται μία περίπτωση αναζήτησης μέσω παραδείγματος από ακολουθίες τηλεοπτικών δελτίων ειδήσεων. Ο χρήστης δίνει στο σύστημα μία εικόνα εισόδου που εμφανίζεται στο 8-1α και περιέχει ένα δημοσιογράφο (ανταποκριτή) σε εξωτερική λήψη και σε σχετικά κοντινό πλάνο. Η εικόνα αυτή στην πραγματικότητα προέρχεται από ένα ρεπορτάζ ενός δελτίου ειδήσεων· το ίδιο το πλάνο του ρεπορτάζ όμως δεν περιέχεται στη βάση. Η εικόνα εισόδου αναλύεται με τον ίδιο ακριβώς τρόπο όπως και το υλικό της βάσης: πραγματοποιείται κατάτμηση με βάση το χρώμα και από τις ιδιότητες των τμημάτων παράγεται με ασαφή ταξινόμηση το διάνυσμα περιγραφής· πληροφορία κίνησης δεν υπάρχει αφού πρόκειται για στατική εικόνα. Το διάνυσμα περιγραφής της εισόδου συγκρίνεται στη συνέχεια με τα διανύσματα που είναι διαθέσιμα στη βάση με χρήση του μέτρου ομοιότητας (8-1), όπου όλα τα βάρη αρχικοποιούνται λαμβάνοντας ίσες τιμές. 86 ΜΕΡΟΣ II Χαρακτηρισμός, Προεπισκόπηση και Αναζήτηση με Βάση το Περιεχόμενο Σχήμα 8-2. Αναζήτηση μέσω παραδείγματος, με ανάδραση. Αποτελέσματα αναζήτησης για την εικόνα εισόδου του Σχήματος 8-1a μετά από ένα στάδιο απλής ανάδρασης. Η ενημέρωση παραμέτρων γίνεται με βάση τις τέσσερις εικόνες που επιλέγονται στο Σχήμα 8-1β. Τα αρχικά αποτελέσματα αναζήτησης εικονίζονται στο Σχήμα 8-1β. Τα M = 10 καρέ που ανακαλούνται αντιστοιχούν στα δέκα διανύσματα περιγραφής με τη μικρότερη απόσταση από το διάνυσμα της εικόνας εισόδου. Η τιμή του M καθορίζεται από το χρήστη· ο αυτόματος υπολογισμός της δεν θα ήταν ιδιαίτερα χρήσιμος, καθώς σε πολλές περιπτώσεις μπορεί να ανακαλούνται χιλιάδες εικόνες. Παρατηρείται ότι εμφανίζονται αρκετές ομοιότητες ανάμεσα στην εικόνα εισόδου και στις ανακαλούμενες εικόνες, ως προς η σύνθεσή τους από αντικείμενα, το χρώμα, τη θέση και το μέγεθος των αντικειμένων. Όμως ο πραγματικός στόχος της έρευνας ήταν ο εντοπισμός ενός ανθρώπου σε σχετικά κοντινό πλάνο, χωρίς να υπάρχει ενδιαφέρον για το φόντο της εικόνας. Από τις ανακαλούμενες εικόνες μόνο τέσσερις (m = 4) θεωρείται ότι ικανοποιούν την προδιαγραφή αυτή· οι εικόνες αυτές χαρακτηρίζονται από το χρήστη ως «κατάλληλες» και διακρίνονται με ένα μαύρο πλαίσιο στο Σχήμα 8-1β. Οι υπόλοιπες έξι εξακολουθούν να παρουσιάζουν ομοιότητες με την εικόνα εισόδου, αλλά κυρίως ως προς τις ιδιότητες του φόντου· γι’ αυτό χαρακτηρίζονται «ακατάλληλες». (α) Σχήμα 8-3. Αναζήτηση μέσω σχεδιαγράμματος από στατικές εικόνες τοπίων. (α) Σχεδιάγραμμα χρήστη. (β) Αρχικά αποτελέσματα αναζήτησης για M = 8 εικόνες. Από το χρήστη επιλέγονται m = 2 εικόνες που χαρακτηρίζονται ως «κατάλληλες» (διακρίνονται σε μαύρο πλαίσιο). Η πληροφορία καταλληλότητας των εικόνων ανατροφοδοτείται στο σύστημα αναζήτησης και ενεργοποιείται ο μηχανισμός ενημέρωσης παραμέτρων. Τα βάρη του μέτρου ομοιότητας της (8-1) επανεκτιμούνται έτσι ώστε το ζητούμενο «άνθρωπος σε κοντινό πλάνο» να εκφρασθεί σε χαμηλού επιπέδου χαρακτηριστικά και να εντοπισθούν τα στοιχεία εκείνα του διανύσματος περιγραφής βάσει των οποίων η εικόνα εισόδου ταιριάζει με τις τέσσερις «κατάλληλες». Τα νέα αποτελέσματα αναζήτησης μετά από ένα στάδιο απλής αναζήτησης παρουσιάζονται στο Σχήμα 8-2. Παρατηρείται ότι με την ελαχιστοποίηση της απόστασης μεταξύ της εικόνας εισόδου και των τεσσάρων εικόνων που επιλέγονται από το χρήστη επιτυγχάνεται η ανάκληση εικόνων με περισσότερη έμφαση στο προσκήνιο των εικόνων παρά στο φόντο, και μά- Κεφάλαιο 8 Αναζήτηση με Βάση το Περιεχόμενο 87 λιστα χωρίς ο χρήστης να γνωρίζει τον τρόπο με τον οποίο τα διανύσματα περιγραφής αναπαριστούν την οπτική πληροφορία. Στη συνέχεια δίνεται ένα παράδειγμα αναζήτησης μέσω σχεδιαγράμματος από μία συλλογή στατικών εικόνων με τοπία. Το Σχήμα 8-3α απεικονίζει την είσοδο του χρήστη η οποία αυτή τη φορά δεν είναι μία διαθέσιμη εικόνα, αλλά μία εικόνα που σχεδιάζει ο ίδιος ο χρήστης συνδυάζοντας απλά γεωμετρικά σχήματα. Συγκεκριμένα το σχέδιο περιλαμβάνει ένα μεγάλο ορθογώνιο αντικείμενο κυανού χρώματος στο πάνω μέρος του, που αναπαριστά τον ουρανό, καθώς και ένα επίσης ορθογώνιο αντικείμενο, γαλαζοπράσινου χρώματος, που καλύπτει το κάτω μέρος του και αναπαριστά τη θάλασσα. Οι ιδιότητες των δύο αντικειμένων (χρώμα, θέση, μέγεθος κλπ.) χρησιμοποιούνται απευθείας για την κατασκευή ενός διανύσματος περιγραφής με τη μέθοδο του ασαφούς ιστογράμματος· η ανάλυση λοιπόν της εισόδου είναι όμοια με εκείνη της αναζήτησης μέσω παραδείγματος, με τη διαφορά ότι δεν μεσολαβεί κατάτμηση. Το διάνυσμα περιγραφής συγκρίνεται στη συνέχεια με όλα τα διαθέσιμα διανύσματα σε μία βάση με στατικές εικόνες τοπίων, με σκοπό να ανακληθούν εικόνες που περιέχουν θάλασσα και ουρανό. Ο χρήστης αυτή τη φορά επιλέγει να ανακληθούν οκτώ εικόνες από τη βάση (M = 8). Και πάλι χρησιμοποιείται το μέτρο ομοιότητας (8-1) όπου όλα τα βάρη αρχικοποιούνται σε ίσες μεταξύ τους τιμές. Τα αποτελέσματα της αναζήτησης για M = 8 εμφανίζονται στο Σχήμα 8-3β. Παρατηρείται ότι οι περισσότερες από τις οκτώ ανακαλούμενες εικόνες περιέχουν τμήματα ουρανού ή και θάλασσας και έχουν παρόμοια χρωματική σύνθεση με το σχεδιάγραμμα εισόδου. Όμως ο χρήστης κρίνει ότι δύο μόνο εικόνες ικανοποιούν τις ανάγκες του και τις χαρακτηρίζει «κατάλληλες». Οι δύο αυτές εικόνες σημειώνονται με μαύρο πλαίσιο στο Σχήμα 8-3β. Σχήμα 8-4. Αναζήτηση μέσω σχεδιαγράμματος, με ανάδραση. Αποτελέσματα αναζήτησης για την εικόνα εισόδου του Σχήματος 8-3a μετά από ένα στάδιο απλής ανάδρασης. Η ενημέρωση παραμέτρων γίνεται με βάση τις δύο εικόνες που επιλέγονται στο Σχήμα 8-3β. Με χρήση ενός σταδίου απλής ανάδρασης, η πληροφορία της αξιολόγησης του χρήστη ανατροφοδοτείται στο σύστημα και τα βάρη ανανεώνονται δυναμικά με σκοπό να δοθεί έμφαση στα χαρακτηριστικά των επιλεγμένων εικόνων. Τα νέα αποτελέσματα αναζήτησης εμφανίζονται στο Σχήμα 8-4, όπου είναι εμφανές ότι οι ανακαλούμενες εικόνες μετά την ανάδραση παρουσιάζουν μεγαλύτερη ομοιότητα με το αρχικό σχεδιάγραμμα. Είναι τέλος αξιοσημείωτο ότι στα περισσότερα πειράματα ανάκλησης, είτε βάσει παραδείγματος είτε βάσει σχεδιαγράμματος, η απλή ανάδραση είναι επαρκής. Ακόμη και στις περιπτώσεις όπου χρησιμοποιείται πολλαπλή ανάδραση, η μεγαλύτερη βελτίωση επιτυγχάνεται κατά την πρώτη επανάληψη. Αυτό το συμπέρασμα είναι ενθαρρυντικό καθώς ο τελικός χρήστης αναμένει να εντοπίσει κατάλληλα αποτελέσματα όσο το δυνατόν συντομότερα. Μ Ε Ρ Ο Σ I I I ΠΕΡΙΓΡΑΦΗ ΣΧΗΜΑΤΟΣ ΑΝΤΙΚΕΙΜΕΝΩΝ Στο τρίτο Μέρος της διατριβής εξετάζεται η χρήση του σχήματος των αντικειμένων που παράγονται από τη διαδικασία κατάτμησης για σκοπούς ταξινόμησης και αναζήτησης. Η αναπαράσταση, ανάλυση και επεξεργασία του περιγράμματος αντικειμένων αποτελεί μία ερευνητική περιοχή με αυξημένο ενδιαφέρον, κυρίως λόγω της εμφάνισης τεχνικών αναζήτησης μέσω σχεδιαγράμματος, όπως παρουσιάσθηκε στο Κεφάλαιο 8, αλλά και της ενσωμάτωσης της πληροφορίας σχήματος στις σύγχρονες τεχνικές κωδικοποίησης. Στο πλαίσιο της διατριβής προτείνεται μία μέθοδος κανονικοποίησης η οποία παρέχει περιγραφή αναλλοίωτη σε affine μετασχηματισμούς καθώς και μετασχηματισμούς παραμέτρου, χωρίς ταυτόχρονα να παρουσιάζει καμία απώλεια πληροφορίας. Στο Κεφάλαιο 9 πραγματοποιείται μία βιβλιογραφική ανασκόπηση στις υφιστάμενες μεθόδους αναπαράστασης, ταξινόμησης, ταιριάσματος και αναγνώρισης περιγραμμάτων. Στη συνέχεια δίνεται η γενική περιγραφή της μεθόδου κανονικοποίησης, των ιδιοτήτων, προϋποθέσεων και περιορισμών της, και παρουσιάζεται η μοντελοποίηση καμπυλών με B-Splines που χρησιμοποιείται για την αναπαράσταση του σχήματος των περιγραμμάτων. Στο Κεφάλαιο 10 δίνεται η αναλυτική περιγραφή και θεωρητική ανάλυση της προτεινόμενης μεθόδου κανονικοποίησης περιγραμμάτων. Η διαδικασία περιλαμβάνει σταδιακή κανονικοποίηση ως προς τους μετασχηματισμούς μετατόπισης, αλλαγής κλίμακας, κλίσης (skew), σημείου αναφοράς, περιστροφής, κατοπτρισμού και φοράς διαγραφής. Η κανονικοποίηση είναι ένας γραμμικός μετασχηματισμός που πραγματοποιείται με χρήση πληροφορίας όπως οι ροπές μέχρι δευτέρου βαθμού και ο μετασχηματισμός Fourier κάθε καμπύλης. Τέλος στο Κεφάλαιο 11 εξετάζεται το πρόβλημα της ανάκλησης αντικειμένων με βάση το σχήμα τους, η οποία βασίζεται σε τρία απλά μέτρα ομοιότητας περιγραμμάτων, ενώ εξετάζεται και το συναφές πρόβλημα της ταξινόμησης σχημάτων σε προκαθορισμένες κατηγορίες, το οποίο αντιμετωπίζεται με χρήση νευρωνικού δικτύου. Στη συνέχεια δίνονται παραδείγματα, πειραματικά αποτελέσματα και αλγοριθμικές οδηγίες τόσο για την κανονικοποίηση περιγραμμάτων όσο και για την ταξινόμηση, τα χρησιμοποιούμενα μέτρα ομοιότητας και την αναζήτηση με βάση το σχήμα. 88 Κεφάλαιο 9 Αναπαράσταση Περιγραμμάτων Η αναπαράσταση, ανάλυση και επεξεργασία του περιγράμματος των αντικειμένων αποτελεί μία ερευνητική περιοχή με αυξημένο ενδιαφέρον, κυρίως λόγω της εμφάνισης τεχνικών αναζήτησης μέσω σχεδιαγράμματος, όπως παρουσιάσθηκε στο Κεφάλαιο 8, αλλά και της ενσωμάτωσης της πληροφορίας σχήματος στις σύγχρονες τεχνικές κωδικοποίησης. Στο Κεφάλαιο αυτό παρουσιάζεται μία βιβλιογραφική ανασκόπηση στις διαθέσιμες μεθόδους αναπαράστασης, ταξινόμησης, ταιριάσματος και αναγνώρισης περιγραμμάτων, από την οποία προκύπτει η ανάγκη για περιγραφή περιγραμμάτων που να είναι αναλλοίωτη σε ένα σύνολο μετασχηματισμών όπως μετατόπιση, περιστροφή, αλλαγή κλίμακας κλπ. Στο πλαίσιο της διατριβής προτείνεται μία μέθοδος κανονικοποίησης η οποία παρέχει περιγραφή αναλλοίωτη σε affine μετασχηματισμούς καθώς και μετασχηματισμούς παραμέτρου (π.χ. κυκλική ολίσθηση, φορά διαγραφής) χωρίς ταυτόχρονα να παρουσιάζει καμία απώλεια πληροφορίας, αφού το σχήμα του περιγράμματος διατηρείται στο ακέραιο. Έτσι, η προκύπτουσα αναπαράσταση μπορεί να χρησιμοποιηθεί σε συνδυασμό με οποιαδήποτε μέθοδο ταξινόμησης, αναγνώρισης ή ταιριάσματος καμπυλών. Στη συνέχεια του Κεφαλαίου δίνεται η γενική περιγραφή της μεθόδου κανονικοποίησης, των ιδιοτήτων, προϋποθέσεων και περιορισμών της, και παρουσιάζεται η μοντελοποίηση καμπυλών με B-Splines που χρησιμοποιείται για την απλοποίηση του σχήματος των περιγραμμάτων, τη μείωση του θορύβου κατάτμησης και την ομοιόμορφη δειγματοληψία ως προς το μήκος τόξου. Η αναλυτική περιγραφή της μεθόδου κανονικοποίησης δίνεται στο επόμενο Κεφάλαιο. 9.1 ΕΙΣΑΓΩΓΗ Πληροφορία Σχήματος ματος και υφής [14], το πεδίο κίνησης ή βάθους [39], καθώς και το σχήμα των αντικειμένων [145]. Υψηλότερου επιπέδου αναπαράσταση είναι εφικτή μέσω του συνδυασμού χαρακτηριστικών χαμηλού επιπέδου, κυρίως στο πλαίσιο ειδικευμένων εφαρμογών. Όπως προτείνεται στην εργασία [100], αν η βασική πληροφορία για την περιγραφή, αναγνώριση ή ταξινόμηση ενός αντικειμένου μπορεί να βρεθεί στο σχήμα του περιγράμματός του (contour shape), είναι φυσικό να διατηρήσει κανείς μόνο το σχήμα του για περαιτέρω επεξεργασία. Τέτοιες περιπτώσεις παρουσιάζονται για παράδειγμα στην αναγνώριση και ταξινόμηση αεροσκαφών και δορυφόρων με βάση το περίγραμμά τους, στην αναγνώριση χαρακτήρων και στην επεξεργασία εγγράφων [70]. Όμως η μελέτη και η χρήση του σχήματος για την περιγραφή, αναγνώριση ή αναζήτηση αντικειμένων σε εφαρμογές γενικού περιεχομένου, είτε από μόνο του είτε σε συνδυασμό με άλλα χαρακτηριστικά, είναι μία ενεργή περιοχή της τρέχουσας έρευνας [78,125,148]. Η οπτική πληροφορία σε συστήματα αναζήτησης με βάση το περιεχόμενο μοντελοποιείται συνήθως με τη χρήση χαρακτηριστικών χαμηλού επιπέδου, όπως η σύνθεση χρώ- 89 90 ΜΕΡΟΣ III Περιγραφή Σχήματος Αντικειμένων Υπάρχουν δύο κύριοι λόγοι για το αυξημένο ενδιαφέρον στην ανάλυση και επεξεργασία του σχήματος αντικειμένων. Πρώτον, διότι παρέχει ένα ισχυρό εργαλείο για αναζήτηση και ανάκληση εικόνων με βάση το περιεχόμενο, χρησιμοποιώντας ένα μηχανισμό αναζήτησης μέσω σχεδιαγράμματος / σκίτσου (query-by-sketch) [19]. Σε μια τέτοια εφαρμογή ο τελικός χρήστης σχεδιάζει το σκίτσο ενός αντικειμένου και το σύστημα αναζήτησης ταιριάζει το σκίτσο αυτό με το σχήμα των αντικειμένων σε μια βάση δεδομένων με εικόνες ή βίντεο. Το ταίριασμα πραγματοποιείται με μέτρηση της ομοιότητας μεταξύ των προτύπων σχημάτων της βάσης και του σκίτσου του επιθυμητού αντικειμένου. Δεύτερον, λειτουργίες που σχετίζονται με την περιγραφή περιεχομένου ενσωματώνονται στα πρόσφατα πρότυπα κωδικοποίησης οπτικοακουστικού υλικού [65]. Για το σκοπό αυτό έχουν προταθεί τεχνικές κωδικοποίησης δεύτερης γενιάς [128], στις οποίες η κωδικοποίηση βασίζεται στην κατάτμηση σε αντικείμενα και επιτρέπει τη διαχείριση (manipulation) περιεχομένου των αντικειμένων [110]. Έτσι η πληροφορία σχήματος ενσωματώνεται στα επίπεδα αντικειμένων (video object planes, VOPs) με τη μορφή δυαδικής εικόνας (μάσκας) και μπορεί να χρησιμοποιηθεί για την πρόβλεψη ή χρονική παρεμβολή στα τμημάτων μιας ακολουθίας [84]. Υπάρχουσες Τεχνικές Έχουν προταθεί πολυάριθμες μέθοδοι στη βιβλιογραφία για την ανάλυση, τη μοντελοποίηση και την αναπαράσταση του σχήματος. Οι μέθοδοι αυτές περιλαμβάνουν μεταξύ άλλων την κωδικοποίηση αλυσίδας (chain coding) [42], την προσέγγιση πολυγώνων (polygonal approximation) [98], το μετασχηματισμό σκελετού (medial axis / skeleton transform) [20], τους περιγραφείς Fourier (Fourier descriptors) [100], τις ροπές καμπυλών (curve moments) [55], τα BSplines [28], τους χώρους κλίμακας κυρτότητας (curvature scale spaces) [90], τα σημεία ενδιαφέροντος (interest points) [141], τον ημιτονοειδή μετασχηματισμό (sinusoidal transform) [101], τους περιγραφείς Legendre (Legendre descriptors), καθώς και τις ροπές Zernike (Zernike moments) [73]. Οι περισσότερες τεχνικές εκμεταλλεύονται γεωμετρικά χαρακτηριστικά των καμπυλών, είτε ολικά (global) είτε τοπικά (local) για να επιτύχουν αναγνώριση, ταξινόμηση ή ταίριασμα καμπυλών. Τα ολικά χαρακτηριστικά προκύπτουν από την ανάλυση της καμπύλης ως σύνολο και παραδείγματά τους αποτελούν οι ροπές (moments), το μήκος, οι κύριοι άξονες (principal axes), η επιμήκυνση (elongation) και το συμπαγές (compactness). Αντίθετα τα τοπικά χαρακτηριστικά προκύπτουν από τμηματική ανάλυση της καμπύλης και παραδείγματά τους είναι τα σημεία ενδιαφέροντος (interest points), τα μέτρα κυρτότητας (curvature measures) και τα έμμεσα πολυώνυμα (implicit polynomials). Ανεξάρτητα από το είδος της εφαρμογής, όλες οι μέθοδοι ανάλυσης σχήματος αντιμετωπίζουν ένα κοινό πρόβλημα: το σχήμα των αντικειμένων μεταβάλλεται δραστικά ανάλογα με την άποψη του αντικειμένου στον 3-Δ χώρο, λόγω του μετασχηματισμού προοπτικής προβολής (perspective transformation). Στις περισσότερες εργασίες η μεταβολή αυτή προσεγγίζεται με έναν affine μετασχηματισμό (affine transformation). Ο λόγος είναι ότι, σε αντίθεση με το μετασχηματισμό προοπτικής προβολής, ο affine μετασχηματισμός είναι γραμμικός, γεγονός που απλοποιεί σημαντικά τη διαδικασία ανάλυσης. Επιπλέον πρόκειται για πολύ καλή προσέγγιση, ιδιαίτερα όταν τα αντικείμενα είναι μακριά από την κάμερα, αφού η ελαφριά αλλοίωση του σχήματος που οφείλεται στην προοπτική μπορεί να θεωρηθεί τμήμα παραμόρφωσης, η οποία αντιμετωπίζεται με άλλες τεχνικές. Για να αποφευχθεί η αποθήκευση ή το ταίριασμα με Κεφάλαιο 9 Αναπαράσταση Περιγραμμάτων 91 ένα μεγάλο αριθμό προτύπων σχημάτων που αντιστοιχούν σε διαφορετικούς affine μετασχηματισμούς (π.χ. διαφορετική περιστροφή, μετατόπιση ή αλλαγή κλίμακας), πρέπει να ορισθούν ποσότητες (ή μετασχηματισμοί) που είναι αναλλοίωτες (invariant) στους affine μετασχηματισμούς. Οι ποσότητες αυτές ονομάζονται affine invariants. Μία ιδιότητα κοινή στις περισσότερες affine invariant τεχνικές στη βιβλιογραφία είναι ότι η απομάκρυνση της επίδρασης των affine μετασχηματισμών είναι «ενσωματωμένη» στη διαδικασία της αναγνώρισης, του ταιριάσματος καμπυλών ή της εκτίμησης μέτρων ομοιότητας. Για παράδειγμα, ένα μέτρο ομοιότητας αναλλοίωτο στην περιστροφή, τη μετατόπιση και την αλλαγή κλίμακας που βασίζεται σε συναρτήσεις στροφής (turning functions) για τη σύγκριση πολυγώνων έχει προταθεί στην εργασία [4], ενώ ένα ανάλογο μέτρο βασισμένο σε τροποποιημένους περιγραφείς Fourier (modified Fourier descriptors, MFD) έχει παρουσιασθεί στην εργασία [108]. Για τον ίδιο σκοπό έχουν χρησιμοποιηθεί αναλλοίωτες ποσότητες βασισμένες στις ροπές (moment invariants) [17]. Για την affine invariant αναγνώριση αντικειμένων έχουν χρησιμοποιηθεί κανονικοποιημένοι περιγραφείς Fourier (normalized Fourier descriptors, NFD) σε συνδυασμό με νευρωνικά δίκτυα [140], καθώς και γενετικοί αλγόριθμοι [130]. Τεχνικές βασισμένες σε τοπικά χαρακτηριστικά καμπυλών περιλαμβάνουν την αυτόματη ανίχνευση σημείων ενδιαφέροντος για ανάκληση εικόνων [113], affine invariant ποσότητες βασισμένες στο κυρτό περίβλημα (convex hull) για το ταίριασμα (registration) εικόνων [148], καθώς και τοπικά χαρακτηριστικά αναλλοίωτα στην παραμόρφωση για αναγνώριση καμπυλών με χρήση έμμεσων πολυωνύμων [103]. Μία εναλλακτική προσέγγιση είναι το ταίριασμα δύο γνωστών καμπυλών με βέλτιστη εκτίμηση των παραμέτρων ενός affine μετασχηματισμού που μεγιστοποιεί ένα μέτρο ομοιότητας μεταξύ των δύο καμπυλών. Η βελτιστοποίηση βασίζεται, για παράδειγμα, στις ροπές των καμπυλών [56] ή στους περιγραφείς Fourier [100]. Τεχνικές Κανονικοποίησης Το κύριο μειονέκτημα της πρώτης προσέγγισης ­ δηλαδή της ενσωμάτωσης της affine invariant περιγραφής στη διαδικασία αναγνώρισης ή ταιριάσματος ­ είναι ότι σχεδόν πάντα χάνεται μεγάλο μέρος πληροφορίας για το σχήμα της αρχικής καμπύλης. Από την άλλη μεριά, η δεύτερη προσέγγιση ­ η εκτίμηση των παραμέτρων του affine μετασχηματισμού μεταξύ δύο καμπυλών ­ απαιτεί εκ των προτέρων γνώση των δύο καμπυλών. Επομένως μπορεί να χρησιμοποιηθεί μόνο για ταίριασμα σε ένα συγκεκριμένο ζεύγος καμπυλών και όχι, για παράδειγμα, για αναγνώριση μέσω ενός νευρωνικού δικτύου ή οποιασδήποτε τεχνικής ταξινόμησης. Επιπλέον η υλοποίηση της δεύτερης προσέγγισης απαιτεί συνήθως υψηλό υπολογιστικό κόστος. Για το λόγο αυτό έχει προταθεί η μέθοδος της κανονικοποίησης (normalization) ως εναλλακτική λύση για περιγραφή καμπυλών που να είναι αναλλοίωτη στους affine μετασχηματισμούς. Μία καμπύλη ή μία εικόνα μπορεί να κανονικοποιηθεί σε μία «πρότυπη» θέση, η οποία ορίζεται με τέτοιο τρόπο ώστε όλοι οι affine μετασχηματισμοί του ίδιου αντικειμένου να κανονικοποιούνται πάντα στην ίδια θέση. Με εξαίρεση τις παραμέτρους του affine μετασχηματισμού, στον οποίο η κανονικοποίηση είναι αναλλοίωτη, δεν χάνεται άλλη πληροφορία· η διαδικασία κανονικοποίησης αποτελείται στην ουσία από έναν affine (γραμμικό) μετασχηματισμό και το σχήμα της αρχικής καμπύλης παραμένει αμετάβλητο. Μία γενικευμένη μέθοδος κανονικοποίησης για τον προσδιορισμό αναλλοίωτων ποσοτήτων δίνεται στην εργασία [104], 92 ΜΕΡΟΣ III Περιγραφή Σχήματος Αντικειμένων η κανονικοποίηση εικόνων αντιμετωπίζεται στην εργασία [115], ενώ η κανονικοποίηση σχημάτων που έχουν υποστεί affine μετασχηματισμό μελετάται στην εργασία [126]. Για το ταίριασμα καμπυλών που έχουν υποστεί αυθαίρετη παραμόρφωση έχει προταθεί ένας αριθμός τεχνικών οι οποίες βασίζονται στα παραμορφούμενα πρότυπα (deformable templates) [19]. Τα παραμορφούμενα πρότυπα παράγονται επιβάλλοντας παραμετρικούς μετασχηματισμούς σε μία πρωτότυπη καμπύλη, ενώ η διακύμανση των προτύπων επιτυγχάνεται με στοχαστικό τρόπο [69]. Τα μοντέλα ενεργών περιγραμμάτων (active contour models ή snakes) χρησιμοποιούνται επίσης για τον ίδιο σκοπό [77]. Παρά το γεγονός ότι τα παραμορφούμενα πρότυπα αντιμετωπίζουν επιτυχώς το θόρυβο αλλά και τις τοπικές παραμορφώσεις των περιγραμμάτων (που οφείλονται σε τοπικές ανομοιότητες ή και επικάλυψη αντικειμένων), οι τοπικές παραμορφώσεις εμφανίζονται συνήθως σε συνδυασμό με ολικές μεταβολές σχήματος που εκφράζονται με affine μετασχηματισμούς. Σε αυτές τις περιπτώσεις η επίδοσή τους είναι περιορισμένη. Όμως πολύ καλά αποτελέσματα προκύπτουν από τη χρήση των παραμορφούμενων προτύπων σε δεύτερο στάδιο, μετά την κανονικοποίηση, όπως αναφέρεται και στην εργασία [61]. 9.2 ΠΡΟΤΕΙΝΟΜΕΝΗ ΑΝΑΠΑΡΑΣΤΑΣΗ Μοντελοποίηση ­ Κανονικοποίηση Στο πλαίσιο της παρούσας διατριβής προτείνεται μία πρωτότυπη μέθοδος κανονικοποίησης διδιάστατων καμπυλών ως προς τους affine μετασχηματισμούς. Η μέθοδος καθιστά την αναπαράσταση των καμπυλών αναλλοίωτη ως προς τους affine μετασχηματισμούς χωρίς καμία απώλεια πληροφορίας, ενώ στην περίπτωση κλειστών περιγραμμάτων η αναπαράσταση είναι επίσης αναλλοίωτη ως προς το αρχικό σημείο αναφοράς και τη φορά διαγραφής των καμπυλών. Συγκεκριμένα, η 2-Δ κλειστή καμπύλη που αναπαριστά το σχήμα του περιγράμματος ενός αντικειμένου μοντελοποιείται αρχικά μέσω κυβικών B-Splines. Έτσι απλοποιείται το σχήμα της καμπύλης και ο ελαττώνεται ο τυχόν θόρυβος που μπορεί να οφείλεται στην αυτόματη εξαγωγή του περιγράμματος (π.χ. μέσω κατάτμησης). Επίσης επιτυγχάνεται δειγματοληψία ομοιόμορφη ως προς το μήκος τόξου (arc length) της καμπύλης. Στη συνέχεια η καμπύλη κανονικοποιείται σε μια σειρά από βήματα στα οποία αφαιρείται σταδιακά η επίδραση της μετατόπισης (translation), της αλλαγής κλίμακας (scaling), της κλίσης (skew), του αρχικού σημείου αναφοράς (starting point), της περιστροφής (rotation), του κατοπτρισμού (reflection) και της φοράς διαγραφής (orientation). Ο αλγόριθμος κανονικοποίησης βασίζεται σε ένα συνδυασμό χαρακτηριστικών της καμπύλης, συμπεριλαμβανομένων των ροπών (έως δεύτερου βαθμού) και ενός συνόλου περιγραφέων Fourier. Η εκτίμηση όλων των χαρακτηριστικών πραγματοποιείται ολικά, ενώ δεν χρησιμοποιείται τοπική πληροφορία. Η συμμετοχή δηλαδή όλων των δειγμάτων της καμπύλης στον υπολογισμό των χαρακτηριστικών είναι ισοδύναμη. Το υπολογιστικό κόστος της προτεινόμενης μεθόδου κανονικοποίησης είναι αμελητέο, σε σχέση τουλάχιστον με το κόστος άλλων σταδίων επεξεργασίας, όπως π.χ. της κατάτμησης. Έτσι είναι δυνατή η ενσωμάτωση της μεθόδου σε συστήματα πραγματικού χρόνου για ανάκληση εικόνων ή ακόμη και για κωδικοποίηση βίντεο. Τα βασικά σημεία της μεθόδου έχουν παρουσιασθεί συνοπτικά στην εργασία [16]. Κεφάλαιο 9 Αναπαράσταση Περιγραμμάτων 93 Η ιδέα της κανονικοποίησης για την εξαγωγή αναλλοίωτων ποσοτήτων έχει παρουσιασθεί στην εργασία [104] και αξιοποιηθεί για την κανονικοποίηση εικόνων στην [115]. Όμως η προτεινόμενη τεχνική κανονικοποίησης για τη δημιουργία πλήρως αναλλοίωτης αναπαράστασης 2-Δ κλειστών καμπυλών σε affine μετασχηματισμούς καθώς και μετασχηματισμούς παραμέτρου χωρίς απώλεια πληροφορίας είναι εξολοκλήρου πρωτότυπη. Η αρχική ιδέα της κανονικοποίησης δημοσιεύθηκε για πρώτη φορά στην εργασία [11], και χρησιμοποιήθηκε ακόμη στην [10]. Οι ιδιότητές της και οι λεπτομέρειες υλοποίησής της παρουσιάσθηκαν στην [16] όπου χρησιμοποιήθηκε και για ανάκληση με βάση το σχήμα· αναλυτικότερη περιγραφή καθώς και αποδείξεις των σχετικών προτάσεων αναμένεται να δημοσιευθούν στην εργασία [12]. Η ταξινόμηση 2-Δ καμπυλών με χρήση B-Splines και νευρωνικού δικτύου παρουσιάσθηκε στις εργασίες [10,11,145]. Ιδιότητες Αποδεικνύεται ότι κάθε κανονικοποιημένη καμπύλη αντιστοιχεί μοναδικά (uniquely) σε ένα σύνολο καμπυλών που σχετίζονται μεταξύ τους μέσω αυθαίρετων affine μετασχηματισμών. Επιπλέον, η κανονικοποιημένη αναπαράσταση, μαζί με τις παραμέτρους του affine μετασχηματισμού που συνδέει την αρχική καμπύλη με την κανονικοποιημένη (οι οποίες εκτιμώνται κατά τη διαδικασία της κανονικοποίησης) περιγράφουν πλήρως (completely) την αρχική καμπύλη. Η αρχική καμπύλη μπορεί δηλαδή να ανακατασκευασθεί με ακρίβεια από την κανονικοποιημένη με χρήση των εκτιμώμενων παραμέτρων. Με βάση τις παραπάνω ιδιότητες μοναδικότητας (uniqueness) και πληρότητας (completeness) επιτυγχάνεται αποσύνθεση (decomposition) των καμπυλών σε ολική (global) «θέση» σχετιζόμενη με τους affine μετασχηματισμούς και σε τοπική (local) πληροφορία σχήματος. Επομένως η προτεινόμενη μέθοδος μπορεί να εφαρμοσθεί ως ένα στάδιο προεπεξεργασίας σε οποιαδήποτε τεχνική αναπαράστασης, ταξινόμησης, αναγνώρισης ή ανάκλησης με βάση το σχήμα, αφού ουσιαστικά αποσυσχετίζει το πρόβλημα της affine-invariant περιγραφής από την εξαγωγή χαρακτηριστικών (feature extraction) και το ταίριασμα με πρότυπα (pattern matching). Ένας αριθμός από μέτρα ομοιότητας (similarity measures) χρησιμοποιούνται στα πειράματα για να επιδείξουν την ικανότητα της προτεινόμενης αναπαράστασης να διατηρεί όλη την πληροφορία της καμπύλης εκτός από τους αυθαίρετους affine μετασχηματισμούς, στους οποίους είναι αναλλοίωτη. Επίσης, σε όλες τις περιπτώσεις, τα πειράματα δείχνουν ότι η αναπαράσταση είναι ανθεκτική στο θόρυβο και στις παραμορφώσεις των σχημάτων. 9.3 ΠΡΟΫΠΟΘΕΣΕΙΣ ­ ΠΕΡΙΟΡΙΣΜΟΙ Προέλευση Περιγραμμάτων Η παρακάτω ανάλυση προϋποθέτει ότι το σχήμα του περιγράμματος ενός αντικειμένου είναι διαθέσιμο ως ένα διατεταγμένο σύνολο 2-Δ σημείων τα οποία σχηματίζουν μία 2-Δ επίπεδη και κλειστή καμπύλη. Το σύνολο αυτό μπορεί να προέρχεται από δειγματοληψία δεδομένων μιας εικόνας με χρήση αυτόματης, ημιαυτόματης ή και χειρονακτικής κατάτμησης. Στην πράξη μπορεί να εφαρμοσθεί οποιοσδήποτε αλγόριθμος κατάτμησης, βασιζόμενος για παράδειγμα στην ομοιογένεια (homogeneity) χρώματος ή κίνησης, στην ανίχνευση ακμών (edge detection) ή σε μορφολογικά εργαλεία [111]. Στα πειράματα χρησιμοποιήθηκε ο αλγόριθμος M-RSST, όπως περιγράφεται στην Ενότητα 1.2, για κατάτμηση με βάση το χρώμα. 94 ΜΕΡΟΣ III Περιγραφή Σχήματος Αντικειμένων Στην περίπτωση που ένα μεγάλο σύνολο ακολουθιών βίντεο είναι διαθέσιμο σε μία βάση δεδομένων, κάθε ακολουθία διαχωρίζεται αρχικά σε πλάνα που αντιστοιχούν σε χρονικά τμήματα συνεχούς λειτουργίας μίας κάμερας, και στη συνέχεια εφαρμόζεται κατάτμηση στα καρέ του κάθε πλάνου. Στην περίπτωση αυτή η ποιότητα της κατάτμησης μπορεί να βελτιωθεί με την εκμετάλλευση της πληροφορίας κίνησης. Συγκεκριμένα, για την κατάτμηση με βάση την κίνηση μπορούν να χρησιμοποιηθούν 2-Δ παραμετρικά μοντέλα κίνησης [96,127], ή η ανίχνευση των κύριων κινούμενων αντικειμένων (main mobile objects) [146]. Παρά το γεγονός ότι η κανονικοποίηση σημείου αναφοράς που παρουσιάζεται στην Ενότητα 10-5 εφαρμόζεται μόνο σε κλειστές καμπύλες περιγραμμάτων, τα υπόλοιπα βήματα κανονικοποίησης εξακολουθούν να ισχύουν και για ανοικτές καμπύλες. Επικαλύψεις Γίνεται επίσης η υπόθεση ότι οι καμπύλες αντιστοιχούν σε περιγράμματα αντικείμενων που δεν επικαλύπτονται μεταξύ τους, καθώς και ότι είναι εξ’ ολοκλήρου γνωστές. Προβλήματα που σχετίζονται με την επικάλυψη (occlusion) αντικειμένων μπορούν να αντιμετωπισθούν μόνο με χρήση τοπικής πληροφορίας, ενώ στην προτεινόμενη μέθοδο χρησιμοποιούνται μόνο ολικά χαρακτηριστικά. Δυστυχώς, δεν είναι γνωστή καμία μέθοδος κανονικοποίησης στη βιβλιογραφία η οποία να μπορεί να αντιμετωπίσει επιτυχώς τα ζητήματα επικάλυψης χωρίς ταυτόχρονη απώλεια πληροφορίας, αν και έχουν καταβληθεί σημαντικές προσπάθειες [56]. Όμως, στην περίπτωση που ο βαθμός επικάλυψης είναι μικρός, η επικάλυψη μπορεί να θεωρηθεί ως μικρή τοπική παραμόρφωση και να αντιμετωπισθεί στη διαδικασία ταιριάσματος. Μετασχηματισμοί Όσον αφορά στους δυνατούς μετασχηματισμούς στους οποίους η προτεινόμενη αναπαράσταση είναι αναλλοίωτη, γίνεται η υπόθεση ότι κάθε καμπύλη εισόδου έχει υποστεί δύο ειδών μετασχηματισμούς: μετασχηματισμούς παραμέτρου (parameter transformations) και μετασχηματισμούς συντεταγμένων (coordinate transformations). Οι μετασχηματισμοί παραμέτρου οφείλονται στο γεγονός ότι οι καμπύλες προέρχονται από κατάτμηση εικόνων, στην οποία εμπλέκεται ουσιαστικά μια μορφή δειγματοληψίας που οδηγεί στη διακριτή αναπαράσταση συνεχών καμπυλών. Έτσι προκύπτει όχι μόνο «θόρυβος» κατάτμησης αλλά και δειγματοληψία μη ομοιόμορφη ως προς το μήκος τόξου (arc length). Επίσης, αφού τα περιγράμματα των αντικειμένων περιγράφονται από κλειστές καμπύλες, ένα σημείο που κινείται κατά μήκος του περιγράμματος παράγει συντεταγμένες που είναι περιοδικές συναρτήσεις του μήκους τόξου. Έτσι μπορεί να επιλεγεί αυθαίρετα οποιοδήποτε σημείο ως αρχικό σημείο αναφοράς για την περιγραφή μιας περιόδου. Επιπλέον η φορά διαγραφής της καμπύλης μπορεί να είναι είτε αριστερόστροφη είτε δεξιόστροφη. Από την άλλη μεριά, οι μετασχηματισμοί συντεταγμένων οφείλονται στο γεγονός ότι οι εικόνες προέρχονται από την προβολή 3-Δ αντικειμένων σε ένα 2-Δ επίπεδο, προκαλώντας μη γραμμική προοπτική παραμόρφωση. Με την προϋπόθεση ότι ένα αντικείμενο είναι αρκετά μακριά από την κάμερα (σε σχέση βέβαια με το μέγεθος του αντικειμένου), η προοπτική παραμόρφωση μπορεί να προσεγγισθεί από ένα γραμμικό affine μετασχηματισμό. Το πρόβλημα λοιπόν είναι η κανονικοποίηση μιας καμπύλης και η εξαγωγή μιας αναπαράστασης η οποία, χωρίς απώλεια πληροφορίας σχήματος, να είναι αναλλοίωτη στους μετασχηματισμούς παραμέτρου αλλά και τους μετασχηματισμούς συντεταγμένων. Κεφάλαιο 9 Αναπαράσταση Περιγραμμάτων 95 Βήματα Κανονικοποίησης Οι μετασχηματισμοί παραμέτρου που οφείλονται στο θόρυβο κατάτμησης και στη μη ομοιόμορφη δειγματοληψία αντιμετωπίζονται στην προτεινόμενη μέθοδο με χρήση μοντέλων BSplines, όπως περιγράφεται στη συνέχεια. Στην πραγματικότητα μια ποσότητα πληροφορίας χάνεται κατά τη διαδικασία της μοντελοποίησης, αλλά κάτι τέτοιο είναι απαραίτητο για την απομάκρυνση του θορύβου και την απλοποίηση της καμπύλης, ώστε να αφαιρούνται οι λεπτομέρειες και να διατηρείται το συνολικό σχήμα. Τα υπόλοιπα όμως βήματα κανονικοποίησης είναι πλήρως αναστρέψιμα. Οι μετασχηματισμοί συντεταγμένων (affine) αναλύονται σε μετασχηματισμούς μετατόπισης, αλλαγής κλίμακας, κλίσης, περιστροφής και κατοπτρισμού. Η απαλοιφή των τριών πρώτων (μετατόπισης, αλλαγής κλίμακας και κλίσης) επιτυγχάνεται μέσω μιας διαδικασίας ορθοκανονικοποίησης (orthogonalization) που βασίζεται στις ροπές μέχρι δεύτερου βαθμού. Στη συνέχεια οι δύο τελευταίες (περιστροφή και κατοπτρισμός), καθώς και το σημείο αναφοράς και η φορά διαγραφής, απαλείφονται με μία διαδικασία κανονικοποίησης που βασίζεται στο μετασχηματισμό Fourier της καμπύλης. 9.4 B-SPLINES Μοντελοποίηση Τα B-Splines έχουν χρησιμοποιηθεί ευρέως για την ανάλυση και τη μοντελοποίηση σχημάτων διότι έχουν έναν αριθμό από σημαντικές ιδιότητες, όπως ομαλότητα (smoothness), συνέχεια (continuity), και δυνατότητα τοπικού ελέγχου (local controllability). Είναι επίσης φραγμένες συναρτήσεις (built-in boundedness), και έχουν δυνατότητα αναλλοίωτης περιγραφής ως προς affine μετασχηματισμούς [28]. Στην παρούσα εργασία τα B-Splines χρησιμοποιούνται για την ομαλή και συνεχή αναπαράσταση των καμπυλών, οι οποίες είναι διαθέσιμες ως διατεταγμένα σύνολα 2-Δ σημείων. Παρακάτω δίνεται μία συνοπτική περιγραφή του αναγκαίου υπόβαθρου για τη μοντελοποίηση καμπυλών με B-Splines και την προσαρμογή των B-Splines στο σύνολο σημείων που περιγράφουν την κάθε καμπύλη. Στη συνέχεια δίνεται μία μέθοδος ανακατανομής των σημείων ώστε να επιτυγχάνεται ομοιόμορφη δειγματοληψία ως προς το μήκος τόξου. Τα κυβικά B-Splines (cubic B-Splines) είναι σύνθετες καμπύλες που αποτελούνται από μεγάλο γενικά αριθμό τμημάτων (segments), τα οποία με τη σειρά τους περιγράφονται με μία υπέρθεση πολυωνύμων τρίτου βαθμού, ενώ στα σημεία σύνδεσης (connection points) των τμημάτων οι καμπύλες είναι C2 συνεχείς (C2 continuous). Δηλαδή όλες οι παράγωγοι ενός κυβικού B-Spline έως και δευτέρου βαθμού είναι συνεχείς. Γενικότερα, ένα B-Spline βαθμού k αποτελείται από τμήματα που εκφράζονται ως υπέρθεση πολυωνύμων βαθμού k και είναι C k -1 συνεχές στα σημεία σύνδεσης. Στη συνέχεια η ανάλυση περιορίζεται σε κυβικά B-Splines, αλλά μπορεί εύκολα να γενικευθεί για B-Splines αυθαίρετου βαθμού. Γίνεται επίσης η υπόθεση ότι είναι κλειστές καμπύλες, εφόσον περιγράφουν το κλειστό περίγραμμα αντικειμένων. Έστω ότι ένα κλειστό κυβικό B-Spline r αποτελείται από N συνδεδεμένα τμήματα ri , i = 0, ..., N - 1. Κάθε τέτοιο τμήμα παριστάνει ένα 2-Δ σημείο συναρτήσει μιας παραμέτρου u [0,1], δηλαδή ri (u) = (xi(u), yi(u)). Κάθε τμήμα ri εκφράζεται ως γραμμικός συνδυασμός τεσσάρων κυβικών πολυωνύμων: 96 ΜΕΡΟΣ III ri (u) = C i-1Q0 (u) + Ci Q1 (u) + Ci+1 Q2 (u) + Ci+2 Q3 (u), όπου Qk (u) = ak,0 u3 + ak,1 u2 + ak,2 u + ak,3 , k = 0, 1, 2, 3 Περιγραφή Σχήματος Αντικειμένων (9-1) i = 0, ..., N - 1 (9-2) Τα κυβικά πολυώνυμα Qk είναι γνωστά ως συναρτήσεις βάσης (basis functions). Επειδή πρόκειται για κλειστή καμπύλη, φαίνεται από την Εξίσωση (9-1) ότι ολόκληρο το B-Spline r, που αποτελείται από N τμήματα, περιγράφεται από τα N διδιάστατα σημεία Ci , i = 0, ..., N - 1. Τα σημεία αυτά ονομάζονται σημεία ελέγχου (control points). Από τους περιορισμούς C0, C1, και C2, συνέχειας στα σημεία σύνδεσης των τμημάτων, προκύπτουν 15 εξισώσεις των αγνώστων παραμέτρων ak που εμφανίζονται στην Εξίσωση (92). Για παράδειγμα, από τη C0 συνέχεια, ή συνέχεια θέσης, προκύπτει ri (1) = ri+1 (0), i = 0, ..., N - 1. Ένας ακόμη περιορισμός προκύπτει από το γεγονός ότι η καμπύλη r είναι αναλλοίωτη ως προς τους μετασχηματισμούς παραμέτρου: 3 k =0 Q k (u) = 1 , u [0,1] (9-3) Έτσι σχηματίζονται 16 συνολικά εξισώσεις που επιτρέπουν τον υπολογισμό των 16 παραμέτρων ak και επομένως τον πλήρη προσδιορισμό των συναρτήσεων βάσης Qk (u). Αφού προσδιορισθούν οι συναρτήσεις βάσης, είναι απαραίτητη η παραμετροποίηση ολόκληρης της καμπύλης με μία συνεχή παράμετρο για την περιγραφή του B-Spline. Για το λόγο αυτό χρησιμοποιείται η παράμετρος u που ορίζεται στο διάστημα [0, N]. Τότε για κάθε τμήμα i της καμπύλης ισχύει u = u + i, όπου u [0,1] είναι η παράμετρος του τμήματος i. Έτσι η καμπύλη του B-Spline μπορεί να εκφρασθεί ως γραμμικός συνδυασμός των τμημάτων ri (u) ως εξής: N -1 i =0 N -1 i =0 r( u) ri (u) = ri (u - i ) (9-4) όπου το ri (u - i) είναι μη μηδενικό για u [0,1], ή ισοδύναμα u [i, i+1]. Στις υπόλοιπες περιοχές του διαστήματος [0, N], δηλαδή για u [0, i) (i+1, N], ισχύει ri (u - i) = 0. Αντικαθιστώντας τώρα την Εξίσωση (9-1) στην (9-4) προκύπτει N +2 i =0 r( u) = C i Bi (u) (9-5) όπου τα Ci ορίζονται αρχικά για i = 0, ..., N - 1, και στη συνέχεια πραγματοποιείται περιοδική επέκταση έτσι ώστε C -1 = C N - 1 , C N = C 0 , C N + 1 = C 1 , και C N + 2 = C 2 . Οι συναρτήσεις Bi (u) ονομάζονται συναρτήσεις ανάμειξης (blending functions) [143] και ορίζονται ως εξής: Bi (u) = Q3 (u - i + 3), Q2 (u - i + 2 ), Q1 (u - i + 1), Q0 (u - i ), 0, i - 3 u < i - 2 i - 2 u < i - 1 i - 1 u < i i u < i + 1 αλλιώς (9-6) Με δεδομένα τα σημεία ελέγχου Ci μπορούν να ορισθούν τα κομβικά σημεία (knot points) pi , i = 0, ..., N - 1, τα οποία ταυτίζονται με τα σημεία σύνδεσης των τμημάτων της καμπύλης. Γενικά δηλαδή ισχύει pi = ri (0) = ri -1 (1) . Από τις Εξισώσεις (9-1) και (9-2), και με αντικατάσταση Κεφάλαιο 9 Αναπαράσταση Περιγραμμάτων 97 των πραγματικών τιμών των συντελεστών ak , προκύπτει ότι τα κομβικά σημεία δίνονται από την ακόλουθη σχέση: pi = 1 2 1 C i -1 + C i + C i + 1 , 6 3 6 i = 0, ..., N - 1 (9-7) Από την παραπάνω ανάλυση προκύπτει ότι διαφορετικά ζεύγη σημείων ελέγχου και κομβικών σημείων μπορούν να περιγράφουν την ίδια καμπύλη B-Spline. Εκτίμηση Σημείων Ελέγχου Όταν ένα περίγραμμα είναι διαθέσιμο ως διατεταγμένο σύνολο 2-Δ δεδομένων σημείων (data points), η μοντελοποίησή του με B-Splines πραγματοποιείται με την προσαρμογή (fitting) μιας καμπύλης B-Spline στα δεδομένα σημεία, δηλαδή με τον προσδιορισμό των σημείων ελέγχου από τα δεδομένα σημεία. Έστω ότι είναι διαθέσιμα M δεδομένα σημεία sj , j = 0, 1, ..., M - 1. Η εκτίμηση των σημείων ελέγχου γίνεται με τέτοιο τρόπο ώστε να ελαχιστοποιείται το μέσο τετραγωνικό σφάλμα μεταξύ των δεδομένων σημείων και της καμπύλης B-Spline: E2 = όπου M -1 j =0 s j - r(uj ) 2 (9-8) είναι η Ευκλείδεια νόρμα και τα uj , j = 0, ..., M - 1, είναι κατάλληλα επιλεγμένες τιμές της παραμέτρου u που ορίζονται παρακάτω. Αποδεικνύεται ότι τα σημεία ελέγχου που δίνουν το ελάχιστο μέσο τετραγωνικό σφάλμα (minimum mean square error, MMSE) δίνονται σε μορφή πίνακα από τη σχέση Cf = ( P T P ) - 1 P T f (9-9) όπου Cf και f είναι πίνακες διαστάσεων N 2 και M 2 αντίστοιχα, οι οποίοι περιέχουν τα σημεία ελέγχου Ci και τα δεδομένα σημεία sj αντίστοιχα. Ο πίνακας P, διαστάσεων M N, περιέχει τιμές των συναρτήσεων ανάμειξης στις επιλεγμένες τιμές uj της παραμέτρου u [12]: B0 ( u ) + BN ( u ) B0 ( u ) + B N ( u ) 0 0 1 1 B (u ) + B ) B1 ( u ) + B N + 1 ( u ) 1 0 1 1 N + 1 (u0 B2 ( u ) + BN + 2 ( u ) B 2 ( u ) + BN + 2 ( u ) 0 0 1 1 P= B3 ( u ) B3 ( u ) 0 1 BN - 1 ( u ) BN - 1 ( u ) 0 1 T B0 ( u - 1 ) + BN ( u M - 1 ) M B1 ( u - 1 ) + B N + 1 ( u - 1 ) M M B2 ( u - 1 ) + BN + 2 ( u M - 1 ) M B3 (u - 1 ) M BN - 1 ( u - 1 ) M (9-10) Επανερχόμενοι στις τιμές uj , j = 0, ..., M - 1, της παραμέτρου u, η εκτίμησή τους γίνεται με τη μέθοδο Chord Length (μήκος χορδής) ή CL. Σύμφωνα με τη μέθοδο αυτή, κάθε τιμή uj αντιστοιχίζεται σε ένα δεδομένο σημείο sj , j = 0, 1, ..., M - 1 με τέτοιο τρόπο ώστε η απόσταση μεταξύ των δύο σημείων της καμπύλης r(u ) , r(uj ) να προσεγγίζει την απόσταση μεταξύ των i δύο αντίστοιχων δεδομένων σημείων si , sj , για κάθε i, j = 0, 1, ..., M - 1. Πιο συγκεκριμένα, ορίζεται αρχικά u = 0 και u = N - 3. Στη συνέχεια, η τιμή uj που αντιστοιχεί στο σημείο 0 max sj , υπολογίζεται για j > 0 από την αναδρομική σχέση uj = uj -1 + u max s j - s j -1 l=2 m , j = 1, ..., M - 1 (9-11) s l - s l -1 98 ΜΕΡΟΣ III Περιγραφή Σχήματος Αντικειμένων Η μέθοδος βασίζεται στο γεγονός ότι το μήκος χορδής μεταξύ δύο σημείων της καμπύλης είναι πολύ καλή προσέγγιση του αντίστοιχου μήκους τόξου όταν τα σημεία είναι κοντά μεταξύ τους. Είναι ανθεκτική στον ομοιόμορφα κατανεμημένο θόρυβο αλλά δεν δίνει ικανοποιητικά αποτελέσματα όταν η δειγματοληψία των σημείων είναι ανομοιόμορφη, ή όταν υπάρχει ανομοιόμορφα κατανεμημένος θόρυβος. Εναλλακτικά μπορεί να χρησιμοποιηθεί η μέθοδος Inverse Chord Length (ICL) [56], η οποία δίνει καλύτερα αποτελέσματα στις περιπτώσεις αυτές. Ανακατανομή Κομβικών Σημείων Από την παραπάνω ανάλυση προκύπτει ότι το ταίριασμα δύο καμπυλών B-Splines δεν μπορεί να πραγματοποιηθεί με βάση τα σημεία ελέγχου, διότι διαφορετικά σύνολα σημείων ελέγχου μπορούν να περιγράφουν την ίδια ακριβώς καμπύλη. Για το λόγο αυτό χρησιμοποιούνται τα κομβικά σημεία pi , i = 0, ..., N - 1, τα οποία ανήκουν στην καμπύλη και μπορούν να υπολογισθούν από τα σημεία ελέγχου με χρήση της Εξίσωσης (9-7). Εναλλακτικά, τα κομβικά σημεία δίνονται σε μορφή πίνακα από τη σχέση pf = ACf κας A ορίζεται ως 2 3 1 6 0 0 1 6 2 3 1 6 0 A= 0 0 1 6 0 0 0 16 1 /6 0 2 / 3 (9-12) όπου ο pf είναι πίνακας διαστάσεων N 2 που περιέχει τα κομβικά σημεία, ενώ ο N N πίνα- (9-13) Πρέπει να σημειωθεί ότι, παρά το γεγονός ότι τα κομβικά σημεία ανήκουν στο B-Spline, δεν υπάρχει εγγύηση ότι δύο σύνολα κομβικών σημείων της ίδιας ή παρόμοιων καμπυλών BSplines αντιστοιχούν μεταξύ τους, ακόμη και αν περιέχουν το ίδιο πλήθος σημείων. Για να υπάρχει μια τέτοια αντιστοιχία πρέπει να πραγματοποιηθεί ανακατανομή (reallocation) των κομβικών σημείων με τέτοιο τρόπο ώστε να αντιστοιχούν σε ισαπέχουσες τιμές της παραμέτρου u σε κάθε καμπύλη. Το πρώτο κομβικό σημείο είναι το αρχικό σημείο ή σημείο αναφοράς και η επιλογή του είναι αρχικά αυθαίρετη. Στη συνέχεια, αφού πραγματοποιηθεί κανονικοποίηση του σημείου αναφοράς σύμφωνα με την προτεινόμενη μέθοδο που περιγράφεται στην Ενότητα 10.2, εκτελείται εκ νέου ανακατανομή κομβικών σημείων. Με την παραπάνω διαδικασία επιτυγχάνεται ομοιόμορφη δειγματοληψία ως προς το μήκος τόξου και σωστή αντιστοίχιση μεταξύ των κομβικών σημείων. Κεφάλαιο 10 Κανονικοποίηση Περιγραμμάτων Στο Κεφάλαιο αυτό περιγράφεται αναλυτικά η προτεινόμενη μέθοδος κανονικοποίησης των περιγραμμάτων που έχουν ήδη μοντελοποιηθεί με χρήση B-Splines. Στο πρώτο στάδιο, με χρήση ροπών μέχρι δεύτερου βαθμού πραγματοποιείται ορθοκανονικοποίηση, δηλαδή κανονικοποίηση ως προς τους μετασχηματισμούς μετατόπισης, αλλαγής κλίμακας και κλίσης (skew). Με την ορθοκανονικοποίηση οποιοσδήποτε affine μετασχηματισμός ανάγεται σε ορθογώνιο, δηλαδή σε μετασχηματισμό που περιλαμβάνει μόνο περιστροφή ή / και κατοπτρισμό. Στη συνέχεια με χρήση της φάσης κατάλληλων συντελεστών του μετασχηματισμού Fourier της καμπύλης (στην αναπαράστασή της με μιγαδικό διάνυσμα) κανονικοποιείται το σημείο αναφοράς της καμπύλης, το οποίο εν γένει μπορεί να διαφέρει λόγω μετασχηματισμού κυκλικής ολίσθησης. Στο τελευταίο στάδιο κανονικοποιείται η περιστροφή και ο κατοπτρισμός και πάλι με χρήση πληροφορίας του μετασχηματισμού Fourier. Σε όλα τα στάδια περιλαμβάνεται θεωρητική ανάλυση από την οποία προκύπτει ότι η αναπαράσταση των κανονικοποιημένων περιγραμμάτων είναι αναλλοίωτη στους affine μετασχηματισμούς και δεν προκαλεί απώλεια πληροφορίας αφού η διαδικασία κανονικοποίησης είναι αντιστρέψιμη. Παραδείγματα και πειραματικά αποτελέσματα της προτεινόμενης μεθόδου δίνονται στο Κεφάλαιο 11, μαζί με αντίστοιχα πειράματα ταξινόμησης και αναζήτησης με βάση το σχήμα αντικειμένων. 10.1 ΟΡΘΟΚΑΝΟΝΙΚΟΠΟΙΗΣΗ Μ ε τη χρήση των B-Splines για τη μοντελοποίηση των καμπυλών που προέρχονται από τα κλειστά περιγράμματα αντικειμένων, επιτυγχάνεται απλοποίηση του σχήματος των αντικειμένων, μείωση του θορύβου κατάτμησης, καθώς και ομοιόμορφη δειγματοληψία ως προς το μήκος τόξου. Στη συνέχεια ακολουθεί η κανονικοποίηση της κάθε καμπύλης, η οποία πλέον περιγράφεται από τα κομβικά της σημεία. Το πρώτο στάδιο της κανονικοποίησης είναι μία διαδικασία ορθοκανονικοποίησης (orthogonalization), η οποία κανονικοποιεί την καμπύλη ως προς τους μετασχηματισμούς μετατόπισης (translation), αλλαγής κλίμακας (scaling) και κλίσης (skew). Έτσι κάθε affine μετασχηματισμός ανάγεται ουσιαστικά σε ορθογώνιο (orthogonal) μετασχηματισμό, δηλαδή σε μετασχηματισμό που περιλαμβάνει μόνο περιστροφή (rotation) ή και κατοπτρισμό (reflection). Παρακάτω παρουσιάζεται αρχικά ο προτεινόμενος αλγόριθμος ορθοκανονικοποίησης, ενώ στη συνέχεια αποδεικνύεται ότι η αναπαράσταση της καμπύλης που προκύπτει είναι αναλλοίωτη στη μετατόπιση, την αλλαγή κλίμακας και την κλίση. Αλγόριθμος Ορθοκανονικοποίησης Έστω ότι si = [xi yi]T, i = 0, ..., N - 1, είναι τα N διδιάστατα σημεία που περιγράφουν μία καμπύλη και προκύπτουν από τη μοντελοποίηση με B-Splines, δηλαδή τα N κομβικά σημεία της 99 100 ΜΕΡΟΣ III Περιγραφή Σχήματος Αντικειμένων καμπύλης. Στο εξής θα χρησιμοποιείται ο 2 N πίνακας s = [s0 s1 ... s N -1 ] για την περιγραφή της καμπύλης, ο οποίος επιτρέπει εύκολο συμβολισμό των affine μετασχηματισμών που εμπλέκουν πολλαπλασιασμό με 2 2 πίνακες. Με όμοιο τρόπο η οριζόντια και κατακόρυφη συντεταγμένη των σημείων θα συμβολίζεται με το διάνυσμα x = [x0 x1 ... x N -1 ] και y = [y0 y1 ... y N -1 ] αντίστοιχα, διαστάσεων 1 N. Η ορθοκανονικοποίηση της καμπύλης βασίζεται στις ροπές έως και δευτέρου βαθμού, οι οποίες ορίζονται ως m p , q (s ) = 1 N N -1 i =0 xip y iq (10-1) όπου mp,q (s) είναι η ροπή βαθμού (p,q) της καμπύλης s. Χωρίς βλάβη της γενικότητας γίνεται στη συνέχεια η υπόθεση ότι τα σημεία si , i = 0, ..., N - 1 δεν είναι συγγραμμικά, έτσι ώστε m2,0 0 και m0,2 0. Σε μια τέτοια περίπτωση, τα βήματα κανονικοποίησης που εμπλέκουν διαίρεση με το μηδέν παραλείπονται. Η διαδικασία ορθοκανονικοποίησης αποτελείται από μια σειρά γραμμικών μετασχηματισμών (μετατόπιση, αλλαγή κλίμακας και περιστροφή), οι οποίοι είναι ανεξάρτητοι από το σημείο αναφοράς και γενικότερα από τη σειρά των σημείων στην καμπύλη. Για απλότητα συμβολισμών, η πρόσθεση ή αφαίρεση ενός βαθμωτού από ένα διάνυσμα θα συμβολίζει στην παρακάτω ανάλυση την πρόσθεση ή αφαίρεση του βαθμωτού από όλα τα στοιχεία του διανύσματος. Συγκεκριμένα πραγματοποιούνται τα παρακάτω βήματα κανονικοποίησης: (α) Το κέντρο βάρους της καμπύλης κανονικοποιείται ώστε να συμπίπτει με την αρχή των αξόνων: x1 = x - μx , y1 = y - μy (10-2α) όπου μx = m1,0 (s), μy = m0,1 (s). (β) Η κλίμακα της καμπύλης μεταβάλλεται οριζόντια και κατακόρυφα ώστε οι ροπές δευτέρου βαθμού να κανονικοποιηθούν στη μονάδα: x2 = σx x1 , όπου σx = 1 y2 = σy y1 m0 , 2 ( s 1 ) . (10-2β) m2 , 0 (s 1 ) , σy = 1 (γ) Η καμπύλη περιστρέφεται αριστερόστροφα κατά γωνία θ0 = π/4: s3 = Rπ/4 s2 = 1 x 2 - y 2 2 x 2 + y 2 (10-2γ) όπου Rθ είναι ένας 2 2 πίνακας που αντιστοιχεί σε αριστερόστροφη περιστροφή κατά θ ακτίνια. (δ) Τέλος η κλίμακα της καμπύλης μεταβάλλεται πάλι, ακριβώς όπως στο βήμα (β): x4 = τx x3 , όπου τx = 1 y4 = τy y3 m2 , 0 (s 3 ) , τy = 1 m 0 , 2 (s 3 ) . (10-2δ) Η ορθοκανονικοποιημένη καμπύλη ορίζεται ως na (s) s4 , ενώ τα παραπάνω βήματα κανονικοποίησης συνοψίζονται σε μορφή πινάκων ως εξής: na (s) = N(s) (s - μ(s)) = 1 τ x 2 0 0 1 - 1 σ x τ y 1 1 0 0 x - μx σ y y - μy (10-3) Κεφάλαιο 10 Κανονικοποίηση Περιγραμμάτων 101 όπου μ(s) = [m1,0 (s) m0,1 (s)]T = [μx μy]T και ο 2 2 πίνακας N(s) ονομάζεται πίνακας ορθοκανονικοποίησης της καμπύλης s. Παρά το γεγονός ότι η εξάρτηση των παραμέτρων μx , μy , σx , σy , τx , τy , από την s παραλήφθηκε για απλότητα συμβολισμών, ο πίνακας ορθοκανονικοποίησης εξακολουθεί να είναι συνάρτηση της s. Από τις Εξισώσεις 10-2α,β προκύπτει ότι η καμπύλη s2 που δημιουργείται στο βήμα κανονικοποίησης (β) ικανοποιεί τις συνθήκες m1,0 (s2) = m0,1 (s2) = 0 και m2,0 (s2) = m0,2 (s2) = 1. Τα επιπλέον βήματα κανονικοποίησης (γ), (δ) απαιτούνται ώστε να ισχύει και η επιπρόσθετη συνθήκη m1,1 (na (s)) = 0. Η παρακάτω Πρόταση συνοψίζει τις αναγκαίες και ικανές συνθήκες για να είναι μια καμπύλη ορθοκανονικοποιημένη: ΠΡΟΤΑΣΗ 10-1. Για κάθε αρχική καμπύλη s, η ορθοκανονικοποιημένη καμπύλη na (s) που ορίζεται στην Εξίσωση (10-3) ικανοποιεί τις παρακάτω συνθήκες: m1,0 (na (s)) = m0,1 (na (s)) = m1,1 (na (s)) = 0 m2,0 (na (s)) = m0,2 (na (s)) = 1 στο βήμα (γ) της κανονικοποίησης είναι ίση με kπ/2 + π/4, k Ζ. (10-4α) (10-4β) Επιπλέον, οι παραπάνω συνθήκες ικανοποιούνται αν και μόνο αν η γωνία θ0 που χρησιμοποιείται Η απόδειξη της Πρότασης δίνεται στην Ενότητα 10.5. Οι συνθήκες (10-4) πρακτικά σημαίνουν ότι ο 2 N πίνακας που αναπαριστά την καμπύλη na (s) είναι ορθογώνιος, δηλαδή na (s)(na (s))Τ = Ι2 , όπου Ι2 είναι ο 2 2 μοναδιαίος πίνακας. Σαν συνέπεια, αποδεικνύεται παρακάτω ότι αυτού του είδους η κανονικοποίηση ανάγει έναν αυθαίρετο affine μετασχηματισμό σε ορθογώνιο, απαλείφοντας έτσι τη μετατόπιση, την αλλαγή κλίμακας και την κλίση (skew). Επιπλέον, η διαδικασία ορθοκανονικοποίησης είναι και η ίδια ένας affine μετασχηματισμός, όπως φαίνεται στην (10-2). Έτσι δεν υφίσταται απώλεια πληροφορίας· η αρχική καμπύλη s μπορεί να ανακατασκευασθεί με την εφαρμογή του αντίστροφου μετασχηματισμού. Κανονικοποίηση Μετατόπισης, Κλίμακας και Κλίσης Ας θεωρήσουμε τώρα δύο καμπύλες s, s που σχετίζονται μέσω ενός affine μετασχηματισμού: x a b x t x s = As + t = = + y c d y t y (10-5) όπου ο πίνακας A είναι ομαλός. Στην αντίθετη περίπτωση όπου detA = 0, κάθε 2-Δ σημείο απεικονίζεται σε μία ευθεία γραμμή και η κανονικοποίηση είναι αδύνατη. Παρατηρούμε ότι μ(s) = Aμ(s) + t, έτσι ώστε s = s - μ(s) = Α(s - μ(s)) = Αs1 . Δηλαδή μετά το βήμα (α) της κα1 νονικοποίησης μετατόπισης, οι καμπύλες s1 και s σχετίζονται μέσω ενός πολλαπλασιασμού 1 με τον 2 2 πίνακα Α. Προκύπτει τότε ότι η σχέση μεταξύ των ροπών των δύο καμπυλών δίνεται από τις Εξισώσεις m2,0 ( s ) = a2 m2,0 (s1) + b2 m0,2 (s1) + 2ab m1,1 (s1) 1 m0,2 ( s ) = c2 m2,0 (s1) + d2 m0,2 (s1) + 2cd m1,1 (s1) 1 m1,1 ( s ) = ac m2,0 (s1) + bd m0,2 (s1) + (ad + bc) m1,1 (s1) 1 νω Εξισώσεις καταλήγουν στις (10-6α) (10-6β) (10-6γ) Αν η s1 είναι ορθοκανονικοποιημένη, δηλαδή ικανοποιεί τις συνθήκες (10-4), τότε οι παραπά- 102 m2,0 ( s ) = a2 + b2 1 m0,2 ( s ) = c2 + d2 1 m1,1 ( s ) = ac + bd 1 ΜΕΡΟΣ III Περιγραφή Σχήματος Αντικειμένων (10-7α) (10-7β) (10-7γ) Αυτό σημαίνει, για παράδειγμα, ότι όταν μία ορθοκανονικοποιημένη καμπύλη περιστρέφεται ή κατοπτρίζεται, στην οποία περίπτωση ο A είναι ορθογώνιος, τότε η καμπύλη παραμένει ορθοκανονικοποιημένη. Αντίστροφα, αν και οι δύο καμπύλες είναι ορθοκανονικοποιημένες, τότε ο A πρέπει να είναι ορθογώνιος. Με αυτή την έννοια, η Πρόταση 10-2, που αποδεικνύεται στην Ενότητα 10.5, εκφράζει τη σχέση μεταξύ δύο ορθοκανονικοποιημένων καμπυλών όταν είναι γνωστή η σχέση μεταξύ των αντίστοιχων αρχικών καμπυλών: ΠΡΟΤΑΣΗ 10-2. Αν δύο καμπύλες s, s σχετίζονται μέσω ενός affine μετασχηματισμού, υπάρχει ένας ορθογώνιος 2 2 πίνακας Q τέτοιος ώστε na (s) = Q na (s) (10-8) n Επιπλέον, η ίδια σχέση ισχύει μεταξύ της na (s) και μιας κανονικοποιημένης καμπύλης ~a (s) που παράγεται από οποιαδήποτε διαδικασία κανονικοποίησης η οποία βασίζεται στις ιδιότητες (10-4). Έτσι η προτεινόμενη διαδικασία ορθοκανονικοποίησης ανάγει τους affine μετασχηματισμούς σε ορθογώνιους μετασχηματισμούς, οι οποίοι περιέχουν μόνο περιστροφή ή / και κατοπτρισμό (ανάλογα με το αν detQ = 1 ή detQ = -1). Οι ορθοκανονικοποιημένες καμπύλες είναι λοιπόν αναλλοίωτες στους μετασχηματισμούς μετατόπισης, αλλαγής κλίμακας και κλίσης (skew). Είναι αξιοσημείωτο ότι η διαδικασία ορθοκανονικοποίησης πραγματοποιείται χωρίς γνώση των παραμέτρων του affine μετασχηματισμού και χωρίς ταίριασμα μεταξύ των δύο καμπυλών s, s, δηλαδή η s κανονικοποιείται χωρίς γνώση της s και αντίστροφα. Σημειώνεται επίσης ότι οι παράμετροι μετασχηματισμού { μx , μy , σx , σy , τx , τy } υπολογίζονται άμεσα από τις ροπές της καμπύλης μέχρι και δευτέρου βαθμού. Επιπλέον, αυτό το σύνολο παραμέτρων μαζί με την na (s) περιέχουν όλη την πληροφορία της αρχικής καμπύλης s· παρά το γεγονός ότι η na (s) ικανοποιεί πέντε μόνο περιοριστικές συνθήκες (10-4), οι παράμετροι είναι έξι διότι οι τx 2 2 και τx συνδέονται με τη σχέση 1 / τ x + 1 / τ y = 1 . Ο μετασχηματισμός (10-3) είναι αντιστρέψι- μος και επομένως αν οι παράμετροί του είναι γνωστοί, η αρχική καμπύλη s μπορεί να ανακατασκευασθεί από την na (s) με την εφαρμογή του αντίστροφου μετασχηματισμού. Έτσι επιβεβαιώνεται η μοναδικότητα και η πληρότητα της na (s), αφού περιέχει όλη την πληροφορία σχήματος της s, εκτός από το μετασχηματισμό στον οποίο είναι αναλλοίωτη. Οι ιδιότητες αυτές είναι πολύτιμες για την ακριβή σύγκριση καμπυλών, με εφαρμογές στην ταξινόμηση, την αναγνώριση και την αναζήτηση με βάση το σχήμα. Επιπλέον, αφού η διαδικασία κανονικοποίησης δεν βασίζεται στο ταίριασμα καμπυλών, μπορεί να χρησιμοποιηθεί οποιαδήποτε μέθοδος ταξινόμησης, συμπεριλαμβανομένων για παράδειγμα των νευρωνικών δικτύων. Τέλος, όπως επιδεικνύεται στα πειράματα, η προτεινόμενη μέθοδος κανονικοποίησης είναι ιδιαίτερα ανθεκτική στο θόρυβο (ο οποίος μπορεί να προέρχεται από την κατάτμηση ή τη δειγματοληψία) και στις ανομοιότητες ή παραμορφώσεις καμπυλών. Τούτο είναι αναμενόμενο αφού η μέθοδος βασίζεται σε ολικά (global) χαρακτηριστικά, όπως είναι οι ροπές των καμπυλών. Κεφάλαιο 10 Κανονικοποίηση Περιγραμμάτων 103 10.2 ΚΑΝΟΝΙΚΟΠΟΙΗΣΗ ΣΗΜΕΙΟΥ ΑΝΑΦΟΡΑΣ Στο σημείο αυτό έχει επιτευχθεί η αναγωγή των affine μετασχηματισμών σε ορθογώνιους· θα ήταν επαρκές λοιπόν να βρεθεί ένας μετασχηματισμός που να είναι αναλλοίωτος στην περιστροφή και τον κατοπτρισμό. Η συνολική κανονικοποίηση (δηλαδή ορθοκανονικοποίηση και κανονικοποίηση περιστροφής και κατοπτρισμού) θα ήταν αναλλοίωτη σε οποιοδήποτε affine μετασχηματισμό. Όμως, σε αντίθεση με την ορθοκανονικοποίηση, η διαδικασία κανονικοποίησης περιστροφής και κατοπτρισμού εμπλέκει ποσότητες που εξαρτώνται από το επιλεγμένο σημείο αναφοράς της κλειστής καμπύλης, και γενικότερα από τη σειρά εμφάνισης των σημείων στην καμπύλη. Για παράδειγμα, η εκτίμηση περιστροφής εξαρτάται από το σημείο αναφοράς ενώ η εκτίμηση κατοπτρισμού εξαρτάται από την περιστροφή. Αυτό συμβαίνει διότι η περιστροφή και το αρχικό σημείο αναφοράς είναι αλληλένδετες έννοιες· στην ειδική περίπτωση μάλιστα ενός κυκλικού σχήματος ταυτίζονται απόλυτα. Για τον παραπάνω λόγο πραγματοποιείται πρώτα κανονικοποίηση του σημείου αναφοράς, ενώ η κανονικοποίηση περιστροφής και κατοπτρισμού έπεται στη συνέχεια. Στην ανάλυση που ακολουθεί, η κανονικοποίηση βασίζεται στο διακριτό μετασχηματισμό Fourier των σημείων της καμπύλης. Εξ’ ορισμού ο μετασχηματισμός αυτός εξαρτάται από το σημείο αναφοράς σε αντίθεση με τις ροπές οι οποίες είναι αναλλοίωτες. Για το σκοπό αυτό δεν χρησιμοποιείται πλέον συμβολισμός πινάκων για τις καμπύλες, αλλά μιγαδικών διανυσμάτων. Συγκεκριμένα, η οριζόντια και κατακόρυφη συντεταγμένη των σημείων της καμπύλης εξακολουθεί να συμβολίζεται με το διάνυσμα x = [x0 x1 ... x N -1 ] και y = [y0 y1 ... y N -1 ], διαστάσεων N 1, αντίστοιχα· όμως η καμπύλη ως σύνολο συμβολίζεται με το μιγαδικό διάνυσμα z = x +jy = [z0 ... zN -1 ]T, διαστάσεων επίσης N 1, όπου το zi = xi +jyi , i = 0, 1, ..., N - 1, υποδηλώνει το i-οστό σημείο της καμπύλης. Η διαδικασία κανονικοποίησης σημείου αναφοράς βασίζεται στο διακριτό μετασχηματισμό Fourier. Για μια καμπύλη N σημείων που αναπαρίσταται από το μιγαδικό διάνυσμα z, ο μετασχηματισμός αυτός ορίζεται ως w 0 0 w u = (z) = W z = 0 w w0 w 1 w N -1 w ( N - 1) 2 w w0 N -1 z0 z 1 z N -1 (10-9) όπου w = ej2π/N, έτσι ώστε wkN = 1, k Z. Ισοδύναμα, uk = N -1 i =0 zi w - ki , k = 0, ..., N - 1 (10-10) Για κάθε στοιχείο uk , k = 0, ..., N - 1, του μετασχηματισμού Fourier ορίζεται το πρωτεύον όρισμα (primary argument), ή φάση (phase), ak = Arg uk = θ [0, 2π): uk = r ejθ, όπου r . Σχηματίζεται έτσι ένα διάνυσμα φάσης (phase vector) a = Arg u = [a0 ... aN -1 ]. Θεωρούμε τώρα μία δεύτερη καμπύλη z = [ z 0 z - 1 ] η οποία είναι ίδια με τη z εκτός από το σημείο αναφοράς, δηλαδή N το διάνυσμα z έχει υποστεί κυκλική ολίσθηση (circular shift) σε σχέση με το z κατά m στοιχεία, όπου m {0, ..., N - 1}: z = Sm (z): zi = z(i+m) mod N , i = 0, ..., N - 1 (10-11) + 104 ΜΕΡΟΣ III Περιγραφή Σχήματος Αντικειμένων Τότε, αν ορίσουμε με όμοιο τρόπο u = (z) και a = Arg u, αποδεικνύεται ότι u = wkm uk , k k = 0, ..., N - 1, ή ισοδύναμα a = (ak + 2πkm/N) mod 2π, k k = 0, ..., N - 1 (10-12) Φαίνεται δηλαδή ότι η κυκλική ολίσθηση μεταξύ των z και z ανάγεται στην πολύ απλή γραμμική σχέση (10-12) μεταξύ των αντίστοιχων διανυσμάτων φάσης a και a. Αν και οι δύο καμπύλες z και z ήταν ταυτόχρονα γνωστές, το ταίριασμά τους θα ήταν εφικτό με την εκτίμηση του m από την Εξίσωση (10-12) και την εφαρμογή της αντίθετης κυκλικής ολίσθησης στην z. Τούτο όμως δεν είναι δυνατό για μία μέθοδο κανονικοποίησης, στην οποία μία μόνο καμπύλη είναι γνωστή κάθε φορά. Ακόμη και αν είναι γνωστές και οι δύο καμπύλες, το m μπορεί να εκτιμηθεί μόνο αν οι καμπύλες αυτές προέρχονται από την ίδια ακριβώς καμπύλη με εφαρμογή διαφορετικής κυκλικής ολίσθησης. Σε κάθε άλλη περίπτωση, τα διανύσματα φάσης είναι τόσο θορυβώδη που η (10-12) δεν μπορεί να δώσει καμία χρήσιμη πληροφορία. Για τους παραπάνω λόγους προτείνεται η εκτίμηση μίας πρότυπης κυκλικής ολίσθησης για κάθε καμπύλη, η οποία βασίζεται στη διαφορά μεταξύ του πρώτου και του τελευταίου στοιχείου του διανύσματος φάσης: N ( a1 - a N -1 ) mod N/2 p(z) = 4π np(z) = S- p(z ) (z) (10-13) και στη συνέχεια η εφαρμογή της αντίθετης ολίσθησης για την κανονικοποίηση της καμπύλης: (10-14) Είναι εμφανές από την (10-12) ότι η διαφορά δύο διαδοχικών στοιχείων του a, για παράδειγμα a - a , σχετίζεται με την αντίστοιχη διαφορά a2 - a1 μέσω μιας απλής άθροισης με την 2 1 σταθερά 2πm/N, modulo 2π. Έτσι, αν a2 - a1 = 0, μπορούμε να εκτιμήσουμε άμεσα το m από τη διαφορά a - a , διαιρώντας δια 2π/Ν και στη συνέχεια υπολογίζοντας το modulo N του α2 1 ποτελέσματος. Για την επιλογή της πρώτης και της τελευταίας φάσης όμως, η οποία δικαιολογείται παρακάτω, τα στοιχεία a1 και aN -1 δεν είναι διαδοχικά· απέχουν κατά δύο θέσεις αφού οι συντελεστές Fourier είναι περιοδικοί με περίοδο Ν. Έτσι στην περίπτωση αυτή απαιτείται επιπλέον διαίρεση δια 2. Οι παραπάνω συλλογισμοί εξηγούν τον ορισμό του p(z), όπου το ακέραιο μέρος είναι απαραίτητο αφού η κυκλική ολίσθηση γίνεται πάντα κατά ακέραιο αριθμό στοιχείων (αλλιώς απαιτείται νέα δειγματοληψία της καμπύλης). Αποδεικνύεται ότι αν το N είναι άρτιο, η κανονικοποίηση (10-14) είναι αναλλοίωτη στο σημείο αναφοράς, με εξαίρεση μία αβεβαιότητα στην πρότυπη κυκλική ολίσθηση, που μπορεί να προκαλέσει μία επιπλέον ολίσθηση κατά N/2 δείγματα. Αν το N είναι περιττό, μία επιπρόσθετη ολίσθηση κατά ±1 δείγματα είναι επίσης πιθανή μεταξύ np(z) και np(z). Τα συμπεράσματα αυτά συνοψίζονται στην ακόλουθη Πρόταση, η οποία αποδεικνύεται στην Ενότητα 10.5: Κεφάλαιο 10 Κανονικοποίηση Περιγραμμάτων 105 ΠΡΟΤΑΣΗ 10-3. Αν δύο καμπύλες z, z σχετίζονται μέσω ενός μετασχηματισμού κυκλικής ολίσθησης κατά m δείγματα, δηλαδή z = Sm (z), τότε p(z) = (p(z) + m) mod N/2 p(np (z)) = p(np (z)) = 0 0 p( z ) + m < N / 2 np ( z ), np (z) = SN / 2 ( np ( z )), N / 2 p( z ) + m < N όπου οι p(z) και np (z) ορίζονται στις (10-13) και (10-14) αντίστοιχα. (10-15α) (10-15β) (10-15γ) Παρατηρείται ότι η αθροιστική σχέση (10-15α) οδηγεί στην κανονικοποίηση σημείου αναφοράς αν επιβάλλουμε ­ μέσω της κυκλικής ολίσθησης (10-14) ­ στις κανονικοποιημένες καμπύλες να ικανοποιούν τη συνθήκη (10-15β), ακριβώς όπως οι καμπύλες ορθοκανονικοποιούνται όταν ικανοποιούν τις ανάλογες συνθήκες (10-4). Παρατηρείται επίσης ότι η συνθήκη (10-15β) είναι ισοδύναμη με το να επιβάλλουμε στους συντελεστές Fourier u1 και uN -1 να έχουν την ίδια φάση. Θα φανεί παρακάτω ότι αν επιπλέον η φάση αυτή είναι μηδενική, ώστε τα u1 και uN -1 να είναι πραγματικοί και θετικοί αριθμοί, τότε επιτυγχάνεται ταυτόχρονα και κανονικοποίηση περιστροφής. Επειδή η (10-15α) ισχύει για modulo N/2 και όχι για modulo N, απόλυτη κανονικοποίηση σημείου αναφοράς επιτυγχάνεται μόνο για 0 p(z) + m N/2. Στην αντίθετη περίπτωση, προκύπτει μία επιπλέον κυκλική ολίσθηση κατά N/2 δείγματα στην (10-15γ). Η αβεβαιότητα αυτή οφείλεται στην επιλογή των συντελεστών u1 και uN -1 και μπορεί να αρθεί μόνο έπειτα από την κανονικοποίηση περιστροφής, όπως εξηγείται παρακάτω. Παρά το γεγονός ότι η επιλογή δύο διαδοχικών συντελεστών , όπως για παράδειγμα των a1 και a2 , θα είχε ως αποτέλεσμα την απόλυτη κανονικοποίηση σημείου αναφοράς, χωρίς καμία αβεβαιότητα, η προτεινόμενη επιλογή (10-13) έχει δύο σημαντικά πλεονεκτήματα. Πρώτον, επιτρέπει την επιτυχή ανίχνευση συμμετριών κατοπτρισμού (reflectional symmetries), και δεύτερον (και σημαντικότερο) καθιστά την κανονικοποίηση ανθεκτική στο θόρυβο και στις παραμορφώσεις σχήματος, όπως επιδεικνύεται και στα πειράματα. Για παράδειγμα, η επιλογή των a1 και a2 δίνει τελείως διαφορετική, και στην ουσία τυχαία, εκτίμηση του σημείου αναφοράς για δύο καμπύλες που διαφέρουν σε μικρό βαθμό μεταξύ τους. Η προτεινόμενη επιλογή των a1 και aN -1 έχει επίσης χρησιμοποιηθεί στην εργασία [100] για την ανίχνευση του σημείου αναφοράς σε καμπύλες που περιγράφουν γραμμικά πρότυπα σχημάτων, όπως π.χ. περιγράμματα χαρακτήρων. Η χρήση άλλων συντελεστών Fourier είναι επίσης δυνατή [84]. Ο αυτόματος προσδιορισμός κατάλληλων συντελεστών βασίζεται συνήθως και στο μέτρο τους εκτός από τη φάση και μπορεί να αντιμετωπίσει καλύτερα περιπτώσεις κυκλικής συμμετρίας (rotational symmetry) [81,115] με αυξημένο βέβαια υπολογιστικό κόστος. Όμως, τέτοιες περιπτώσεις είναι σπάνιες σε πραγματικές εφαρμογές και η απόδοση της προτεινόμενης κανονικοποίησης είναι ικανοποιητική για φυσικές εικόνες, όσον αφορά στην ταχύτητα και την ποιότητα των αποτελεσμάτων. 10.3 ΚΑΝΟΝΙΚΟΠΟΙΗΣΗ ΠΕΡΙΣΤΡΟΦΗΣ ΚΑΙ ΚΑΤΟΠΤΡΙΣΜΟΥ Ας υποθέσουμε ότι δύο αρχικές καμπύλες έχουν ορθοκανονικοποιηθεί και στη συνέχεια κανονικοποιηθεί ως προς το σημείο αναφοράς. Έστω λοιπόν ότι οι κανονικοποιημένες καμπύλες 106 ΜΕΡΟΣ III Περιγραφή Σχήματος Αντικειμένων συμβολίζονται s και s. Σύμφωνα με την Πρόταση 10-2, οι κανονικοποιημένες καμπύλες θα ικανοποιούν τη σχέση s = Q s, όπου Q είναι ένας ορθογώνιος πίνακας διαστάσεων 2 2. Τότε ο πίνακας Q μπορεί με μοναδικό τρόπο να αναλυθεί σε γινόμενο ενός πίνακα περιστροφής (rotation matrix) και ενός πίνακα κατοπτρισμού (reflection matrix): q 11 Q= q 21 q 12 cos θ = q 22 sin θ - sin θ cos θ s x 0 0 sy (10-16) όπου θ [0, π), sx = ±1, και sy = ±1, έτσι ώστε να υπάρχει ένα-προς-ένα απεικόνιση μεταξύ των παραμέτρων αυτών και των στοιχείων του πίνακα Q. Με άλλα λόγια, ο πίνακας Q αντιστοιχεί με μοναδικό τρόπο σε μία περιστροφή μεταξύ 0 και π ακτινίων, καθώς και σε ένα πιθανό οριζόντιο και / ή κατακόρυφο κατοπτρισμό. Για απλότητα υιοθετείται και πάλι ο συμβολισμός μιγαδικών διανυσμάτων z, z για τις καμπύλες s και s αντίστοιχα. Έτσι, με χρήση της Εξίσωσης (10-16), η σχέση s = Q s γράφεται για τα μιγαδικά διανύσματα ως εξής: z = (sx x + j sy y) ejθ (10-17) όπου z = x + j y. Η παραπάνω σχέση οδηγεί άμεσα στην κανονικοποίηση περιστροφής και κατοπτρισμού, η οποία αποτελείται από δύο βήματα. Στο πρώτο βήμα πραγματοποιείται η κανονικοποίηση περιστροφής και στο δεύτερο η κανονικοποίηση κατοπτρισμού. Η διαδικασία ορίζεται παρακάτω για την καμπύλη z, και μπορεί με όμοιο τρόπο να εφαρμοσθεί και στην z. Όπως και στην περίπτωση του σημείου αναφοράς, η κανονικοποίηση περιστροφής βασίζεται στο πρώτο και τελευταίο στοιχείο, a1 και aN -1 , του διανύσματος φάσης a = Arg(z) = [a0 ... aN -1 ] της z. Αντίθετα η κανονικοποίηση κατοπτρισμού βασίζεται στις ροπές τρίτου βαθμού. Αναλυτικότερα, τα βήματα κανονικοποίησης είναι τα εξής: (α) Η περιστροφή της καμπύλης z κανονικοποιούνται σύμφωνα με τη μέση τιμή των στοιχείων a1 και aN -1 : 1 r ( z ) = ( a1 + aN - 1 ) mod π 2 z1 = z e - jr (z ) ακόλουθες ροπές τρίτου βαθμού της καμπύλης z1 : v(z1) = vx (z1) + j vy (z1) = sgnm1,2 (z1) + j sgnm2,1 (z1) nr (z) = z2 = vx (z1) x1 + j vy (z1) y1 όπου sgn() υποδηλώνει τη συνάρτηση προσήμου (signum function). Παρατηρείται ότι ακριβώς όπως στην περίπτωση του σημείου αναφοράς, πραγματοποιείται και εδώ η εκτίμηση μίας πρότυπης περιστροφής r(z) και κατοπτρισμού v(z1) και στη συνέχεια εφαρμόζεται ο αντίστροφος μετασχηματισμός. Σημειώνεται ότι ισοδύναμα θα ήταν επαρκής ο ορισμός r(z) = a1 . Ο ορισμός (10-18α) όμως έχει την επιπρόσθετη ιδιότητα ότι απαλείφει την επίδραση του σημείου αναφοράς που δίνεται στην Εξίσωση (10-12), έτσι ώστε η διαδικασία κανονικοποίησης περιστροφής να είναι αναλλοίωτη στο σημείο αναφοράς, όπως εξηγείται παρακάτω. Όμοια με τη διαδικασία ορθοκανονικοποίησης, μπορεί να αποδειχθεί η μοναδικότητα και η πληρότητα της nr (z), δηλαδή ότι η nr (z) είναι αναλλοίωτη στους μετασχηματισμούς περιστροφής και κατοπτρισμού διατηρώντας (10-19α) (10-19β) (10-18α) (10-18β) (β) Ο οριζόντιος και κατακόρυφος κατοπτρισμός κανονικοποιούνται σύμφωνα με τις Κεφάλαιο 10 Κανονικοποίηση Περιγραμμάτων 107 παράλληλα όλη την πληροφορία σχήματος εκτός από τους μετασχηματισμούς στους οποίους είναι αναλλοίωτη. Συγκεκριμένα, στην Ενότητα 10.5 αποδεικνύεται η ακόλουθη Πρόταση: ΠΡΟΤΑΣΗ 10-4. Αν δύο καμπύλες s, s σχετίζονται μέσω ενός ορθογώνιου μετασχηματισμού, δηλαδή s = Q s, όπου Q είναι ένας ορθογώνιος πίνακας διαστάσεων 2 2 που αναλύεται σε γινόμενο ενός πίνακα περιστροφής και ενός πίνακα κατοπτρισμού σύμφωνα με την (10-16), τότε για τις αναπαραστάσεις μιγαδικών διανυσμάτων z, z των καμπυλών ισχύουν τα ακόλουθα: r(z) = (λr(z) + θ) mod π r(nr (z)) = r(nr (z)) = 0 vx (nr (z)) = vy (nr (z)) = vx (nr (z)) = vy (nr (z)) = 1 nr (z) = nr (z) όπου λ = sx sy = ±1 και οι ποσότητες θ, sx , sy ορίζονται στην (10-16). (10-20α) (10-20β) (10-20γ) (10-20δ) Σημειώνεται ότι όπως και η ορθοκανονικοποίηση και η κανονικοποίηση σημείου αναφοράς πραγματοποιούνται βάσει των συνθηκών (10-4) και (10-15β) αντίστοιχα, έτσι και οι μετασχηματισμοί περιστροφής και κατοπτρισμού απαλείφονται με τέτοιο τρόπο ώστε οι κανονικοποιημένες καμπύλες να ικανοποιούν τις συνθήκες (10-20β) και (10-20γ) αντίστοιχα. Επιπρόσθετα, όπως και στην ορθοκανονικοποίηση, το σύνολο των παραμέτρων {r(z), vx (z), vy (z)} μαζί με την κανονικοποιημένη καμπύλη nr (z) περιέχουν όλη την πληροφορία της αρχικής καμπύλης z, έτσι ώστε η τελευταία να μπορεί να ανακατασκευασθεί πλήρως με την εφαρμογή του αντίστροφου μετασχηματισμού. Συμπεραίνεται επίσης στην απόδειξη της Πρότασης 10-4 ότι η παραπάνω διαδικασία κανονικοποίησης περιστροφής / κατοπτρισμού δεν εξαρτάται από το επιλεγμένο σημείο αναφοράς, δηλαδή nr (Sm (z)) = Sm (nr (z)) για κάθε m {0, ..., N - 1}, ακριβώς όπως na (Sm (s)) = Sm (na (s)). Έτσι η κανονικοποίηση περιστροφής και κατοπτρισμού θα μπορούσε να εφαρμοσθεί ακόμη και πριν από την κανονικοποίηση αρχικού σημείου αναφοράς. Σε κάθε περίπτωση όμως ο κατοπτρισμός κανονικοποιείται μετά την περιστροφή. 10.4 ΤΕΛΙΚΑ ΣΤΑΔΙΑ ΚΑΝΟΝΙΚΟΠΟΙΗΣΗΣ Είναι αξιοσημείωτο ότι συνδυάζοντας τα αποτελέσματα των Προτάσεων 10-2 και 10-4, συμπεραίνεται ότι μία ορθοκανονικοποιημένη καμπύλη η οποία κανονικοποιείται επίσης ως προς περιστροφή και κατοπτρισμό, δηλαδή η nr (na (z)), είναι αναλλοίωτη σε οποιοδήποτε affine μετασχηματισμό. Η ανθεκτικότητα της κανονικοποίησης περιστροφής και κατοπτρισμού στο θόρυβο και την παραμόρφωση των καμπυλών επιδεικνύεται στα πειράματα της Ενότητας 11.3. Σημειώνεται επίσης ότι παρόμοιες προσπάθειες για κανονικοποίηση περιστροφής έχουν πραγματοποιηθεί με χρήση υψηλόβαθμων ροπών [126]. Δύο ακόμη βήματα κανονικοποίησης είναι απαραίτητα μετά την κανονικοποίηση περιστροφής και κατοπτρισμού. Πρώτον, υπενθυμίζεται ότι μετά την κανονικοποίηση σημείου αναφοράς παραμένει μία αβεβαιότητα N/2 δειγμάτων. Παρατηρείται όμως ότι μετά την κανονικοποίηση περιστροφής το αρχικό σημείο αναφοράς (x0 , y0) βρίσκεται πολύ κοντά στον άξονα x (y0 0) και μακριά από τον άξονα y, σε οποιαδήποτε πλευρά του (x0 > 0 ή x0 < 0). Επομένως η αβεβαιότητα του σημείου αναφοράς αίρεται εφαρμόζοντας μία επιπρόσθετη κυκλική ολίσθηση N/2 δειγμάτων αν x0 > 0, αλλιώς η καμπύλη παραμένει ανέπαφη. Μετά τη 108 ΜΕΡΟΣ III Περιγραφή Σχήματος Αντικειμένων διαδικασία αυτή ισχύει πάντα x0 < 0, y0 0. Δεύτερον, η φορά διαγραφής της καμπύλης κανονικοποιείται ώστε να είναι δεξιόστροφη. Η διαδικασία αυτή πραγματοποιείται οπωσδήποτε μετά την κανονικοποίηση κατοπτρισμού, γιατί ο κατοπτρισμός της καμπύλης αντιστρέφει και τη φορά διαγραφής. Στο σημείο αυτό η συνολική διαδικασία κανονικοποίησης είναι πλήρης. Η προκύπτουσα περιγραφή σχήματος μέσω της κανονικοποιημένης καμπύλης είναι αναλλοίωτη στους affine μετασχηματισμούς (μετατόπιση, αλλαγή κλίμακας, κλίση, περιστροφή και κατοπτρισμός) καθώς και στο αρχικό σημείο αναφοράς και τη φορά διαγραφής. Οι δύο τελευταίοι μετασχηματισμοί αφορούν μόνο κλειστές καμπύλες· στην περίπτωση των ανοικτών καμπυλών η παραπάνω ανάλυση εξακολουθεί να ισχύει και μάλιστα η κανονικοποίηση είναι απλούστερη γιατί δεν περιλαμβάνει το σημείο αναφοράς και τη φορά διαγραφής. 10.5 ΑΠΟΔΕΙΞΕΙΣ Στην παρούσα Ενότητα δίνονται συνολικά οι αποδείξεις των Προτάσεων 10-1 έως 10-4. Οι αποδείξεις παραλήφθηκαν από την παραπάνω ανάπτυξη της διαδικασίας κανονικοποίησης ώστε να είναι το κείμενο πιο ευανάγνωστο. Απόδειξη Πρότασης 10-1 Ο περιορισμός ότι η s δεν αναπαριστά ευθύγραμμο τμήμα απαιτείται έτσι ώστε μετά από οποιαδήποτε μετατόπιση, περιστροφή ή μη μηδενική αλλαγή κλίμακας η s να μην κείται επί του άξονα x ή y. Έτσι εξασφαλίζεται ότι m2,0 (s) 0, m0,2 (s) 0, οπότε όλες οι ποσότητες που εμπλέκονται στις Εξισώσεις (10-2α-δ) μπορούν να ορισθούν. Από τις (10-2α) και (10-1) στο βήμα κανονικοποίησης (α) προκύπτει άμεσα ότι m1,0 (s1) = m0,1 (s1) = 0. Η ιδιότητα αυτή διατηρείται και για την na (s) = s4 , αφού τα υπόλοιπα βήματα κανονικοποίησης (β)-(δ) εμπλέκουν μόνο αλλαγή κλίμακας και περιστροφή, και όχι μετατόπιση. Έτσι m1,0 (na (s)) = m0,1 (na (s)) = 0. Είναι επίσης εμφανές ότι για την καμπύλη s2 του βήματος (β) ισχύει εξ’ ορισμού m2,0 (s2) = m0,2 (s2) = 1. Το ίδιο ισχύει και για την καμπύλη s4 του βήματος (δ), δηλαδή για την na (s): m2,0 (na (s)) = m0,2 (na (s)) = 1. Παρατηρείται επίσης ότι m1 , 1 ( s 3 ) = x 3 y T = 3 1 1 ( x 2 - y 2 )( x 2 + y 2 )T = ( m2 ,0 (s 2 ) - m0 , 2 (s 2 )) = 0 2 2 (10-21) έτσι ώστε m1,1 (na (s)) = m1,1 (s3)/(m2,0 (s3) m0,2 (s3))1/2 = 0. Επιβεβαιώνεται λοιπόν ότι η na (s) ικανοποιεί όλες τις συνθήκες (10-4). Αν τώρα η γωνία θ0 = π/4 αντικατασταθεί από μία αυθαίρετη γωνία θ στην (10-2γ), τότε το βήμα κανονικοποίησης (γ) γίνεται x 2 cos θ - y 2 sin θ s3 = R θs 2 = x 2 sin θ + y 2 cos θ και η (10-21) ξαναγράφεται ως εξής: m1 ,1 (s 3 ) = x 3 y T = (sin θ cos θ )( x 2 x T - y 2 y T ) + (cos 2 θ - sin 2 θ )( x 2 y T ) 3 2 2 2 ή ισοδύναμα: m1 ,1 (s 3 ) = (cos 2 θ )( x 2 y T ) 2 (10-24) (10-23) (10-22) Κεφάλαιο 10 Κανονικοποίηση Περιγραμμάτων 109 Έτσι, για να είναι η ροπή m1,1 (s3) πάντα μηδενική ανεξάρτητα από την αρχική καμπύλη, πρέπει να ισχύει cos2θ = 0 και επομένως θ = kπ/2 + π/4, k Z. Απόδειξη Πρότασης 10-2 Από την (10-3) έχουμε na (s) = N(s) (s - μ(s)) = N(s) s1 και na (s) = N(s) s1 = N(s)Αs1 . Αφού οι s και s δεν είναι ευθύγραμμα τμήματα, ισχύει detN(s) = σx σy τx τy / 2 0 και όμοια detN(s) 0. Οι δύο πίνακες ορθοκανονικοποίησης είναι επομένως αντιστρέψιμοι και μπορούμε να ορίσουμε τον πίνακα q 11 Q = N(s) A (N(s)) -1 = q 21 (10-6α,β,γ) γίνονται 2 2 m2,0 (na (s)) = q 11 + q 12 = 1 q 12 q 22 (10-25) έτσι ώστε na (s) = Q na (s). Επειδή οι na (s) και na (s) είναι ορθοκανονικοποιημένες, οι Εξισώσεις (10-26α) (10-26β) (10-26γ) m0,2 (na (s)) 2 = q 21 2 + q 22 =1 m1,1 (na (s)) = q11 q21 + q12 q22 = 0 που σημαίνει ότι QQT = QTQ = I2 , δηλαδή ο Q είναι ορθογώνιος (με detQ = ±1). Άρα οι na (s) και na (s) διαφέρουν μόνο κατά ένα μετασχηματισμό περιστροφής (αν detQ = 1), και πιθανόν κατά ένα επιπρόσθετο μετασχηματισμό κατοπτρισμού (αν detQ = -1). Έστω τώρα ότι υπάρχει μία εναλλακτική μέθοδος κανονικοποίησης η οποία δίνει για την ~ ~ καμπύλη s πίνακα κανονικοποίησης N(s ) και κανονικοποιημένη καμπύλη ~a (s) = N(s)s 1 . n Στην περίπτωση αυτή μπορούμε όμοια να ορίσουμε ~ ~ Q = N(s)[ N(s)]-1 έτσι ώστε ~ ~ ~ (s ) = Q n (s ) . Αφού και πάλι οι n (s) και n (s) είναι κανονικοποιημένες, συμπεραίνουμε με na a a a ~ όμοιο τρόπο ότι ο πίνακας Q είναι ορθογώνιος. Επομένως όλες οι δυνατές μέθοδοι κανονικοποίησης που βασίζονται στις ιδιότητες (10-4) καταλήγουν σε μία κανονικοποιημένη καμπύλη που σχετίζεται με την προτεινόμενη na (s) μέσω μίας απλής περιστροφής (ή και κατοπτρισμού). Απόδειξη Πρότασης 10-3 Αν z = Sm (z), τότε ισχύει η (10-12) και μπορούμε να αντικαταστήσουμε τις ποσότητες a1 = (a1 + 2πm/N) mod 2π και a - 1 = ( aN -1 - 2πm/N) mod 2π στη σχέση N N ( a1 - a - 1 ) mod N/2 p(z) = N 4π (10-27) που προκύπτει από τον ορισμό (10-13) για την s. Επιπλέον, αν το N είναι άρτιο, ο αριθμός N/2 είναι ακέραιος και οι τελεστές mod N/2 και (ακέραιο μέρος) μπορούν να αντιμετατεθούν, δίνοντας N p(z) = 4 π ( a1 - aN - 1 ) mod N / 2 + m mod N/2 (10-28) 110 ΜΕΡΟΣ III Περιγραφή Σχήματος Αντικειμένων η οποία οδηγεί στην (10-15α). Λαμβάνοντας τώρα υπόψη ότι η np (z) προκύπτει από την z μέσω μιας κυκλικής ολίσθησης κατά N - p(z) δείγματα, μπορούμε να χρησιμοποιήσουμε την (1015α) για τις καμπύλες z και np (z): p(np (z)) = p( SN - p(z ) (z)) = [ p(z) + (N - p(z)) ] mod N/2 = 0 (10-29) και με ένα παρόμοιο επιχείρημα για τις καμπύλες z και np (z) προκύπτει η (10-15β). Στη συνέχεια, συσχετίζοντας τις καμπύλες np (z) = S- p(z ) (z) και np (z) = S-p(z ) (z) = Sm-p(z) (z), λαμβάνουμε np (z) = Sp( z )+m- p( z ) (np (z)). Αλλά τότε μπορούμε να αντικαταστήσουμε την ποσότητα 0 p( z ) + m < N / 2 p( z ) + m , p(z) = ( p(z) + m ) mod N/2 = p( z ) + m - N / 2 , N / 2 p( z ) + m < N (10-30) στην προηγούμενη σχέση, η οποία τότε ανάγεται άμεσα στην (10-15γ). Τέλος, αν το N είναι περιττό, η αντιμετάθεση των τελεστών mod N/2 και στην (10-27) μπορεί να οδηγήσει σε σφάλμα κατά ±1 δείγμα στην εκτίμηση του p(z) από το p(z), πιθανώς προκαλώντας μία επιπρόσθετη ολίσθηση κατά ±1 δείγμα ανάμεσα στις np (z) και np (z). Απόδειξη Πρότασης 10-4 Αν s = Q s και ο πίνακας Q αναλύεται σύμφωνα με την (10-16), τότε η (10-17) ισχύει και επομένως μπορούμε να εκφράσουμε τη σχέση μεταξύ των διακριτών μετασχηματισμών Fourier u = (z) και u = (z) ως εξής: u = k N -1 i=0 zi w - ki = sx e jθ N -1 s e jθ u k , ( x i + jλy i )w - ki = x jθ s x e uN - k , i =0 λ=1 λ = -1 (10-31) για k = 0, ..., N - 1, όπου λ = sx sy = ±1. Αν τώρα υπολογίσουμε τα διανύσματα φάσης a = Arg u και a = Arg u, η σχέση (10-31) δίνει για k = 1 και k = N - 1: λ =1 a1 + θ + Arg s x , a = 1 - aN - 1 + θ + Arg s x , λ = -1 aN - 1 + θ + Arg s x , λ = 1 a - 1 = N - a1 + θ + Arg s x , λ = -1 (10-32α) (10-32β) Προσθέτοντας κατά μέλη τις Εξισώσεις (10-32α,β) λαμβάνουμε ( a + a - 1 ) mod 2π = 1 N (λ(a1 + aN -1 ) + 2θ) mod 2π, αφού sx = ±1 και επομένως (2Arg sx) mod 2π = 0. Από τον ορισμό (10-18α) του r(z), η (10-20α) προκύπτει άμεσα. Ο υπολογισμός τώρα της z1 από την (10-18β) δίνει z1 = z e - jr (z ) = sx (x + jλy) e j( θ -r ( z )) . Αν λοιπόν ορίσουμε την ποσότητα 1, l( z ) = - 1 , λr ( z ) + θ [ 0 , π ) λr ( z ) + θ [ π , 2 π ) (10-33) τότε από την (10-20α) προκύπτει ότι s x l( z )z 1 , z1 = sx (x + jλy) e j( θ -(( λr ( z )+θ ) mod π )) = sx l(z) (x + jλy) e - jλr (z ) = s x l( z )z 1 λ =1 λ = -1 (10-34) έτσι ώστε x = sx l(z) x1 και y 1 = λsx l(z) y1 = sy l(z) y1 . Συμπεραίνεται λοιπόν ότι τα διανύσματα 1 x και y 1 διαφέρουν από τα x1 και y1 μόνο ως προς το πρόσημο και ο υπολογισμός των ρο1 Κεφάλαιο 10 Κανονικοποίηση Περιγραμμάτων 111 πών τρίτου βαθμού στην (10-19α) δίνει vx ( z1 ) = sx l(z) vx (z1) και vy ( z1 ) = sy l(z) vy (z1). Τότε, η κανονικοποίηση (10-19β) δίνει x 2 = (sx l(z))2 vx (z1) x1 = x2 και όμοια y 2 = y 2 , αποδεικνύοντας την (10-20δ). Τέλος, οι συνθήκες (10-20β) και (10-20γ) μπορούν να επιβεβαιωθούν άμεσα χρησιμοποιώντας τις (10-19α,β) και (10-20α). Κεφάλαιο 11 Αναζήτηση με Βάση το Σχήμα ­ Αποτελέσματα Η αναλλοίωτη αναπαράσταση που προκύπτει από την προτεινόμενη κανονικοποίηση περιγραμμάτων μπορεί να είναι εξαιρετικά χρήσιμη σε εφαρμογές όπως η σύγκριση, ταίριασμα, ταξινόμηση, αναγνώριση σχημάτων καθώς και η αναζήτηση και ανάκληση αντικειμένων με βάση το σχήμα. Στο παρόν Κεφάλαιο παρουσιάζονται αρχικά και συγκρίνονται με την προτεινόμενη μέθοδο δύο εναλλακτικές δημοφιλείς μέθοδοι αναλλοίωτης αναπαράστασης και ταιριάσματος καμπυλών και συγκεκριμένα οι κανονικοποιημένοι περιγραφείς Fourier και το ταίριασμα με χρήση ροπών. Στη συνέχεια προτείνεται μία μέθοδος αναζήτησης και ανάκλησης αντικειμένων με βάση το σχήμα τους, η οποία βασίζεται σε τρία απλά μέτρα ομοιότητας περιγραμμάτων, ενώ εξετάζεται και το συναφές πρόβλημα της ταξινόμησης σχημάτων σε προκαθορισμένες κατηγορίες, το οποίο αντιμετωπίζεται με χρήση νευρωνικού δικτύου. Τέλος δίνονται παραδείγματα, πειραματικά αποτελέσματα και αλγοριθμικές οδηγίες τόσο για την κανονικοποίηση περιγραμμάτων όσο και για την ταξινόμηση, τα χρησιμοποιούμενα μέτρα ομοιότητας και την αναζήτηση με βάση το σχήμα. Τα περιγράμματα που χρησιμοποιούνται στα πειράματα προέρχονται από μία συλλογή ακίνητων εικόνων αντικειμένων με αυτόματη κατάτμηση, η οποία όμως σε κάποιες περιπτώσεις απαιτεί ανθρώπινη παρέμβαση. 11.1 ΕΝΑΛΛΑΚΤΙΚΕΣ ΜΕΘΟΔΟΙ Γ ια την αναζήτηση και ανάκληση εικόνων από μία βάση δεδομένων με βάση το σχήμα των αντικειμένων, παρουσιάζονται δύο προβλήματα: (α) η σύγκριση ή το ταίριασμα πε- ριγραμμάτων πρέπει να είναι μια διαδικασία αναλλοίωτη στους affine μετασχηματισμούς, και (β) πρέπει να παρέχεται ένας τρόπος γρήγορης αρχικής ταξινόμησης αφού συνήθως δεν είναι εφικτή η σύγκριση ενός δεδομένου περιγράμματος εισόδου με κάθε περίγραμμα που είναι διαθέσιμο στη βάση. Για το πρώτο πρόβλημα μπορεί να χρησιμοποιηθεί η προτεινόμενη μέθοδος κανονικοποίησης περιγραμμάτων, αλλά παρουσιάζονται παρακάτω για λόγους πληρότητας δύο εναλλακτικές και δημοφιλείς μέθοδοι αναπαράστασης / σύγκρισης. Τα ιδιαίτερα χαρακτηριστικά και οι περιορισμοί των δύο μεθόδων αναδεικνύουν μάλιστα τα πλεονεκτήματα της προτεινόμενης μεθόδου. Για το δεύτερο πρόβλημα προτείνεται μία τεχνική προκαταρκτικής ταξινόμησης περιγραμμάτων σε ένα προκαθορισμένο σύνολο κατηγοριών η οποία μπορεί να εφαρμοσθεί πριν από το ταίριασμα. Η ταξινόμηση πραγματοποιείται με χρήση νευρωνικού δικτύου και περιγράφεται στη συνέχεια. Δύο από τις δημοφιλέστερες μεθόδους αναπαράστασης ή ταιριάσματος καμπυλών που είναι αναλλοίωτες στους affine μετασχηματισμούς είναι οι κανονικοποιημένοι περιγραφείς Fourier (normalized Fourier descriptors, NFD) [28] και το ταίριασμα με χρήση ροπών (moments) [56]. Το τελευταίο δίνει ικανοποιητικά αποτελέσματα ταιριάσματος και σύγκρισης περιγραμμάτων αλλά απαιτεί εκ των προτέρων γνώση των δύο περιγραμμάτων που προορίζονται για σύγκρι- 112 Κεφάλαιο 11 ση Αναζήτηση με Βάση το Σχήμα ­ Αποτελέσματα έχει μεγάλο υπολογιστικό κόστος, αφού πρόκειται για μία 113 διαδικασία και βελτιστοποίησης. Από την άλλη μεριά οι Fourier descriptors έχουν μικρό υπολογιστικό κόστος αλλά εισάγουν σημαντική απώλεια πληροφορίας, επομένως δε μπορούν να αποτελέσουν γενικευμένη περιγραφή 2-Δ καμπυλών. Οι παρατηρήσεις αυτές γίνονται εμφανείς από την ακόλουθη περιγραφή των μεθόδων. Κανονικοποιημένοι Περιγραφείς Fourier Έστω ότι το περίγραμμα ενός αντικειμένου περιγράφεται από ένα σύνολο N σημείων· τα σημεία αυτά μπορούν να είναι είτε τα σημεία αρχικής δειγματοληψίας είτε τα κομβικά σημεία που προκύπτουν από τη μοντελοποίηση με B-Splines, όπως περιγράφεται στην Ενότητα 9.4. Για κάθε σημείο si = [xi yi]T, i = 0, ..., N - 1, της καμπύλης, χρησιμοποιείται η μιγαδική αναπαράσταση zi = xi + jyi . Τότε σύμφωνα με τη (10-10) ο μετασχηματισμός Fourier της ακολουθίας zi , i = 0, ..., N - 1, δίνεται από τη σχέση uk = N -1 i =0 zi exp - j 2 π ik , N k = 0, ..., N - 1 (11-1) Έστω επίσης ότι η μιγαδική ακολουθία z , i = 0, ..., N - 1, αντιστοιχεί σε μια καμπύλη που i προκύπτει από τη zi με εφαρμογή μετατόπισης, αλλαγής κλίμακας, περιστροφής και κυκλικής ολίσθησης, δηλαδή zi = a z(i+m) mod N ejθ + t, i = 0, ..., N - 1 (11-2) όπου a είναι ο συντελεστής αλλαγής κλίμακας, t είναι ο μιγαδικός που ορίζει τη μετατόπιση, θ είναι η γωνία περιστροφής σε ακτίνια και m είναι το πλήθος στοιχείων ολίσθησης. Υπενθυμίζεται ότι ο παραπάνω μετασχηματισμός δεν περιλαμβάνει κλίση (skew) όπως ένας affine μετασχηματισμός. Τότε ο μετασχηματισμός Fourier της z δίνεται από i θ - 2π k m u = a u k exp j + t δ( k ) , k N k = 0, ..., N - 1 (11-3) όπου δ(k) είναι η συνάρτηση Dirac. Με βάση την προηγούμενη σχέση, οι κανονικοποιημένοι περιγραφείς Fourier (NFD) ορίζονται ως το σύνολο των N - 2 πραγματικών αριθμών vk = |u k | , |u1 | k = 2, ..., N - 1 (11-4) Από τις (11-3) και (11-4) προκύπτει ότι v = v k για k = 2, ..., N - 1. k Με άλλα λόγια οι κανονικοποιημένοι περιγραφείς Fourier είναι αναλλοίωτοι στους μετασχηματισμούς μετατόπισης, αλλαγής κλίμακας, περιστροφής και κυκλικής ολίσθησης (δηλ. αλλαγής σημείου αναφοράς). Επιπλέον αποτελούν ανεξάρτητη ποσοτική αναπαράσταση κάθε περιγράμματος, και μπορούν να χρησιμοποιηθούν σε συνδυασμό με οποιαδήποτε μέθοδο ταξινόμησης. Όμως η απαλοιφή της φάσης του μετασχηματισμού Fourier στην (11-4) προκαλεί σημαντική απώλεια πληροφορίας για το σχήμα του περιγράμματος, αφού είναι γνωστό ότι το μεγαλύτερο μέρος της πληροφορίας ενός σήματος περιέχεται στη φάση του μετασχηματισμού Fourier και όχι στο μέτρο του. Έτσι οι κανονικοποιημένοι περιγραφείς Fourier οδηγούν πολλές φορές σε λανθασμένο ταίριασμα ανόμοιων αντικειμένων. 114 Ταίριασμα με Χρήση Ροπών ΜΕΡΟΣ III Περιγραφή Σχήματος Αντικειμένων Μία εναλλακτική μέθοδος ταιριάσματος, επίσης αναλλοίωτη στους affine μετασχηματισμούς, η οποία όμως δεν πάσχει από απώλεια πληροφορίας, είναι το ταίριασμα με χρήση ροπών [56]. Στην περίπτωση αυτή, ένα περίγραμμα αναπαρίσταται από μία συνεχή καμπύλη B-Spline r(s) = (x(s), y(s)) όπου s είναι το μήκος τόξου. Τότε ορίζεται η ροπή βαθμού (p,q) με βάρη, ως εξής: m p , q (r ) = S s =0 x p (s ) y p ( s ) w( x(s ), y (s )) ds (11-5) όπου S είναι το συνολικό μήκος της καμπύλης και w(x,y) είναι η συνάρτηση πυρήνα (kernel) της ροπής. Αν τώρα δύο δεδομένες καμπύλες r(s), r(s) σχετίζονται μέσω ενός affine μετασχηματισμού, δηλαδή r(s) = Α r(s) + t, όπως στην Εξίσωση (10-5), τότε αποδεικνύεται ότι με κατάλληλη επιλογή των συναρτήσεων πυρήνα είναι δυνατή η πλήρης εκτίμηση των πινάκων A, t του affine μετασχηματισμού από τις ροπές μέχρι δευτέρου βαθμού [56]. Επιπλέον, αν οι δύο καμπύλες αντιστοιχούν σε δύο παρόμοια περιγράμματα, η διαδικασία αυτή επιτυγχάνει την «ευθυγράμμιση» ή ταίριασμα των δύο σχημάτων. Όμως η μέθοδος των ροπών απαιτεί την εκ των προτέρων γνώση των δύο καμπυλών που προορίζονται για ταίριασμα. Επομένως δεν μπορεί να χρησιμοποιηθεί για γενικευμένη αναπαράσταση περιγραμμάτων, ούτε για ταξινόμηση ή αναγνώριση π.χ. με νευρωνικό δίκτυο, αφού στην περίπτωση αυτή είναι γνωστό ένα μόνο περίγραμμα κάθε φορά. Επίσης το υπολογιστικό κόστος της μεθόδου είναι ιδιαίτερα αυξημένο. Αντίθετα η προτεινόμενη μέθοδος κανονικοποίησης παρέχει μία αναπαράσταση που είναι επίσης αναλλοίωτη στους affine μετασχηματισμούς αλλά δεν βασίζεται σε ταίριασμα οπότε μπορεί να χρησιμοποιηθεί σε συνδυασμό με οποιοδήποτε μηχανισμό ταξινόμησης. Επιπλέον το υπολογιστικό κόστος της είναι αμελητέο και δεν πάσχει από απώλεια πληροφορίας όπως οι κανονικοποιημένοι περιγραφείς Fourier. 11.2 ΤΑΞΙΝΟΜΗΣΗ ΚΑΙ ΑΝΑΖΗΤΗΣΗ Αναζήτηση και Ανάκληση με Βάση το Σχήμα Έστω ότι ένα σύνολο εικόνων ή βίντεο είναι διαθέσιμο σε μία βάση δεδομένων. Τότε η αναζήτηση και ανάκληση με βάση το σχήμα είναι δυνατή αν έχει προηγηθεί ανάλυση των εικόνων σε αντικείμενα, ανίχνευση των περιγραμμάτων των αντικειμένων και κανονικοποίηση των περιγραμμάτων ώστε να είναι αναλλοίωτα στους affine μετασχηματισμούς. Η αναζήτηση μπορεί να πραγματοποιηθεί είτε μέσω παραδείγματος (query by example) είτε μέσω σχεδιαγράμματος / σκίτσου (query by sketch). Στην πρώτη περίπτωση ο χρήστης υποβάλλει στο σύστημα αναζήτησης μία εικόνα ενός αντικειμένου. Η εικόνα αναλύεται για την εξαγωγή του περιγράμματος του αντικειμένου· στη συνέχεια το περίγραμμα κανονικοποιείται και συγκρίνεται με τα διαθέσιμα για την ανάκληση των εικόνων που μοιάζουν περισσότερο με το παράδειγμα. Στη δεύτερη περίπτωση ο χρήστης σχεδιάζει το περίγραμμα ενός αντικειμένου, το οποίο αφού κανονικοποιηθεί χρησιμοποιείται απευθείας για σύγκριση. Σε κάθε περίπτωση η κανονικοποίηση εξασφαλίζει ότι σχήματα με παρόμοιο οπτικό περιεχόμενο «ευθυγραμμίζονται» όπως απεικονίζεται στο Σχήμα 11-1. Στο Σχήμα αυτό φαίνεται η αντιστοιχία των κομβικών σημείων των κανονικοποιημένων περιγραμμάτων δύο αυτοκινή- Κεφάλαιο 11 Αναζήτηση με Βάση το Σχήμα ­ Αποτελέσματα 115 των. Είναι εμφανές ότι (α) τα κομβικά σημεία είναι ομοιόμορφα κατανεμημένα ως προς το μήκος τόξου και στα δύο περιγράμματα, και (β) τα περιγράμματα είναι έτσι ευθυγραμμισμένα ώστε η συνολική απόσταση των κομβικών σημείων να ελαχιστοποιείται. Έτσι η σύγκριση ή το ταίριασμά των περιγραμμάτων μπορεί να πραγματοποιηθεί με χρήση ακόμη και ενός απλού μέτρου απόστασης όπως είναι η Ευκλείδεια απόσταση. Συγκεκριμένα, αν p i , pi , i = 0, ..., N - 1, είναι τα κομβικά σημεία δύο κανονικοποιημένων καμπυλών, τότε η απόσταση 2 ds = N -1 i =0 p i - pi 2 (11-6) μπορεί να χρησιμοποιηθεί ως μέτρο ομοιότητας των καμπυλών. Οι εικόνες λοιπόν που ανακαλούνται από το σύστημα ως αποτέλεσμα της αναζήτησης είναι εκείνες που περιέχουν αντικείμενα των οποίων το περίγραμμα έχει τη μικρότερη απόσταση από το περίγραμμα του παραδείγματος. Οι εικόνες επιστρέφονται κατά φθίνουσα σειρά ομοιότητας, δηλαδή κατά αύξουσα σειρά απόστασης. Στα πειράματα της Ενότητας 11.4 εκτός από το παραπάνω μέτρο απόστασης χρησιμοποιείται για ταίριασμα περιγραμμάτων η αντίστοιχη Ευκλείδεια απόσταση των κανονικοποιημένων Fourier descriptors. Επίσης εξετάζονται για λόγους σύγκρισης οι τροποποιημένοι Fourier descriptors (modified Fourier descriptors, MFD) που προτείνονται στην εργασία [108]. Σχήμα 11-1. Ταίριασμα των κομβικών σημείων των κανονικοποιημένων περιγραμμάτων δύο αυτοκινήτων. Ταξινόμηση Σχημάτων Ένα πρόβλημα συναφές με την αναζήτηση και ανάκληση εικόνων είναι εκείνο της ταξινόμησης αντικειμένων με βάση το σχήμα τους. Στην περίπτωση αυτή, ομαδοποιώντας ένα σύνολο πρότυπων περιγραμμάτων ορίζονται κατηγορίες ή κλάσεις αντικειμένων (π.χ. αεροσκάφη, αυτοκίνητα κλπ.) οι οποίες μπορούν να οργανωθούν σε μία βάση δεδομένων. Επομένως το πρόβλημα της ταξινόμησης ενός δεδομένου περιγράμματος σε μία από τις προκαθορισμένες κατηγορίες ανάγεται στο εντοπισμό του πρότυπου περιγράμματος που ταιριάζει καλύτερα με το περίγραμμα εισόδου. Όμως, παρά το γεγονός ότι η αναπαράσταση των περιγραμμάτων είναι αναλλοίωτη στους affine μετασχηματισμούς, είναι απαραίτητο για αξιόπιστη ταξινόμηση να υπάρχει για κάθε κατηγορία διαθέσιμος μεγάλος αριθμός προτύπων περιγραμμάτων που αντιστοιχούν σε διαφορετικές παραλλαγές των αντικειμένων ή σε διαφορετικά επίπεδα λεπτομέρειας. Συνεπώς σε ένα πρακτικό σύστημα απαιτείται συνολικά πολύ μεγάλος αριθμός προτύπων περιγραμμάτων, καθιστώντας το απευθείας ταίριασμα περιγραμμάτων εξαιρετικά χρονοβόρο. Το ίδιο ισχύει και στην περίπτωση αναζήτησης εικόνων με βάση το σχήμα. Γι’ αυτό το λόγο προτείνεται μία προσέγγιση αρχικής ταξινόμησης με χρήση νευρωνικού δικτύου (neural network, NN) [57]. Έτσι η διαδικασία αναζήτησης περιορίζεται σε ένα μικρό υποσύνολο των διαθέσιμων κατηγοριών αντικειμένων. Συγκεκριμένα, η αναπαράσταση των περιγραμμάτων, δηλαδή είτε τα κανονικοποιημένα περιγράμματα (κομβικά σημεία) είτε οι 116 ΜΕΡΟΣ III Περιγραφή Σχήματος Αντικειμένων κανονικοποιημένοι Fourier descriptors, χρησιμοποιούνται ως είσοδος σε ένα feedforward neural network, ενώ κάθε κατηγορία αντικειμένων αντιστοιχίζεται σε μία έξοδο του δικτύου. Το νευρωνικό δίκτυο πραγματοποιεί αντιστοίχιση του διανύσματος εισόδου v = [v0 ... vN -1 ] σε ένα επιθυμητό διάνυσμα εξόδου d = [d0 ... dC -1 ]. Η χρησιμοποιούμενη αρχιτεκτονική δικτύου απεικονίζεται στο Σχήμα 11-2. Περιλαμβάνει δύο κρυφά επίπεδα (hidden layers), με N νευρώνες (neurons) εισόδου, N1 και N2 νευρώνες στο πρώτο και δεύτερο κρυφό επίπεδο, αντίστοιχα, και C νευρώνες εξόδου. Κρυφά Επίπεδα Είσοδος v1 v2 v3 vN-1 Έξοδος d1 d2 d3 dC-1 Σχήμα 11-2. Αρχιτεκτονική νευρωνικού δικτύου για ταξινόμηση περιγραμμάτων. Οι νευρώνες διαδοχικών επιπέδων διασυνδέονται μέσω βαρών, έτσι ώστε η είσοδος κάθε νευρώνα s να είναι ns = i ai wi , όπου ai είναι η έξοδος του i-οστού νευρώνα του προηγούμενου επιπέδου, wi είναι το βάρος διασύνδεσης του νευρώνα αυτού με το νευρώνα s, και η άθροιση περιλαμβάνει όλους τους νευρώνες του προηγούμενου επιπέδου. Η είσοδος ns στη συνέχεια μετασχηματίζεται με χρήση της σιγμοειδούς συνάρτησης ενεργοποίησης (activation function) os = f ( n s ) = 1 1 + e - λn s (11-7) όπου os είναι η έξοδος του νευρώνα s και λ είναι μία παράμετρος κέρδους (gain) [57]. Στο στάδιο εκπαίδευσης του δικτύου, η αναπαράσταση v(p), p = 0, ..., M - 1, ενός συνόλου από M πρότυπα περιγράμματα δίνεται ως είσοδος στο δίκτυο· τα επιθυμητά διανύσματα εξόδου d(p), p = 0, ..., M - 1, καθορίζονται θέτοντας το στοιχείο του d(p) που αντιστοιχεί στη σωστή κατηγορία του v(p) ίσο με ένα και τα υπόλοιπα στοιχεία ίσα με μηδέν. Για την εκπαίδευση χρησιμοποιείται ο αλγόριθμος Levenberg-Marquardt, ο οποίος ελαχιστοποιεί το τετραγωνικό σφάλμα E2 = M -1 p=0 M - 1 C -1 p =0 i =0 d ( p ) - o( p ) 2 = di ( p) - oi ( p) 2 (11-8) ανάμεσα στο επιθυμητό και πραγματικό διάνυσμα εξόδου, d(p) και o(p), αντίστοιχα. Η διαδικασία ελαχιστοποίησης υλοποιείται με την ανανέωση βαρών που συνδέουν νευρώνες διαδοχικών επιπέδων και τον εκ νέου υπολογισμό του διανύσματος εξόδου και του τετραγωνικού σφάλματος, με αναδρομικό τρόπο. Στο στάδιο ταξινόμησης, η αναπαράσταση v = [v0 ... vN -1 ] ενός περιγράμματος εισάγεται στο νευρωνικό δίκτυο ως διάνυσμα εισόδου. Αφού σε κάθε κατηγορία αντικειμένων αντιστοιχεί μία έξοδος του δικτύου, τυπικά το περίγραμμα εισόδου ταξινομείται στην κατηγορία εκείνη που αντιστοιχεί στη μέγιστη έξοδο του δικτύου. Στην πράξη όμως, επειδή οι υπόλοιπες έ- Κεφάλαιο 11 Αναζήτηση με Βάση το Σχήμα ­ Αποτελέσματα 117 ξοδοι δεν είναι όλες μηδενικές (όπως στην περίπτωση των επιθυμητών εξόδων κατά τη φάση της εκπαίδευσης), σε κάποιες περιπτώσεις μπορεί να συμβεί λανθασμένη ταξινόμηση αν οι έξοδοι του νευρωνικού δικτύου έχουν παρόμοιες τιμές. Γι’ αυτό το λόγο επιλέγεται ένας μικρός αριθμός κατηγοριών, έστω R, για κάθε περίγραμμα εισόδου, οι οποίες αντιστοιχούν στις εξόδους με τις R μεγαλύτερες τιμές. Ο αριθμός αυτός αντιπροσωπεύει ένα μικρό ποσοστό του συνολικού αριθμού κατηγοριών, C. Αυτό το σύνολο κατηγοριών χρησιμοποιείται στη συνέχεια για ταίριασμα με το περίγραμμα εισόδου, ώστε να εντοπισθεί η κατηγορία εκείνη που ταιριάζει καλύτερα. Στο στάδιο αυτό πραγματοποιείται σύγκριση μεταξύ του περιγράμματος εισόδου και όλων των προτύπων περιγραμμάτων που ανήκουν στις R επιλεγμένες κατηγορίες. Εναλλακτικά, αν όλες οι κατηγορίες περιέχουν πολύ μεγάλο αριθμό περιγραμμάτων, η σύγκριση μπορεί να περιορισθεί σε ένα μικρότερο υποσύνολο αντιπροσωπευτικών προτύπων από κάθε κατηγορία. Με την παραπάνω τεχνική επιτυγχάνεται ταχεία επιλογή πιθανών κατηγοριών στο πρώτο στάδιο με το νευρωνικό δίκτυο και ταυτόχρονα αξιόπιστη ταξινόμηση στο δεύτερο στάδιο με το ταίριασμα περιγραμμάτων. 11.3 ΑΠΟΤΕΛΕΣΜΑΤΑ ΚΑΝΟΝΙΚΟΠΟΙΗΣΗΣ Στην Ενότητα αυτή εξετάζεται η επίδοση της προτεινόμενη μεθόδου κανονικοποίησης καμπυλών και περιλαμβάνονται κατάλληλες αλγοριθμικές οδηγίες, ενώ στην επόμενη Ενότητα παρουσιάζονται πειραματικά αποτελέσματα που αφορούν στην εφαρμογή της μεθόδου στην ταξινόμηση, αναζήτηση και ανάκληση με βάση το σχήμα. Αρχικά δίνονται ενδεικτικά αποτελέσματα κατάτμησης με βάση το χρώμα για την εξαγωγή περιγραμμάτων από εικόνες. Στη συνέχεια παρουσιάζονται αποτελέσματα για όλα τα βήματα κανονικοποίησης, δηλαδή μετατόπιση, αλλαγή κλίμακας, κλίση, σημείο αναφοράς, περιστροφή, και κατοπτρισμό. Η αποτελεσματικότητα της μεθόδου εξετάζεται εφαρμόζοντας affine μετασχηματισμούς (α) στο ίδιο αντικείμενο με ίδια δειγματοληψία, (β) στο ίδιο αντικείμενο με διαφορετική, μη ομοιόμορφη δειγματοληψία, (γ) σε παρόμοια αντικείμενα και (δ) σε ανόμοια αντικείμενα. Σε κάθε περίπτωση χρησιμοποιείται αναπαράσταση με B-Splines για την αντιμετώπιση του θορύβου και των προβλημάτων δειγματοληψίας. Εξαγωγή Περιγραμμάτων Όπως αναφέρεται στην Ενότητα 9.2, η ποιότητα της κατάτμησης επηρεάζει σε μεγάλο βαθμό την επίδοση της προτεινόμενης μεθόδου κανονικοποίησης. Αυτό αληθεύει γενικά για οποιαδήποτε τεχνική μοντελοποίησης και ταιριάσματος περιγραμμάτων που προέρχονται από φυσικές εικόνες. Στο πλαίσιο της διατριβής χρησιμοποιήθηκε ο αλγόριθμος M-RSST για την κατάτμηση με βάση το χρώμα σε εικόνες υψηλής ανάλυσης, ενώ η κατάτμηση με βάση την κίνηση σε ακολουθίες εικόνων πραγματοποιήθηκε βάσει 2-Δ παραμετρικών μοντέλων κίνησης. Ενδεικτικά αποτελέσματα για μία στατική εικόνα ενός αυτοκινήτου παρουσιάζονται στο Σχήμα 11-3. Συγκεκριμένα, στο Σχήμα 11-3α απεικονίζεται η αρχική εικόνα, ενώ στα Σχήματα 11-3β,γ το πρώτο και το τελικό στάδιο κατάτμησης του αλγορίθμου M-RSST. Το περίγραμμα του αυτοκινήτου φαίνεται στο Σχήμα 11-3δ. Τα εξαγόμενα περιγράμματα αντικειμένων από τη διαδικασία κατάτμησης χρησιμοποιούνται στη συνέχεια για κανονικοποίηση με τον προτεινόμενο αλγόριθμο. Πρέπει να σημειωθεί ότι η λειτουργία του αλγορίθμου είναι πλήρως αυτόματη, με την έννοια ότι από τη 118 ΜΕΡΟΣ III Περιγραφή Σχήματος Αντικειμένων στιγμή που τα περιγράμματα είναι διαθέσιμα ως καμπύλες δεν απαιτείται ανθρώπινη παρέμβαση ούτε ρύθμιση παραμέτρων για κάθε καμπύλη. (α) (β) (γ) (δ) Σχήμα 11-3. Ενδεικτικά αποτελέσματα κατάτμησης με βάση το χρώμα για την εικόνα ενός αυτοκινήτου. (α) Αρχική εικόνα. (β) Κατάτμηση στο χαμηλότερο επίπεδο ανάλυσης. (γ) Τελική κατάτμηση. (δ) Εξαγόμενο περίγραμμα. (α) (β) (γ) (δ) Σχήμα 11-4. Στάδια κανονικοποίησης με απευθείας χρήση δειγμάτων, χωρίς μοντελοποίηση με B-Splines ή νέα δειγματοληψία. (α) Τρία περιγράμματα ενός ψαριού, που προέρχονται από την ίδια καμπύλη με εφαρμογή διαφορετικών affine μετασχηματισμών. (β) Κανονικοποίηση μετατόπισης. (γ) Κανονικοποίηση κλίμακας και κλίσης (ορθοκανονικοποίηση). (δ) Κανονικοποίηση σημείου αναφοράς, περιστροφής και κατοπτρισμού (τελικό στάδιο κανονικοποίησης). Ίδιο Αντικείμενο, Ίδια Δειγματοληψία Το πρώτο πείραμα αφορά στην απευθείας χρήση των δειγμάτων της καμπύλης, δηλαδή χωρίς μοντελοποίηση με B-Splines ή νέα δειγματοληψία. Τα αποτελέσματα του πειράματος αυτού παρουσιάζονται στο Σχήμα 11-4. Το περίγραμμα ενός ψαριού, που αποτελείται από 100 σημεία και προέρχεται από κατάτμηση στατικής εικόνας, φαίνεται στην πάνω δεξιά πλευρά του Σχήματος 11-4α. Στο ίδιο Σχήμα περιλαμβάνονται άλλα δύο περιγράμματα που αποτελούνται επίσης από 100 σημεία και παράγονται από το αρχικό περίγραμμα με άμεση εφαρμογή Κεφάλαιο 11 Αναζήτηση με Βάση το Σχήμα ­ Αποτελέσματα 119 τυχαίων affine μετασχηματισμών. Σύμφωνα με τη μεθοδολογία που παρουσιάσθηκε στο Κεφάλαιο 10, οι τρεις καμπύλες υποβάλλονται σε κανονικοποίηση μετατόπισης, κλίμακας, κλίσης, σημείου αναφοράς, περιστροφής και κατοπτρισμού. Στο Σχήμα 11-4β απεικονίζονται οι καμπύλες μετά την κανονικοποίηση μετατόπισης. Αντίστοιχα το Σχήμα 11-4γ αφορά στην κανονικοποίηση κλίμακας και κλίσης (ορθοκανονικοποίηση), ενώ το Σχήμα 11-4δ στην κανονικοποίηση σημείου αναφοράς, περιστροφής και κατοπτρισμού (τελικό στάδιο κανονικοποίησης). Όμοια μορφή παρουσίασης ακολουθείται και για τα υπόλοιπα Σχήματα της παρούσας Ενότητας. Σε όλες τις περιπτώσεις το σημείο αναφοράς και η φορά διαγραφής προσδιορίζονται με ένα βέλος το οποίο είναι τοποθετημένο στο τελευταίο σημείο της καμπύλης (ένα σημείο πριν το σημείο αναφοράς). Παρατηρείται ότι οι τελικές καμπύλες μετά την κανονικοποίηση συμπίπτουν απόλυτα όταν οι αρχικές προκύπτουν με affine μετασχηματισμούς της ίδιας καμπύλης, επιβεβαιώνοντας έτσι τα θεωρητικά αποτελέσματα του Κεφαλαίου 10. (α) (β) (γ) (δ) Σχήμα 11-5. Κανονικοποίηση περιγραμμάτων με διαφορετική, μη ομοιόμορφη δειγματοληψία και τυχαίους affine μετασχηματισμούς. (α) Αρχικές καμπύλες. (β,γ,δ) Στάδια κανονικοποίησης, όπως στο Σχήμα 11-4. Διαφορετική, Μη Ομοιόμορφη Δειγματοληψία Στην πραγματικότητα, οι κανονικοποιημένες καμπύλες είναι ταυτόσημες μόνο όταν προέρχονται από affine μετασχηματισμούς της ίδιας καμπύλης, και μάλιστα χωρίς νέα δειγματοληψία. Για να γίνει αυτό περισσότερο κατανοητό, τα Σχήματα 11-5 και 11-6 επιδεικνύουν τις ατέλειες στο ταίριασμα ορθοκανονικοποιημένων περιγραμμάτων που προέρχονται από την ίδια καμπύλη, αλλά με εφαρμογή διαφορετικής και μη ομοιόμορφης δειγματοληψίας. Συγκεκριμένα, το Σχήμα 11-5α απεικονίζει το περίγραμμα ενός ψαριού μαζί με άλλα δύο περιγράμματα που προέρχονται από το πρώτο με εφαρμογή τυχαίων affine μετασχηματισμών. Και οι τρεις καμπύλες έχουν υποστεί διαφορετική και μη ομοιόμορφη δειγματοληψία. Τα βήματα κανονικοποίησης των περιγραμμάτων παρουσιάζονται στα Σχήματα 11-5β-δ, όπου ακολουθείται η ίδια λογική παρουσίασης όπως και στο Σχήμα 11-4. Τα αποτελέσματα δεν απέχουν πολύ από τα επιθυμητά, με την έννοια ότι και πάλι οι κανονικοποιημένες καμπύλες ταιριάζουν αρκετά μεταξύ τους. Αυτό ισχύει παρά το γεγονός ότι 120 ΜΕΡΟΣ III Περιγραφή Σχήματος Αντικειμένων οι διαφορές στη διαδικασία δειγματοληψίας των τριών περιγραμμάτων είναι σημαντικές. Όμως οι παρατηρούμενες ανομοιότητες των κανονικοποιημένων περιγραμμάτων μπορούν να είναι ανεπιθύμητες όταν απαιτείται μεγάλη ακρίβεια στο ταίριασμα καμπυλών σε μια συγκεκριμένη εφαρμογή. Είναι αξιοσημείωτο ότι ανομοιότητες προκύπτουν λόγω διαφορετικής δειγματοληψίας ακόμη και απουσία μετασχηματισμών. Αυτό είναι εμφανές στο Σχήμα 11-6, όπου το πείραμα επαναλαμβάνεται χωρίς την εφαρμογή affine μετασχηματισμών στις τρεις καμπύλες. Παρόλο που στην περίπτωση αυτή οι αρχικές καμπύλες ταυτίζονται, οπτικά τουλάχιστον, οι κανονικοποιημένες διαφέρουν, σε μικρό βέβαια βαθμό. (α) (β) (γ) (δ) Σχήμα 11-6. Κανονικοποίηση περιγραμμάτων με διαφορετική, μη ομοιόμορφη δειγματοληψία αλλά χωρίς μετασχηματισμούς. (α) Αρχικές καμπύλες, οπτικά ταυτόσημες. (β,γ,δ) Στάδια κανονικοποίησης, όπως στο Σχήμα 11-4. Διαφορετική, Ομοιόμορφη Δειγματοληψία Τα αποτελέσματα βελτιώνονται σημαντικά με την εφαρμογή νέα δειγματοληψίας πριν τη διαδικασία κανονικοποίησης. Αυτό επιτυγχάνεται μοντελοποιώντας τα περιγράμματα με BSplines και ανακατανέμοντας τα κομβικά σημεία ώστε η δειγματοληψία να είναι ομοιόμορφη ως προς το μήκος τόξου, όπως περιγράφεται στην Ενότητα 9.4. Τα ανακατανεμημένα κομβικά σημεία διατηρούνται πλέον ως δείγματα της καμπύλης στην περίπτωση αυτή, και σε αυτά εφαρμόζεται η διαδικασία κανονικοποίησης. Το Σχήμα 11-7 απεικονίζει τη βελτίωση στο ταίριασμα των κανονικοποιημένων περιγραμμάτων πραγματοποιώντας δύο φορές τη μοντελοποίηση με B-Splines και την ανακατανομή κομβικών σημείων: μία πριν την κανονικοποίηση μετατόπισης και μία πριν την κανονικοποίηση σημείου αναφοράς και περιστροφής. Ένα τελικό στάδιο δειγματοληψίας πραγματοποιείται στα πλήρως κανονικοποιημένα περιγράμματα, ώστε να επιτυγχάνεται όσο το δυνατόν καλύτερο ταίριασμα. Το Σχήμα 11-7 είναι άμεσα συγκρίσιμο με το 11-5, αποκαλύπτοντας σημαντική βελτίωση στο ταίριασμα των τριών περιγραμμάτων. Στα όλα τα πειράματα που ακολουθούν εφαρμόζεται η παραπάνω διαδικασία μοντελοποίησης με B-Splines και ανακατανομής κομβικών σημείων. Κεφάλαιο 11 Αναζήτηση με Βάση το Σχήμα ­ Αποτελέσματα 121 (α) (β) (γ) (δ) Σχήμα 11-7. Επανάληψη του πειράματος του Σχήματος 11-5 με εφαρμογή μοντελοποίησης με B-Splines και ανακατανομής κομβικών σημείων. (α) Αρχικές καμπύλες. (β,γ,δ) Στάδια κανονικοποίησης, όπως στο Σχήμα 11-4. (α) (β) (γ) (δ) Σχήμα 11-8. Ευθυγράμμιση περιγραμμάτων με παρόμοιο οπτικό περιεχόμενο. (α) Αρχικά περιγράμματα τριών διαφορετικών αεροσκαφών. (β,γ,δ) Στάδια κανονικοποίησης, όπως στο Σχήμα 11-4. Παρόμοια Αντικείμενα Ίσως η σπουδαιότερη ιδιότητα της προτεινόμενης μεθόδου κανονικοποίησης είναι η ικανότητά της να «ευθυγραμμίζει» σχήματα που έχουν παρόμοιο οπτικό περιεχόμενο. Η ιδιότητα αυτή εξετάσθηκε με χρήση μεγάλου αριθμού περιγραμμάτων τα οποία ανήκουν σε διαφορετικές κατηγορίες αντικειμένων, όπως για παράδειγμα αεροσκάφη, αυτοκίνητα, ψάρια, ποτήρια και σφυριά. Το Σχήμα 11-8 παρουσιάζει τα αποτελέσματα κανονικοποίησης για τρία διαφορετικά περιγράμματα αεροσκαφών που προέρχονται από κατάτμηση στατικών εικόνων, και επομένως η δειγματοληψία τους διαφέρει σε μεγάλο βαθμό. Η μέθοδος κανονικοποίησης, σε συν- 122 ΜΕΡΟΣ III Περιγραφή Σχήματος Αντικειμένων δυασμό με τη μοντελοποίηση B-Splines, ευθυγραμμίζει σωστά τα περιγράμματα και μάλιστα χωρίς να πραγματοποιεί ταίριασμα μεταξύ τους. Ανόμοια Αντικείμενα Τα αποτελέσματα κανονικοποίησης του Σχήματος 11-8 θα πρέπει να συγκριθούν με εκείνα του Σχήματος 11-9, όπου τα τρία αρχικά περιγράμματα αντιστοιχούν σε διαφορετικές κατηγορίες αντικειμένων, και επομένως έχουν διαφορετικό οπτικό περιεχόμενο. Συγκεκριμένα εξετάζεται το περίγραμμα ενός αεροσκάφους, ενός αυτοκινήτου και ενός σφυριού. Είναι εμφανές ότι με οποιαδήποτε τεχνική ταιριάσματος, τα περιγράμματα του Σχήματος 11-8 θα έδιναν μεγαλύτερο βαθμό ομοιότητας από εκείνα του Σχήματος 11-9. Συμπεραίνεται λοιπόν ότι η προτεινόμενη μέθοδος κανονικοποίησης μπορεί να χρησιμοποιηθεί ως στάδιο προεπεξεργασίας σε οποιαδήποτε τεχνική ταιριάσματος, ταξινόμησης ή αναγνώρισης σχημάτων βελτιώνοντας τα αποτελέσματά τους. (α) (β) (γ) (δ) Σχήμα 11-9. Ευθυγράμμιση περιγραμμάτων με διαφορετικό οπτικό περιεχόμενο. (α) Αρχικά περιγράμματα ενός αεροσκάφους, ενός αυτοκινήτου και ενός σφυριού. (β,γ,δ) Στάδια κανονικοποίησης, όπως στο Σχήμα 114. Επίδραση Θορύβου Στη συνέχεια εξετάζεται η επίδραση του θορύβου στην κανονικοποίηση περιγραμμάτων. Ο θόρυβος στα περιγράμματα αντικειμένων συνήθως προέρχεται από τα σφάλματα στη διαδικασία κατάτμησης εικόνων με βάση το χρώμα ή την κίνηση. Για τη μοντελοποίηση των αποτελεσμάτων του θορύβου εισάγεται τεχνητά τυχαίος θόρυβος κανονικής κατανομής και σχετικά μεγάλης διασποράς στα διαθέσιμα αρχικά περιγράμματα και εξετάζεται η επίδρασή του στα αντίστοιχα κανονικοποιημένα περιγράμματα. Όπως φαίνεται από τα πειράματα, η απόδοση του αλγορίθμου κανονικοποίησης είναι ικανοποιητική, αρκεί να μη δημιουργείται σημαντική παραμόρφωση σχήματος λόγω του θορύβου. Ενδεικτικά πειραματικά αποτελέσματα απεικονίζονται στο Σχήμα 11-10. Κεφάλαιο 11 Αναζήτηση με Βάση το Σχήμα ­ Αποτελέσματα 123 (α) (β) (γ) (δ) Σχήμα 11-10. Κανονικοποίηση περιγραμμάτων παρουσία τυχαίου θορύβου. (α,β) Κανονικοποίηση τριών περιγραμμάτων του ίδιου αεροσκάφους με διαφορετική ισχύ θορύβου. (γ,δ) Κανονικοποίηση τριών περιγραμμάτων με παρόμοιο οπτικό περιεχόμενο, παρουσία θορύβου και τυχαίων affine μετασχηματισμών. Συγκεκριμένα, στο Σχήμα 11-10α παρουσιάζεται το αρχικό περίγραμμα ενός αεροσκάφους (χωρίς θόρυβο), μαζί με άλλα δύο που προέρχονται από το αρχικό με πρόσθεση θορύβου. Στο ένα από τα δύο θορυβώδη περιγράμματα ο σηματοθορυβικός λόγος είναι SNR = 30dB και στο άλλο 20dB. Τα τρία αντίστοιχα κανονικοποιημένα περιγράμματα απεικονίζονται στο Σχήμα 11-10β. Πρέπει να σημειωθεί ότι ο θόρυβος εισάγεται στο αρχικό περίγραμμα, πριν τη μοντελοποίηση με B-Splines. Έτσι φαίνεται στο Σχήμα 11-10β πώς η μοντελοποίηση αυτή «απλοποιεί» τα περιγράμματα και ουσιαστικά αφαιρεί μεγάλο τμήμα του θορύβου. Φαίνεται επίσης ότι η ισχύς του θορύβου επηρεάζει τη διαδικασία κανονικοποίησης, αλλά σε μικρό μόνο βαθμό. Στα Σχήματα 11-10γ,δ το πείραμα επαναλαμβάνεται για τρία διαφορετικά περιγράμματα αεροσκαφών τα οποία έχουν υποστεί προσθήκη θορύβου και τυχαίους affine μετασχηματισμούς. Η σύγκριση του Σχήματος 11-10δ με το 11-8δ δείχνει ότι ιδιότητα «ευθυγράμμισης» σχημάτων με παρόμοιο οπτικό περιεχόμενο δεν επηρεάζεται σημαντικά από την παρουσία του θορύβου. 11.4 ΑΠΟΤΕΛΕΣΜΑΤΑ ΤΑΞΙΝΟΜΗΣΗΣ ΚΑΙ ΑΝΑΖΗΤΗΣΗΣ Απόσταση Περιγραμμάτων Η αναγνώριση και ταξινόμηση αντικειμένων βάσει της πληροφορίας περιγράμματος έχει αντιμετωπισθεί σε μία πληθώρα εργασιών, όπως αναφέρεται στην Εισαγωγή της Ενότητας 9.1, και δεν αποτελεί βασικό αντικείμενο ανάλυσης στην παρούσα εργασία. Ενδεικτικά πειραματικά αποτελέσματα ταιριάσματος περιγραμμάτων παρουσιάζονται όμως στον Πίνακα 11-1. Στον Πίνακα αυτό εμφανίζονται πέντε ζεύγη περιγραμμάτων που αντιστοιχούν σε περιπτώσεις ίδιων αντικειμένων (περιγράμματα του ίδιου αεροσκάφους με διαφορετικό affine μετασχηματισμό), παρόμοιων (περιγράμματα δύο διαφορετικών αεροσκαφών) ή και διαφορετικών (περιγράμματα αντικειμένων που ανήκουν σε διαφορετικές κατηγορίες). 124 ΜΕΡΟΣ III Περιγραφή Σχήματος Αντικειμένων Σε όλες τις περιπτώσεις πραγματοποιούνται συγκρίσεις των περιγραμμάτων 1 και 2 του Πίνακα 11-1 με χρήση τριών μετρικών απόστασης, και συγκεκριμένα (α) Ευκλείδεια απόσταση κομβικών σημείων, (β) Ευκλείδεια απόσταση κανονικοποιημένων Fourier descriptors (NFD), και (γ) τροποποιημένοι Fourier descriptors (MFD) [108]. Στην περίπτωση της απόστασης κομβικών σημείων, πραγματοποιούνται μετρήσεις πριν και μετά την κανονικοποίηση. Όλες οι μετρικές είναι κανονικοποιημένες έτσι ώστε οι τιμές 0 και 1 να υποδηλώνουν απόλυτη ταύτιση και πλήρη ανομοιότητα, αντίστοιχα. Όπως είναι αναμενόμενο, η απόσταση που υπολογίζεται απευθείας στα κομβικά σημεία αποτυγχάνει για τα αρχικά περιγράμματα που δεν έχουν υποστεί κανονικοποίηση, όπως φαίνεται χαρακτηριστικά στο πείραμα #1. Αντίθετα, όπως είναι εμφανές από τον Πίνακα 11-1, όλες οι υπόλοιπες μετρικές απόστασης δίνουν αξιόπιστα αποτελέσματα. Είναι αξιοσημείωτο ότι ένα τόσο απλό μέτρο όπως η Ευκλείδεια απόσταση των δειγμάτων μπορεί να δώσει ικανοποιητική σύγκριση περιγραμμάτων, και μάλιστα καλύτερη σε σχέση με τις πιο εξειδικευμένες τεχνικές (NFD και MFD) σε όλα τα πειράματα εκτός από το #2. α/α #1 Περίγραμμα 1 Περίγραμμα 2 ΑΚΣ (αρχ) 0.69 ΑΚΣ (καν) 0.01 NFD 0.02 MFD 0.01 #2 #3 #4 #5 0.34 0.81 0.93 0.84 0.19 0.75 0.89 0.76 0.12 0.41 0.62 0.25 0.11 0.57 0.65 0.32 Πίνακας 11-1. Ενδεικτικές αποστάσεις μεταξύ των περιγραμμάτων 1 και 2 για το ίδιο αντικείμενο με διαφορετικό μετασχηματισμό, παρόμοια, ή και διαφορετικά αντικείμενα. ΑΚΣ: Απόσταση κομβικών σημείων (αρχικά / κανονικοποιημένα περιγράμματα). FD: Απόσταση κανονικοποιημένων Fourier Descriptors. MFD: Απόσταση Modified Fourier Descriptors [108]. Ταξινόμηση Περιγραμμάτων Στη συνέχεια παρουσιάζονται αποτελέσματα ταξινόμησης περιγραμμάτων με την προτεινόμενη τεχνική νευρωνικού δικτύου. Για το σκοπό αυτό χρησιμοποιήθηκε μία μικρή βάση δεδομένων η οποία περιέχει 100 στατικές εικόνες αντικειμένων. Τα αντικείμενα διακρίνονται σε πέντε κατηγορίες (C = 5), και συγκεκριμένα αεροσκάφη, αυτοκίνητα, ψάρια, ποτήρια και σφυριά· στη βάση υπάρχουν 20 εικόνες αντικειμένων από κάθε κατηγορία. Στο στάδιο εκπαίδευσης του δικτύου χρησιμοποιήθηκαν 10 εικόνες από κάθε κατηγορία, ενώ οι υπόλοιπες 10 χρησιμοποιήθηκαν για πειράματα ταξινόμησης. Έτσι το πειραματικό σύνολο περιλαμβάνει συνολικά 50 περιγράμματα αντικειμένων. Σημειώνεται ότι κάθε περίγραμμα κανονικοποιείται πριν εισαχθεί για ταξινόμηση στο νευρωνικό δίκτυο· επειδή η κανονικοποιημένη αναπαράσταση είναι αναλλοίωτη στους affine μετασχηματισμούς, καμπύλες που έχουν υποστεί οποιοδήποτε affine μετασχηματισμό δίνουν ακριβώς το ίδιο αποτέλεσμα ταξινόμησης. Κεφάλαιο 11 Αναζήτηση με Βάση το Σχήμα ­ Αποτελέσματα 125 Έτσι η ταξινόμηση περιγραμμάτων που ανήκουν στο σύνολο εκπαίδευσης είναι 100% επιτυχής. Κατηγορία Αεροσκάφη Αυτοκίνητα Ψάρια Ποτήρια Σφυριά Σύνολο NN (R = 1) 9/10 8/10 8/10 6/10 10/10 41/50 ΝΝ (R = 2) 10/10 10/10 9/10 9/10 10/10 48/50 Ταίριασμα 9/10 10/10 8/9 9/9 9/10 45/48 Πίνακας 11-2. Αποτελέσματα ταξινόμησης περιγραμμάτων με χρήση νευρωνικού δικτύου μόνο (R = 1) και με συνδυασμό νευρωνικού δικτύου (με R = 2) και ταιριάσματος περιγραμμάτων στις επιλεγμένες κατηγορίες. Αφού ολοκληρωθεί η εκπαίδευση του νευρωνικού δικτύου με χρήση του συνόλου εκπαίδευσης που αποτελείται από 50 περιγράμματα, πραγματοποιούνται δοκιμές ταξινόμησης με χρήση των 50 περιγραμμάτων του πειραματικού συνόλου. Αρχικά πραγματοποιείται ταξινόμηση με το νευρωνικό δίκτυο μόνο, χωρίς ταίριασμα, επιλέγεται δηλαδή η μέγιστη έξοδος του νευρωνικού δικτύου (R = 1). Τα αποτελέσματα ταξινόμησης παρουσιάζονται στην πρώτη στήλη του Πίνακα 11-2. Από τα 50 περιγράμματα τα 41 ταξινομούνται σωστά, δίνοντας ποσοστό επιτυχίας 82%. Στη συνέχεια διεξάγεται ένα δεύτερο πείραμα στο οποίο για κάθε περίγραμμα εισόδου επιλέγονται οι δύο κατηγορίες (R = 2) που αντιστοιχούν στις δύο μεγαλύτερες εξόδους του δικτύου. Στην περίπτωση αυτή το περίγραμμα εισόδου συγκρίνεται με το σύνολο των 10 προτύπων περιγραμμάτων εκπαίδευσης κάθε μιας από τις δύο επιλεγμένες κατηγορίες. Έτσι υπολογίζονται συνολικά 20 αποστάσεις και το περίγραμμα εισόδου ταξινομείται στην κατηγορία εκείνη που παρουσιάζει την ελάχιστη απόσταση. Όπως φαίνεται στη δεύτερη και τρίτη στήλη του Πίνακα 11-2, στα 48 από τα 50 περιγράμματα εισόδου το νευρωνικό δίκτυο πραγματοποιεί σωστή ταξινόμηση, δηλαδή μία από τις δύο επιλεγόμενες κατηγορίες είναι η σωστή. Από τα 48 αυτά περιγράμματα, τα 45 ταξινομούνται σωστά στο τελικό στάδιο ταιριάσματος, δίνοντας ποσοστό επιτυχίας 90%. Συμπεραίνεται ότι η προτεινόμενη τεχνική ταξινόμησης σε δύο στάδια με συνδυασμό νευρωνικού δικτύου και ταιριάσματος είναι πιο αξιόπιστη από την ταξινόμηση με νευρωνικό δίκτυο μόνο· από την άλλη μεριά η χρήση του νευρωνικού δικτύου είναι απαραίτητη για την επιτάχυνση της διαδικασίας ταξινόμησης στην περίπτωση που ο αριθμός προτύπων περιγραμμάτων είναι πολύ μεγάλος. Αναζήτηση ­ Ανάκληση με Βάση το Σχήμα Τέλος, η προτεινόμενη μέθοδος εξετάσθηκε για τους σκοπούς αναζήτησης και ανάκλησης με βάση το σχήμα στην ίδια βάση δεδομένων που περιέχει 100 στατικές εικόνες αντικειμένων από πέντε διαφορετικές κατηγορίες. Η ανάκληση βασίσθηκε σε μετρήσεις ομοιότητας των κανονικοποιημένων περιγραμμάτων των αντικειμένων, και συγκεκριμένα στην Ευκλείδεια απόσταση κομβικών σημείων που δίνεται στην Εξίσωση (11-6). Ιδιαίτερη έμφαση δόθηκε στην ακριβή εξαγωγή περιγραμμάτων από τις εικόνες· γι’ αυτό το λόγο απαιτήθηκε παρέμβαση στη διαδικασία κατάτμησης σε ορισμένες περιπτώσεις όπου η πλήρως αυτοματοποιημένη κατάτμηση δεν έδινε τα σωστά περιγράμματα. Τα αποτελέσματα μιας αναζήτησης αεροσκάφους παρουσιάζονται στο Σχήμα 11-11. 126 ΜΕΡΟΣ III Περιγραφή Σχήματος Αντικειμένων (α) (β) (γ) Σχήμα 11-11. Αναζήτηση μέσω παραδείγματος (query-by-example) με βάση το σχήμα για μία εικόνα αεροσκάφους. (α) Εικόνα εισόδου. (β) Εξαγόμενο περίγραμμα. (γ) Αποτελέσματα αναζήτησης. (α) (β) (γ) Σχήμα 11-12. Αναζήτηση με βάση το σχήμα για μία εικόνα αυτοκινήτου. (α) Εικόνα εισόδου. (β) Εξαγόμενο περίγραμμα. (γ) Αποτελέσματα αναζήτησης.. Πρόκειται για μια περίπτωση αναζήτησης μέσω παραδείγματος (query-by-example). Συγκεκριμένα, η εικόνα ενός αεροσκάφους που φαίνεται στο Σχήμα 11-11α παρουσιάζεται ως είσοδος στο σύστημα αναζήτησης. Στην εικόνα αυτή πραγματοποιείται κατάτμηση για την εξαγωγή του περιγράμματος του κύριου αντικειμένου, που εικονίζεται στο Σχήμα 11-11β. Στη συνέχεια υπολογίζεται η απόσταση μεταξύ του περιγράμματος εισόδου και όλων των περιγραμμάτων της βάσης, και οι εικόνες που αντιστοιχούν στα περιγράμματα εκείνα με τη μεγαλύτερη ομοιότητα παρουσιάζονται από το σύστημα ως αποτελέσματα ανάκλησης. Ως μέτρο σύγκρισης χρησιμοποιείται η Ευκλείδεια απόσταση των κομβικών σημείων των κανονικοποιημένων περιγραμμάτων. Οι έξι πρώτες εικόνες εμφανίζονται κατά φθίνουσα σειρά ομοιότητας στο Σχήμα 11-11γ. Σημειώνεται ότι η αναζήτηση θα μπορούσε εξίσου να πραγματο- Κεφάλαιο 11 Αναζήτηση με Βάση το Σχήμα ­ Αποτελέσματα 127 ποιηθεί μέσω σχεδιαγράμματος ή σκίτσου (query-by-sketch). Η περίπτωση αυτή είναι απλούστερη αφού δεν είναι απαραίτητη η εξαγωγή περιγράμματος, αλλά μόνο η κανονικοποίησή του. Ανάλογα αποτελέσματα ανάκλησης παρουσιάζονται στο Σχήμα 11-12 για μια περίπτωση αναζήτησης ενός αυτοκινήτου. Παρατηρείται ότι ενώ στην περίπτωση αυτή όλες οι ανακαλούμενες εικόνες ανήκουν στη σωστή κατηγορία, πρόκειται δηλαδή για εικόνες αυτοκινήτων, στην περίπτωση των αεροσκαφών έχουμε μία λανθασμένη ανάκληση μιας εικόνας ψαριού. Το συγκεκριμένο περίγραμμα ψαριού δίνει μεγαλύτερο βαθμό ομοιότητας με το περίγραμμα εισόδου από ότι το περίγραμμα άλλων αεροσκαφών της βάσης. Κάτι τέτοιο είναι αναμενόμενο αφού το χρησιμοποιούμενο μέτρο σύγκρισης είναι ιδιαίτερα απλοϊκό. Πιο αξιόπιστη σύγκριση μπορεί να επιτευχθεί με τεχνικές όπως τα παραμορφούμενα πρότυπα (deformable templates) [19] ή τα μοντέλα ενεργών περιγραμμάτων (active contour models) [77]. Πρέπει να σημειωθεί ότι είναι δυνατή η χρήση οποιοσδήποτε τεχνικής σύγκρισης αφού η κανονικοποίηση δεν εισάγει καμία απώλεια πληροφορίας. Άλλα χαρακτηριστικά των αντικειμένων, όπως για παράδειγμα το χρώμα ή η υφή, θα μπορούσαν επίσης να χρησιμοποιηθούν σε συνδυασμό με το σχήμα σε ένα ολοκληρωμένο σύστημα αναζήτησης με βάση το περιεχόμενο. Μ Ε Ρ Ο Σ I V ΕΦΑΡΜΟΓΗ ΣΤΗΝ ΑΝΑΛΥΣΗ ΔΕΛΤΙΩΝ ΕΙΔΗΣΕΩΝ Το αντικείμενο του τέταρτου και τελευταίου Μέρους της διατριβής είναι η εφαρμογή τεχνικών αυτόματης ανάλυσης βίντεο στην ειδική περίπτωση των τηλεοπτικών δελτίων ειδήσεων. Η κατηγορία αυτή οπτικοακουστικού υλικού παρουσιάζει αυξημένο ενδιαφέρον για δύο κυρίως λόγους: πρώτον διότι η τυπική οργάνωσή τους σε θεματικές ενότητες επιτρέπει την εύκολη χρονική κατάτμηση και συντακτική ανάλυση, και δεύτερον διότι μέχρι σήμερα για το χαρακτηρισμό τους χρησιμοποιούνται χειρονακτικές μέθοδοι με υψηλό κόστος. Επειδή το επικρατέστερο τμήμα περιεχομένου των δελτίων ειδήσεων σχετίζεται με ανθρώπινες δραστηριότητες, οι εικόνες ανθρώπων και ιδιαίτερα προσώπων παίζουν σημαντικότατο ρόλο στην ανάλυση της δομής των δελτίων· έτσι η προτεινόμενη τεχνική στηρίζεται στην ανίχνευση προσώπων. Στο Κεφάλαιο 12 παρουσιάζεται αρχικά μία πλήρως αυτοματοποιημένη διαδικασία ανίχνευσης και εντοπισμού προσώπων. Η διαδικασία αποτελείται από μία σειρά διαδοχικών σταδίων στα οποία ανιχνεύεται αρχικά το χρώμα του ανθρώπινου δέρματος και στη συνέχεια πραγματοποιείται κατάτμηση με βάση το χρώμα, συγχώνευση των τμημάτων δέρματος, ανάλυση του σχήματος των τμημάτων και επαλήθευση με χρήση μιας τεχνικής ταιριάσματος με πρότυπο προσώπου. Ο αξιόπιστος εντοπισμός ανθρώπινων προσώπων σε συνδυασμό με άλλα χαρακτηριστικά χρώματος και κίνησης σε μία ακολουθία δελτίων ειδήσεων χρησιμοποιείται για την ταξινόμηση των πλάνων της ακολουθίας σε προκαθορισμένες κατηγορίες όπως «παρουσιαστής», «ρεπορτάζ / συνέντευξη», «στατική εικόνα» και «εξωτερικό πλάνο». Στο Κεφάλαιο 13 περιγράφεται η προτεινόμενη τεχνική ταξινόμησης με χρήση ενός αριθμού απλών κανόνων. Με δεδομένο ότι στην τυπική οργάνωση των τηλεοπτικών ειδήσεων περιλαμβάνονται επαναλαμβανόμενες εμφανίσεις του παρουσιαστή εναλλάξ με άλλα είδη πλάνων, η ταξινόμηση αυτή οδηγεί άμεσα στη συντακτική ανάλυση, δηλαδή στη χρονική κατάτμηση των δελτίων σε στοιχειώδεις ενότητες ειδήσεων. Τέλος, στο Κεφάλαιο 14 εξετάζεται η εφαρμογή των προτεινόμενων μεθόδων χαρακτηρισμού, δεικτοδότησης, εξαγωγής περίληψης, προεπισκόπησης και αναζήτησης με βάση το περιεχόμενο στην ειδική περίπτωση των ακολουθιών δελτίων ειδήσεων. Επιπλέον, για την περίπτωση της αναζήτησης και ανάκλησης εξετάζεται ένας αριθμός από νέα σενάρια αναζήτησης που σχετίζονται με την ύπαρξη ανθρώπινων προσώπων, και συγκεκριμένα η αναζήτηση με βάση τα χαρακτηριστικά χρώματος, το μέγεθος και το πλήθος των προσώπων. 128 Κεφάλαιο 12 Εντοπισμός Προσώπων Μια ειδική κατηγορία οπτικοακουστικού υλικού με ιδιαίτερο ενδιαφέρον είναι το υλικό που προέρχεται από τηλεοπτικά δελτία ειδήσεων, για δύο κυρίως λόγους: πρώτον διότι η τυπική οργάνωσή τους σε θεματικές ενότητες επιτρέπει την εύκολη χρονική κατάτμηση και συντακτική ανάλυση, και δεύτερον διότι μέχρι σήμερα για το χαρακτηρισμό τους χρησιμοποιούνται χειρονακτικές μέθοδοι με υψηλό κόστος. Στην ανάλυση ακολουθιών βίντεο από δελτία ειδήσεων πρωταρχικό ρόλο παίζει η εμφάνιση ανθρώπινων προσώπων· για το λόγο αυτό εξετάζεται στο παρόν Κεφάλαιο το πρόβλημα της αυτόματης ανίχνευσης και εντοπισμού προσώπων με βάση ένα πλήθος χαρακτηριστικών. Συγκεκριμένα, το πρώτο στάδιο της προτεινόμενης μεθόδου βασίζεται σε μία ταχεία και αξιόπιστη τεχνική μοντελοποίησης και ανίχνευσης του χρώματος δέρματος. Στη συνέχεια πραγματοποιείται κατάτμηση με βάση το χρώμα και συγχώνευση τμημάτων δέρματος ώστε να προκύψει ένα τμήμα εικόνας για κάθε πρόσωπο, αναλύεται το σχήμα των τμημάτων και υπολογίζονται απλά χαρακτηριστικά σχήματος για την απόρριψη τμημάτων με ακανόνιστο σχήμα. Τέλος, στο στάδιο επαλήθευσης, τμήματα με υψηλή πιθανοφάνεια προσώπου εξετάζονται με μία τεχνική ταιριάσματος με πρότυπο προσώπου, λαμβάνοντας έτσι υπόψη και την υφή των τμημάτων. Η συνολική μέθοδος παρουσιάζει υψηλή ακρίβεια ανίχνευσης έχοντας ταυτόχρονα χαμηλό υπολογιστικό κόστος· η πλήρως αυτοματοποιημένη διαδικασία εντοπισμού προσώπων αποτελεί ισχυρό εργαλείο για την περαιτέρω ανάλυση δελτίων ειδήσεων. Περιλαμβάνονται πειραματικά αποτελέσματα ανίχνευσης δέρματος και εντοπισμού προσώπων σε ένα μεγάλο σύνολο πραγματικών εικόνων, τα οποία αξιολογούνται με μετρήσεις ακρίβειας και ανάκλησης. 12.1 ΕΙΣΑΓΩΓΗ νός που οφείλεται στο ότι η δυνατότητα αυτή απαιτεί πάντα εκ των προτέρων γνώση και μπορεί να επιτευχθεί μόνο στο πλαίσιο εξειδικευμένων εφαρμογών. Ένα σημαντικό παράδειγμα τέτοιας εφαρμογής είναι η αναζήτηση εικόνων που περιέχουν ανθρώπινα πρόσωπα, καθώς και ο εντοπισμός ή η αναγνώριση των προσώπων αυτών. Επειδή οι εικόνες και οι ακολουθίες εικόνων που περιέχουν ανθρώπινα πρόσωπα παίζουν σημαντικό ρόλο στην περιγραφή οπτικοακουστικού υλικού, η ανίχνευση προσώπων (face detection) έχει καθιερωθεί ως ένα σημαντικό εργαλείο στο πλαίσιο εφαρμογών όπως η συντακτική ανάλυση, η δεικτοδότηση, η αναζήτηση με βάση το περιεχόμενο και η εξαγωγή περίληψης από δελτία ειδήσεων [9]. Στο παρελθόν η ανίχνευση προσώπων ήταν συνδεδεμένη με την αναγνώριση προσώπων (face recognition)· το γεγονός αυτό είχε σημαντικό αντίκτυπο στους σχετικούς αλγορίθμους. Για να επιτευχθεί η απαιτούμενη ακρίβεια ανίχνευσης επιβάλλονταν αυστηροί περιορισμοί στο περιβάλλον των εικόνων [112], ενώ η πλειοψηφία των αλγορίθμων βασιζόταν σε ασπρό- Έ χει διαπιστωθεί ότι τα υπάρχοντα συστήματα αναζήτησης με βάση το περιεχόμενο αδυνατούν να εντοπίσουν σημασιολογική πληροφορία από οπτικοακουστικό υλικό, γεγο- 129 130 ΜΕΡΟΣ IV Εφαρμογή στην Ανάλυση Δελτίων Ειδήσεων μαυρες εικόνες και χρησιμοποιούσε ταίριασμα με πρότυπα προσώπων ή χαμηλού επιπέδου χαρακτηριστικά για την ανίχνευση στοιχείων του προσώπου όπως τα μάτια, η μύτη και το στόμα [147,151]. Οι σύγχρονες εφαρμογές όμως βασίζονται σε έγχρωμες εικόνες και απαιτούν γρήγορη υλοποίηση με ικανοποιητική ακρίβεια, και όχι εξαντλητική έρευνα με πολύ υψηλή ακρίβεια. Ως αποτέλεσμα, αλγόριθμοι που έχουν καθιερωθεί και χρησιμοποιηθεί με επιτυχία για αναγνώριση προσώπων δεν είναι πλέον κατάλληλες ή απαιτούν τροποποιήσεις, ενώ παράλληλα έχουν εμφανισθεί νέες τεχνικές που ουσιαστικά αποσυνδέουν την ανίχνευση από την αναγνώριση προσώπων. Συγκεκριμένα, η εργασία [139] έχει προκαλέσει το ενδιαφέρον και έχει εμπνεύσει πολλούς ερευνητές για την ανάπτυξη αλγορίθμων ανίχνευσης προσώπων από έγχρωμες εικόνες, καθώς συνδυάζει πολύ γρήγορη υλοποίηση με ικανοποιητικά αποτελέσματα. Η βασική της ιδέα είναι η μοντελοποίηση του χρώματος του ανθρώπινου δέρματος μέσω μιας κατανομής χρώματος δέρματος (skin color distribution) που βασίζεται στις χρωματικές συνιστώσες του χώρου YCrCb. Οι περισσότερες μελέτες που βασίζονται στην ιδέα αυτή αποκαλύπτουν ότι απαιτούνται πολλά στάδια μετα-επεξεργασίας, ενώ παρά το γεγονός ότι ο χώρος του χρώματος δέρματος πράγματι καλύπτει μικρή επιφάνεια του χρωματικού επιπέδου Cr-Cb, δε μπορεί να μοντελοποιηθεί με τόσο γενικό τρόπο ώστε αποδίδει για όλες τις εικόνες προσώπων [15,43]. Η γενίκευση του μοντέλου συνήθως αυξάνει το ποσοστό λανθασμένης ανίχνευσης (false alarms), ενώ η εξειδίκευσή του αυξάνει το ποσοστό απωλειών (dismissals). Επιπλέον, η επίδραση του καναλιού φωτεινότητας, Y, δεν είναι πάντα αμελητέα. Για τους παραπάνω λόγους, έχει προταθεί στην εργασία [102] μία τεχνική για τη δυναμική ενημέρωση του χρωματικού μοντέλου όταν παρουσιάζονται αλλαγές λόγω συνθηκών φωτισμού, με χρήση ενός συνδυασμού Γκαουσιανών μοντέλων (Gaussian mixture model) για τις κατανομές πιθανότητας του χρώματος δέρματος, ρουχισμού και φόντου της εικόνας. Επίσης, στην εργασία [116] χρησιμοποιείται ένα μοντέλο Markov για την πρόβλεψη της εξέλιξης ενός ιστογράμματος του χρώματος δέρματος. Το ιστόγραμμα περιλαμβάνει και τις τρεις χρωματικές συνιστώσες του χώρου HSV, σε αντίθεση με τις τεχνικές που βασίζονται στο χώρο YCrCb όπου χρησιμοποιείται μόνο το επίπεδο Cr-Cb. Μία ανάλογη εκτίμηση ιστογράμματος του χρώματος δέρματος έχει προταθεί στην εργασία [71], όπου χρησιμοποιείται ο χώρος RGB απευθείας· από τα πειράματα μάλιστα σε ένα μεγάλο σύνολο εικόνων συμπεραίνεται ότι η επίδοση του συστήματος αυτού είναι ανώτερη από το συνδυασμό Γκαουσιανών μοντέλων. Όλες οι παραπάνω εργασίες αντιμετωπίζουν το πρόβλημα της ανίχνευσης δέρματος, ενώ στην εργασία [124] τα χαρακτηριστικά του χρώματος δέρματος συνδυάζονται με πληροφορίες τοπικής συμμετρίας και περιγράμματος για τον εντοπισμό πιθανών σημείων προσώπου, με στόχο την ανίχνευση και εντοπισμό ανθρώπινων προσώπων. Ο συνδυασμός της κατάτμησης με βάση το χρώμα με ένα Γκαουσιανό μοντέλο χρώματος δέρματος και επεξεργασία σχήματος έχει επίσης προταθεί στην εργασία [131] για ανίχνευση προσώπων. Στο πλαίσιο της διατριβής τα χαρακτηριστικά χρώματος και σχήματος που χρησιμοποιούνται εργασία [131] συνδυάζονται περαιτέρω με μία τεχνική ταιριάσματος με πρότυπο για την ανίχνευση και εντοπισμό προσώπων. Συγκεκριμένα, προτείνεται ένα διδιάστατο Γκαουσιανό μοντέλο για την κατανομή πιθανότητας του χρώματος δέρματος, του οποίου οι παράμετροι επανεκτιμούνται δυναμικά. Σε κάθε εικόνα πραγματοποιείται κατάτμηση με βάση το χρώμα, η οποία ακολουθείται από ένα επιπλέον στάδιο συγχώνευσης των τμημάτων που ταιριάζουν με το μοντέλο του χρώματος δέρματος. Στα τμήματα αυτά υπολογίζονται κατάλληλα Κεφάλαιο 12 Εντοπισμός Προσώπων 131 χαρακτηριστικά σχήματος και απορρίπτονται εκείνα των οποίων το σχήμα παρουσιάζει μεγάλη απόκλιση από το σχήμα του προσώπου. Τα εναπομείναντα τμήματα εξετάζονται για ύπαρξη προσώπου στο στάδιο επαλήθευσης, το οποίο βασίζεται σε ταίριασμα με πρότυπο προσώπου (template matching). Η αναζήτηση προτύπων ολόκληρου προσώπου δίνει καλύτερα αποτελέσματα σε σχέση με την αναζήτηση τοπικών χαρακτηριστικών προσώπου, ιδιαίτερα σε εικόνες χαμηλής ανάλυσης ή για πρόσωπα σε μικρή κλίμακα. Ο συνδυασμός ανίχνευσης χρώματος δέρματος, προσαρμογής του χρωματικού μοντέλου, κατάτμησης με βάση το χρώμα, συγχώνευσης τμημάτων δέρματος και ανάλυσης σχήματος για εντοπισμό ανθρώπινων προσώπων είναι πρωτότυπος, αν και οι επιμέρους τεχνικές έχουν ξαναχρησιμοποιηθεί. Δημοσιεύθηκε αρχικά στην εργασία [131], ενώ ο επιπλέον συνδυασμός με χαρακτηριστικά υφής στο στάδιο επαλήθευσης (ταίριασμα με πρότυπο προσώπου) για μεγαλύτερη ακρίβεια ανίχνευσης παρουσιάσθηκε στην εργασία [132]. Η προτεινόμενη τεχνική βελτιώνει την επίδοση σε σχέση με υπάρχουσες τεχνικές με δύο τρόπους. Πρώτον, η ικανότητα γενίκευσης του μοντέλου χρώματος δέρματος βελτιώνεται με την επανεκτίμηση των παραμέτρων της κατανομής, και δεύτερον, το στάδιο επαλήθευσης είναι πολύ πιο αξιόπιστο, αφού λαμβάνει υπόψη και την υφή του προσώπου, πέρα από τα χαρακτηριστικά χρώματος και σχήματος. Αυτό το όφελος όσον αφορά στην αξιοπιστία απαιτεί βέβαια επιπρόσθετο υπολογιστικό κόστος, το οποίο όμως είναι περιορισμένο αφού το ταίριασμα με πρότυπο εφαρμόζεται μόνο σε τμήματα της εικόνας όπου έχει ανιχνευθεί πρόσωπο. Ο σημασιολογικός χαρακτηρισμός οπτικοακουστικών προγραμμάτων συνήθως απαιτεί χειρονακτική εργασία και έχει μεγάλο κόστος. Επειδή λοιπόν τα ανθρώπινα πρόσωπα είναι το πλέον κοινό είδος σημασιολογικού αντικειμένου σε προγράμματα όπως δελτία ειδήσεων, συζητήσεις, τηλεοπτικές σειρές ή κινηματογραφικές ταινίες, η προτεινόμενη τεχνική ανίχνευσης και εντοπισμού προσώπων μπορεί να αποτελέσει χρήσιμο εργαλείο για την αυτόματη ανάλυση και δεικτοδότηση σε βάσεις δεδομένων οπτικοακουστικού υλικού. Σε περιπτώσεις όπου απαιτείται υψηλή ακρίβεια και απόλυτη αξιοπιστία ή προσθήκη επιπρόσθετης πληροφορίας χαρακτηρισμού, η τεχνική μπορεί να χρησιμοποιηθεί ως ημι-αυτόματη διαδικασία που να αλληλεπιδρά με τον χειριστή. 12.2 ΜΟΝΤΕΛΟ ΠΙΘΑΝΟΤΗΤΑΣ ΧΡΩΜΑΤΟΣ ΔΕΡΜΑΤΟΣ Στην παρούσα Ενότητα περιγράφεται η μέθοδος με την οποία ανιχνεύεται το χρώμα του δέρματος. Σε ορισμένες κλασσικές μελέτες [54,109] παρατηρείται ότι οι αποχρώσεις του ανθρώπινου δέρματος καλύπτουν μια μικρή μόνο περιοχή του χρωματικού επιπέδου Cr-Cb του μοντέλου YCrCb. Με βάση την παρατήρηση αυτή, προτάθηκε στην εργασία [139] ένας γρήγορος αλγόριθμος ανίχνευσης δέρματος που ενέπνευσε πολλούς ερευνητές. Με ένα παρόμοιο τρόπο στο πλαίσιο της διατριβής η κατανομή του χρώματος δέρματος προσεγγίσθηκε από μία διδιάστατη κανονική (Γκαουσιανή) συνάρτηση πυκνότητας πιθανότητας. Επιπλέον, επεκτείνοντας την τεχνική της εργασίας [139], χρησιμοποιείται ένα μοντέλο ανάδρασης για την επανεκτίμηση και την προσαρμογή των παραμέτρων της κατανομής από τα διαθέσιμα δεδομένα. Παρά το γεγονός ότι σε πολλές περιπτώσεις ένας συνδυασμός Γκαουσιανών συναρτήσεων (mixture of Gaussians) προσεγγίζει καλύτερα την πραγματική κατανομή [102], τυχόν σφάλματα στην εκτίμηση της κατανομής αντισταθμίζονται με την προσαρμογή των παραμέτρων 132 ΜΕΡΟΣ IV Εφαρμογή στην Ανάλυση Δελτίων Ειδήσεων της, ενώ το στάδιο επαλήθευσης μειώνει το ποσοστό λανθασμένης ανίχνευσης (false alarm) που μπορεί να προκύψει από ατέλειες του μοντέλου. Επιπλέον, η εκτίμηση τέτοιων συνδυασμών συναρτήσεων είναι εν γένει δυσκολότερη, ενώ έχει αναφερθεί ότι μέθοδοι που βασίζονται σε ιστογράμματα δέρματος επιτυγχάνουν μεγαλύτερο ποσοστό ανίχνευσης, αλλά η προσαρμογή τους έχει μεγαλύτερο υπολογιστικό κόστος [71,116]. Έστω ότι μ0 και C είναι αντίστοιχα η μέση τιμή και ο πίνακας συμμεταβλητότητας των χρωματικών συνιστωσών Cr, Cb του ανθρώπινου δέρματος, διαστάσεων 2 1 και 2 2 αντίστοιχα. Η εκτίμηση των μ0 και C πραγματοποιείται αρχικά από ένα σύνολο εικόνων εκπαίδευσης οι οποίες περιέχουν πρόσωπα διαφορετικών φυλών και με διαφορετικές συνθήκες φωτισμού. Τότε, σύμφωνα με το μοντέλο της κανονικής ή Γκαουσιανής κατανομής (normal / Gaussian distribution), το διάνυσμα x = [Cr Cb]T των χρωματικών συνιστωσών ενός pixel ή μιας περιοχής (τμήματος) μιας εικόνας θεωρείται τυχαία μεταβλητή με συνάρτηση πυκνότητας πιθανότητας 1 exp - ( x - μ 0 )T C -1 ( x - μ 0 ) 2 Ps ( x| μ 0 , C ) = 1 /2 k /2 ( 2 π ) |C| (12-1) όπου k = 2 είναι ο αριθμός χρωματικών συνιστωσών. Με δεδομένη την κανονική κατανομή και ένα pixel ή μία περιοχή εικόνας που περιγράφεται από το διάνυσμα x, η πιθανοφάνεια (likelihood) να προέρχεται η περιοχή από ανθρώπινο πρόσωπο μπορεί να προσεγγισθεί από την ποσότητα 1 p s ( x ) = exp - ( x - μ 0 )T C - 1 ( x - μ 0 ) 2 (12-2) Με άλλα λόγια, με κατάλληλη κατωφλίωση της συνάρτησης ps(x), μία περιοχή εικόνας μπορεί να ταξινομηθεί σε περιοχή δέρματος ή μη δέρματος. Παρά το γεγονός ότι το παραπάνω μοντέλο κανονικής κατανομής είναι επαρκές κάτω από ελεγχόμενες συνθήκες φωτισμού, καλύτερη επίδοση ταξινόμησης σε μεταβαλλόμενο περιβάλλον μπορεί να επιτευχθεί με την επανεκτίμηση (re-estimation) της μέσης τιμής μ0 με βάση τα διαθέσιμα δεδομένα της εικόνας. Συγκεκριμένα, για την περίπτωση στατικών εικόνων, πραγματοποιείται αρχικά ένα πρώτο στάδιο ταξινόμησης με χρήση ενός κατωφλίου το οποίο υπολογίζεται από τα στατιστικά στοιχεία πιθανοφάνειας της παρούσας εικόνας, ώστε το μοντέλο να προσαρμόζεται στις μεταβαλλόμενες συνθήκες φωτισμού. Τότε οι περιοχές που ταξινομούνται ως περιοχές δέρματος χρησιμοποιούνται για την επανεκτίμηση της μ0 σύμφωνα με τη σχέση μ0 = (1 - m) μ + m μ0 (12-3) όπου μ είναι το μέσο διάνυσμα χρωματικών συνιστωσών των περιοχών που ταξινομούνται ως περιοχές δέρματος και m είναι μία παράμετρος μνήμης που καθορίζει το μέγεθος αναπροσαρμογής του μοντέλου. Μία μεγάλη τιμή μνήμης δεν επιτρέπει στο μοντέλο να μεταβληθεί σημαντικά, ενώ αντίθετα μία μικρή τιμή αναπροσαρμόζει γρήγορα το μοντέλο στα διαθέσιμα δεδομένα. Η εκτίμηση της σταθεράς πραγματοποιείται με την ταξινόμηση μεγάλου αριθμού εικόνων και την καταγραφή του ποσοστού εσφαλμένων ανιχνεύσεων (false alarm) συναρτήσει της m. Τότε η m προσδιορίζεται με την κατάλληλη επιλογή ενός σημείου στην καμπύλη που σχηματίζεται (ROC curve) [116]. Τα πειράματα δείχνουν ότι μία κατάλληλη τιμή είναι m = 0.7. Σημειώνεται ότι η επανεκτίμηση του πίνακα συμμεταβλητότητας C είναι επίσης δυνατή· η επίδρασή του όμως στην επιτυχία της ταξινόμησης προκύπτει αμελητέα. Κεφάλαιο 12 Εντοπισμός Προσώπων 133 Στη συνέχεια ακολουθεί ένα δεύτερο στάδιο ταξινόμησης με χρήση του αναπροσαρμοσμένου μοντέλου σε συνδυασμό με ένα νέο κατώφλι που υπολογίζεται βάσει του κριτηρίου μέγιστης πιθανοφάνειας στο σύνολο εικόνων εκπαίδευσης. Στην περίπτωση που δεν ανιχνεύεται καμία περιοχή δέρματος, η αναπροσαρμογή της μ0 θεωρείται άκυρη και η προηγούμενη τιμή της αποκαθίσταται. Η Εξίσωση (12-3) μπορεί να χρησιμοποιηθεί και σε πλήρως δυναμικό περιβάλλον. Συγκεκριμένα, στην περίπτωση των ακολουθιών εικόνων, το μοντέλο αναπροσαρμόζεται σε κάθε καρέ με βάση τα στατιστικά στοιχεία του προηγούμενου καρέ. Η προτεινόμενη μέθοδος αναπροσαρμογής επιτυγχάνει την παρακολούθηση μεταβολών φωτεινότητας σε ακολουθίες βίντεο ενώ ταυτόχρονα αντιμετωπίζει την εμφάνιση προσώπων με νέα χαρακτηριστικά χρώματος, χωρίς απόκλιση από το γενικό μοντέλο του χρώματος δέρματος, διατηρώντας έτσι χαμηλό ποσοστό εσφαλμένων ανιχνεύσεων. Επιπλέον, σε ένα αλληλεπιδραστικό περιβάλλον αναζήτησης με βάση το περιεχόμενο, η επανεκτίμηση των παραμέτρων του μοντέλου μπορεί να βασισθεί στα τμήματα προσώπου που επιλέγονται από τον τελικό χρήστη [15], όπως περιγράφεται στην Ενότητα 14.3. 12.3 ΕΞΑΓΩΓΗ ΤΜΗΜΑΤΩΝ ΠΡΟΣΩΠΟΥ Με χρήση του μοντέλου χρώματος δέρματος που παρουσιάσθηκε, η ανίχνευση, εντοπισμός και εξαγωγή τμημάτων προσώπου από εικόνες πραγματοποιείται σε τρία στάδια. Αρχικά πραγματοποιείται κατάτμηση με βάση το χρώμα, ακολουθούμενη από συγχώνευση των τμημάτων που αντιστοιχούν σε δέρμα, και υπολογίζεται η πιθανοφάνεια δέρματος για κάθε τμήμα εικόνας. Στη συνέχεια το σχήμα κάθε τμήματος αναλύεται για να προσδιορισθεί κατά πόσο ταιριάζει με το ωοειδές σχήμα του προσώπου. Τέλος, στο στάδιο επαλήθευσης πραγματοποιείται ταίριασμα με πρότυπο προσώπου στο εσωτερικό των τμημάτων που έχουν ανιχνευθεί κατά τα δύο πρώτα στάδια. Κατάτμηση με Βάση το Χρώμα Για την κατάτμηση με βάση το χρώμα χρησιμοποιείται ο αλγόριθμος M-RSST που παρουσιάσθηκε στην Ενότητα 1.2. Λόγω του ορισμού της απόστασης τμημάτων που δίνεται στην Εξίσωση (1-1) και της χαμηλής ανάλυσης της αρχικής εικόνας, τα μικρά τμήματα που αντιστοιχούν στις λεπτομέρειες ενός προσώπου συνήθως απαλείφονται και διατηρείται ένα μόνο τμήμα για ολόκληρη την επιφάνεια ενός προσώπου. Γι’ αυτό το λόγο ο αλγόριθμος M-RSST έχει χρησιμοποιηθεί και αυτόνομα για την ανίχνευση προσώπων με βάση το χρώμα [15]. Όπως φανερώνεται στα πειράματα όμως, εξακολουθούν να υπάρχουν αρκετές περιπτώσεις ­ ιδιαίτερα για πρόσωπα σε μεγάλη κλίμακα ­ όπου ακόμη και η βέλτιστη επιλογή κατωφλίου για τον τερματισμό της κατάτμησης δεν μπορεί να δώσει ένα και μόνο τμήμα για όλη την επιφάνεια του προσώπου χωρίς να συγχωνεύσει το τμήμα αυτό με γειτονικές περιοχές. Για τον παραπάνω λόγο η κατάτμηση συνδυάζεται με ένα επιπρόσθετο βήμα συγχώνευσης. Συγκεκριμένα, επιλέγεται αρχικά μία μικρή τιμή κατωφλίου τερματισμού, έτσι ώστε κάθε πρόσωπο να δίνει περισσότερα από ένα ­ τυπικά από δύο μέχρι έξι ­ τμήματα, αλλά να μη συγχωνεύεται με γειτονικές περιοχές άλλων αντικειμένων. Στη συνέχεια για κάθε τμήμα υπολογίζεται η πιθανοφάνεια χρώματος δέρματος ή πιθανοφάνεια δέρματος (skin-color likelihood) από την Εξίσωση (12-2), όπου ως x χρησιμοποιείται η μέση τιμή του διανύσματος χρωματικών συνιστωσών για όλη την επιφάνεια του τμήματος. Με βάση τις τιμές πιθανοφάνειας, πραγματο- 134 ΜΕΡΟΣ IV Εφαρμογή στην Ανάλυση Δελτίων Ειδήσεων ποιείται μία δεύτερη φάση συγχώνευσης τμημάτων δέρματος (skin-color merging). Στη φάση αυτή το μέτρο απόστασης για τα βάρη συνδέσμων μεταξύ δύο τμημάτων X, Y της εικόνας ορίζεται ως δc(X, Y) = [ max(1 - ps(X), 1 - ps(Y)) ]2 (12-4) όπου ps(X), ps(Y) είναι η πιθανοφάνεια δέρματος των τμημάτων X και Y αντίστοιχα, δηλαδή αντί για το την (1-1) χρησιμοποιείται η (12-4) στον αλγόριθμο M-RSST. Έτσι, στη φάση αυτή η συγχώνευση τμημάτων δεν εξαρτάται από το χρώμα ή το μέγεθος των τμημάτων, αλλά μόνο από την πιθανοφάνεια να προέρχονται από περιοχή προσώπου. Συνεπώς όλα τα γειτονικά τμήματα προσώπου συγχωνεύονται σε ένα και μόνο τμήμα ενώ η υπόλοιπη κατάτμηση παραμένει ανεπηρέαστη. Τέλος για κάθε ένα από τα τελικά τμήματα υπολογίζεται εκ νέου η πιθανοφάνεια δέρματος. (α) (β) (γ) (δ) Σχήμα 12-1. Κατάτμηση με βάση το χρώμα για ανίχνευση προσώπου. (α) Αρχική εικόνα. (β) Κατάτμηση με συγχώνευση τμημάτων δέρματος. (γ,δ) Κατάτμηση χωρίς συγχώνευση τμημάτων δέρματος, κατώφλι τερματισμού 2 και 22 αντίστοιχα. Ενδεικτικά αποτελέσματα της μεθόδου εμφανίζονται στο Σχήμα 12-1. Στην αρχική εικόνα του Σχήματος 12-1α εφαρμόζεται η προτεινόμενη τεχνική κατάτμησης με βάση το χρώμα και συγχώνευσης τμημάτων δέρματος, δίνοντας την εικόνα 12-1β, όπου παρατηρείται ότι τα δύο πρόσωπα ­ ένα σε κοντινό πλάνο και ένα μικρό τμήμα στο φόντο ­ εξάγονται με μεγάλη ακρίβεια. Το αποτέλεσμα αυτό δεν θα ήταν εφικτό μέσω κατάτμησης μόνο. Συγκεκριμένα, μία μικρή κατωφλίου προκαλεί τη διάσπαση του κεντρικού τμήματος προσώπου σε πολλά τμήματα, όπως φαίνεται στο Σχήμα 12-1γ· στην πραγματικότητα η εικόνα του Σχήματος 12-1β υπολογίσθηκε από την εικόνα του Σχήματος 12-1γ με συγχώνευση τμημάτων δέρματος. Από την άλλη μεριά, η προσπάθεια αύξησης του κατωφλίου προκαλεί τη συνένωση του δεξιού τμήματος του προσώπου με το υπόλοιπο σώμα, όπως φαίνεται στο Σχήμα 12-1δ. Κεφάλαιο 12 Εντοπισμός Προσώπων 135 (α) (β) (γ) (δ) Σχήμα 12-2. Σύγκριση προτεινόμενης μεθόδου κατάτμησης με την απευθείας κατωφλίωση. (α) Αρχική εικόνα. (β) Κατάτμηση με συγχώνευση τμημάτων δέρματος. (γ) Κατωφλίωση πιθανοφάνειας δέρματος των τμημάτων. (δ) Απευθείας κατωφλίωση των blocks της εικόνας με μορφολογικό closing. Όπως προτείνεται στην εργασία [132], ανίχνευση προσώπου είναι δυνατή και χωρίς κατάτμηση, δηλαδή με απ’ ευθείας κατωφλίωση στα blocks της εικόνας, σε συνδυασμό με κατάλληλη μορφολογική επεξεργασία στις δυαδικές μάσκες που προκύπτουν από την κατωφλίωση. Η προσέγγιση αυτή συγκρίνεται για μία ενδεικτική εικόνα με την προτεινόμενη τεχνική κατάτμησης στο Σχήμα 12-2. Για λόγους σύγκρισης, στο παράδειγμα αυτό η κατάτμηση και η συγχώνευση τμημάτων προσώπου εκτελούνται με υψηλότερο επίπεδο ανάλυσης ίσο με δύο, που αντιστοιχεί δηλαδή σε blocks μεγέθους 4 4 pixels. Το αποτέλεσμα της κατάτμησης για την αρχική εικόνα του Σχήματος 12-2α φαίνεται στο Σχήμα 12-2β, ενώ η δυαδική μάσκα που προκύπτει με κατωφλίωση της πιθανοφάνειας δέρματος φαίνεται στο Σχήμα 12-2γ. Αντίστοιχα, η απ’ ευθείας κατωφλίωση σε 4 4 blocks της αρχικής εικόνας με μορφολογικό closing δίνει τη μάσκα του Σχήματος 12-2δ. Παρατηρείται ότι παρά το γεγονός ότι το τμήμα του προσώπου είναι παραμορφωμένο στην τελευταία αυτή εικόνα, άσχετα αντικείμενα όπως τμήματα της βιβλιοθήκης στο φόντο δεν μπορούν να αποφευχθούν. Ανάλυση Σχήματος Επειδή αντικείμενα ξένα προς τα ανθρώπινα πρόσωπα, των οποίων όμως οι χρωματικές συνιστώσες είναι παρόμοιες με εκείνες των προσώπων, εμφανίζονται συχνά σε εικόνες και ακολουθίες εικόνων, είναι απαραίτητο να ληφθούν υπόψη και άλλα χαρακτηριστικά πέρα από το χρώμα. Στο δεύτερο στάδιο λοιπόν της ανίχνευσης αναλύεται το σχήμα του κάθε αντικειμένου ώστε να απορριφθούν τμήματα των οποίων το σχήμα απέχει πολύ από το τυπικό ωοειδές ή ελλειψοειδές σχήμα του προσώπου. Ιδανικά, μπορεί να υπολογισθεί ο βαθμός ομοιότητας του σχήματος ενός τμήματος με μία έλλειψη. Το ταίριασμα σχημάτων που έχουν υποστεί αυ- 136 ΜΕΡΟΣ IV Εφαρμογή στην Ανάλυση Δελτίων Ειδήσεων θαίρετες παραμορφώσεις είναι δυνατό με τη χρήση ενεργών περιγραμμάτων (active contours) ή παραμορφούμενων προτύπων (deformable templates) [19,69]. Επιπλέον, η ομοιόμορφη κίνηση αντικειμένων καθώς και οι affine μετασχηματισμοί όπως η μετατόπιση, η αλλαγή κλίμακας και η περιστροφή μπορούν να αφαιρεθούν από το περίγραμμα των αντικειμένων με χρήση κανονικοποίησης ή ποσοτήτων και μέτρων αναλλοίωτων στους μετασχηματισμούς αυτούς [16], όπως αναλύεται στο Μέρος III. Στις περισσότερες πρακτικές περιπτώσεις όμως, τα περιγράμματα αντικειμένων που προκύπτουν από την κατάτμηση απέχουν πολύ από τα ιδανικά. Ακόμη και αν τα περιγράμματα απλοποιούνται ή εξομαλύνονται, για παράδειγμα με χρήση splines, το ταίριασμα περιγραμμάτων δεν δίνει ικανοποιητικά αποτελέσματα. Γι’ αυτό το λόγο χρησιμοποιούνται μόνο δύο απλά χαρακτηριστικά του περιγράμματος. Συγκεκριμένα, για το περίγραμμα κάθε τμήματος X της εικόνας υπολογίζεται αρχικά το συμπαγές (compactness) g(X), το οποίο ορίζεται συναρτήσει της περιμέτρου και της συνολικής επιφάνειας του τμήματος ως εξής: g( X ) = 1 [ r ( X )]2 4 π a( X ) (12-5) όπου το r(X) συμβολίζει την περίμετρο (πλήθος σημείων περιγράμματος) και το a(X) την επιφάνεια (πλήθος pixels) του τμήματος X. Σημειώνεται ότι μέγιστη τιμή συμπαγούς είναι ίση με 1 και επιτυγχάνεται για το σχήμα του κύκλου, συνεπώς το g(X) είναι πάντα κανονικοποιημένο στο διάστημα [0,1]. Αυτό βέβαια ισχύει μόνο σε έναν Ευκλείδειο χώρο και ο διακριτός χώρος εικόνας στον οποίο υπολογίζονται οι ποσότητες r(X) και a(X) δεν είναι τέτοιος χώρος. Αυτό σημαίνει ότι το g(X) όπως ορίζεται στην Εξίσωση (12-5) μπορεί σε κάποιες περιπτώσεις να πάρει τιμές μεγαλύτερες από 1, αλλά αυτό δεν αποτελεί πρόβλημα γιατί το συμπαγές κανονικοποιείται περαιτέρω με χρήση μιας μη γραμμικής συνάρτησης όπως περιγράφεται παρακάτω. Στη συνέχεια υπολογίζεται η επιμήκυνση (elongation) με χρήση του μετασχηματισμού Hotelling ή διακριτού μετασχηματισμού Karhunen-Loeve. Έστω τα διανύσματα x και y, διαστάσεων N 1, περιέχουν τις συντεταγμένες των N σημείων του κλειστού περιγράμματος του τμήματος X. Τότε ο πίνακας συμμεταβλητότητας CX των σημείων αυτών, διαστάσεων N 1, δίνεται από τη σχέση C(X) = 1 [x - μx e N y - μy e]T [x - μx e y - μy e] (12-6) όπου (μx , μy) είναι το κέντρο βάρους του τμήματος και e είναι το N 1 διάνυσμα [1 1 ... 1]T. Τα δύο ιδιοδιανύσματα (eigenvectors) του πίνακα συμμεταβλητότητας εκφράζουν τους κύριους άξονες (principal axes)του σχήματος, και συγκεκριμένα το ιδιοδιάνυσμα που αντιστοιχεί στη μέγιστη ιδιοτιμή (eigenvalue) εκφράζει τον πρωτεύοντα ή μείζονα άξονα (major axis), ενώ εκείνο που αντιστοιχεί στην ελάχιστη ιδιοτιμή εκφράζει τον δευτερεύοντα ή ελάσσονα άξονα (minor axis). Επιπλέον, ο λόγος των δύο ιδιοτιμών καθορίζει την επιμήκυνση του περιγράμματος του τμήματος X: l(X) = λ 2 (C( X )) / λ 1 (C( X )) (12-7) όπου λ1(C(X)), λ2(C(X)) είναι αντίστοιχα η μέγιστη και ελάχιστη τιμή του C(X). Τα παραπάνω ολικά (global) χαρακτηριστικά περιγράμματος είναι ανθεκτικά στο θόρυβο και τις παραμορφώσεις, καθώς και αναλλοίωτα στη μετατόπιση, την αλλαγή κλίμακας και την περιστροφή. Κεφάλαιο 12 Εντοπισμός Προσώπων 137 μg(x) 1 (α) 0 0 μl(x) 1 0.3 0.4 0.8 0.9 1.0 x (β) 0 0 0.5 0.6 0.9 1.0 x Σχήμα 12-3. Μη γραμμικές συναρτήσεις συμμετοχής για το μετασχηματισμό των χαρακτηριστικών σχήματος. (α) Συμπαγές (compactness). (β) Επιμήκυνση (elongation). Τα πειράματα δείχνουν ότι οι τυπικές τιμές που αντιστοιχούν σε πραγματικά τμήματα προσώπου κυμαίνονται από 0.44 έως 0.79 για το συμπαγές και από 0.59 έως 0.91 για την επιμήκυνση. Συνεπώς, το ταίριασμα ενός περιγράμματος με περίγραμμα προσώπου επιτυγχάνεται με το μετασχηματισμό του συμπαγούς και της επιμήκυνσης μέσω κατάλληλων μη γραμμικών συναρτήσεων που παίρνουν τιμές στο διάστημα [0,1], όμοια τις ασαφείς συναρτήσεις συμμετοχής: g(X) = μg(g(X)), l(X) = μl(l(X)). Οι μη γραμμικές συναρτήσεις που χρησιμοποιούνται στα πειράματα φαίνονται στο Σχήμα 12-3. Το μετασχηματισμένο συμπαγές / επιμήκυνση είναι λοιπόν πάντα κανονικοποιημένο στο διάστημα [0,1] και ουσιαστικά εκφράζει την ομοιότητα με το συμπαγές / την επιμήκυνση ενός τυπικού περιγράμματος προσώπου. Τέλος, το μετασχηματισμένο συμπαγές g(X) και επιμήκυνση l(X) του τμήματος X συνδυάζονται με την πιθανοφάνεια δέρματος ps(X) που προκύπτει από την Εξίσωση (12-2), μέσω ενός γεωμετρικού μέσου με βάρη (weighted geometric mean). Έτσι προκύπτει μία συνολική πιθανοφάνεια προσώπου (face likelihood) του τμήματος X, η οποία συμβολίζεται με pf(X). Στην πράξη, τα βάρη εκτιμώνται εμπειρικά με βάση τα πειράματα και εξαρτώνται από τις τιμές συμπαγούς και επιμήκυνσης. Συγκεκριμένα, αφού η πιθανοφάνεια δέρματος ps(X) είναι συνήθως πιο αξιόπιστη για την ανίχνευση προσώπου ­ το χρώμα του δέρματος χαρακτηρίζει πολύ περισσότερο ένα ανθρώπινο πρόσωπο σε σχέση με το σχήμα του ­ ανατίθεται σε αυτό μεγαλύτερο βάρος, εκτός αν τα g(X) και l(X) παίρνουν τιμές κοντά στο μηδέν. Αυτό σημαίνει ότι τα χαρακτηριστικά σχήματος χρησιμοποιούνται ουσιαστικά μόνο για την απόρριψη τμημάτων με πολύ ακανόνιστο σχήμα των οποίων το χρώμα ταιριάζει με το μοντέλο χρώματος δέρματος. Ενδεικτικά αποτελέσματα της προτεινόμενης ανάλυσης παρουσιάζονται στα Σχήματα 124, 12-5 και 12-6 για μια ποικιλία ανάλυσης, ποιότητας και contrast εικόνας καθώς και πλήθους προσώπων και συνθηκών φωτισμού. Συγκεκριμένα, στο Σχήμα 12-4 παρουσιάζονται δύο εικόνες με ένα πρόσωπο σε κοντινό πλάνο. Η δεύτερη περιέχει επίσης ένα δεύτερο τμήμα προσώπου καθώς και ένα τμήμα χεριού. Στο Σχήμα 12-5 δύο εικόνες με δύο ή τρία πρόσωπα σε μακρινό πλάνο, δηλαδή σε μικρότερη κλίμακα από το Σχήμα 12-4. Η δεύτερη απ’ αυτές έχει ιδιαίτερα έντονο φωτισμό. Τέλος, στο Σχήμα 12-6 εμφανίζονται δύο εικόνες με περισσότερα 138 ΜΕΡΟΣ IV Εφαρμογή στην Ανάλυση Δελτίων Ειδήσεων από ένα πρόσωπα από τα οποία άλλα είναι σε μικρή και άλλα σε μεγάλη κλίμακα, ενώ οι γωνίες των προσώπων ποικίλουν επίσης. Οι τελευταίες εικόνες προέρχονται από εξωτερική λήψη και η πρώτη έχει πολύ χαμηλό contrast, ενώ η δεύτερη πολύ έντονο. (α) (β) (γ) Σχήμα 12-4. Ανίχνευση προσώπου σε εικόνες με ένα πρόσωπο σε κοντινό πλάνο. (α) Αρχική εικόνα. (β) Εικόνα πιθανοφάνειας δέρματος. (γ) Εικόνα πιθανοφάνειας προσώπου. (α) (β) (γ) Σχήμα 12-5. Ανίχνευση προσώπου σε εικόνες με περισσότερα από ένα πρόσωπα σε μακρινό πλάνο. (α) Αρχική εικόνα. (β) Εικόνα πιθανοφάνειας δέρματος. (γ) Εικόνα πιθανοφάνειας προσώπου. Σε όλα τα παραπάνω Σχήματα, στη στήλη (α) φαίνεται η αρχική εικόνα, στη στήλη (β) η εικόνα πιθανοφάνειας δέρματος μετά την κατάτμηση και τη συγχώνευση τμημάτων προσώπου, και στη στήλη (γ) η εικόνα πιθανοφάνειας προσώπου, μετά δηλαδή την ανάλυση σχήματος. Οι εικόνες πιθανοφάνειας σχηματίζονται αναθέτοντας σε κάθε τμήμα εικόνας ένα επίπεδο γκρι έτσι ώστε η τιμή 0 να αντιστοιχεί σε λευκό χρώμα και η τιμή 1 σε μαύρο. Παρατηρείται ότι σε όλες τις περιπτώσεις η εικόνα πιθανοφάνειας προσώπου υπερέχει της εικόνας πιθανοφάνειας δέρματος όσον αφορά στην ανίχνευση προσώπων. Αυτό είναι αναμενόμενο καθώς τα τμήματα με ακανόνιστο σχήμα απορρίπτονται ακόμη και αν το χρώμα ταιριάζει με το μοντέλο χρώματος δέρματος. Παρατηρείται επίσης ότι λόγω της επανεκτίμησης και αναπροσαρμογής του μοντέλου, τα τμήματα δέρματος ανιχνεύονται σωστά παρά τις έντονες διαφορές στις συνθήκες φωτισμού. Κεφάλαιο 12 Εντοπισμός Προσώπων 139 (α) (β) (γ) Σχήμα 12-6. Ανίχνευση προσώπου σε εικόνες με περισσότερα από ένα πρόσωπα, σε διαφορετικές κλίμακες και διαφορετικές συνθήκες φωτισμού. (α) Αρχική εικόνα. (β) Εικόνα πιθανοφάνειας δέρματος. (γ) Εικόνα πιθανοφάνειας προσώπου. Τα πρόσωπα που ανιχνεύονται από την εικόνα πιθανοφάνειας προσώπου ποικίλουν από ιδανικά έως οριακά αναγνωρίσιμα, ανάλογα με την ποιότητα και την πολυπλοκότητα της αρχικής εικόνας. Παρά το γεγονός ότι το σχήμα των τμημάτων προσώπου είναι σε πολλές περιπτώσεις έντονα παραμορφωμένο, σε όλα τα πρόσωπα αντιστοιχεί από ένα μόνο τμήμα εικόνας και οι απώλειες (dismissals) προσώπων είναι ελάχιστες. Παρατηρείται όμως ότι διατηρούνται πολλά τμήματα εικόνας, κυρίως τμήματα δέρματος, τα οποία δεν περιέχουν πρόσωπο. Για την αφαίρεση των τμημάτων αυτών τα χαρακτηριστικά χρώματος και σχήματος δεν επαρκούν, γι’ αυτό εξετάζεται περαιτέρω και η υφή τους, όπως περιγράφεται παρακάτω. Ταίριασμα με Πρότυπο Σε κάθε τμήμα εικόνας υπολογίζεται η πιθανοφάνεια προσώπου με βάση το μοντέλο χρώματος δέρματος και την ανάλυση σχήματος· αν η τιμή της πιθανοφάνειας προσώπου ξεπερνά ένα κατάλληλα επιλεγμένο κατώφλι τότε το τμήμα σημειώνεται ως ένα πιθανό τμήμα προσώπου και εξάγεται η ορθογώνια περιοχή που περιέχει το τμήμα (bounding rectangle). Κατά τη φάση επαλήθευσης, στο εσωτερικό της περιοχής αυτής πραγματοποιείται ταίριασμα με πρότυπο (template matching). Σκοπός της τεχνικής αυτής είναι να προσδιορισθεί αν υπάρχει ανθρώπινο πρόσωπο στην περιοχή και αν ναι να υπολογισθεί η θέση, η κλίμακα και ο προσανατολισμός του. Περισσότερες λεπτομέρειες υλοποίησης της τεχνικής περιλαμβάνονται στην εργασία [132]. Πρόκειται για μία διαδικασία με υψηλό κόστος διότι περιλαμβάνει εξαντλητική έρευνα για όλους τους συνδυασμούς των παραμέτρων (θέσης, κλίμακας και προσανατολισμού). Όμως η επιβάρυνση στη συνολική τεχνική ανίχνευσης προσώπων δεν είναι μεγάλη αφού η έρευνα πραγματοποιείται μόνο στο εσωτερικό των περιοχών που έχουν εντοπισθεί στα προηγούμενα στάδια και που συνήθως αντιπροσωπεύουν μικρό ποσοστό της συνολικής εικόνας. Επιπλέον, στην περίπτωση των ακολουθιών εικόνων, η χρονική συσχέτιση των διαδοχικών καρέ λαμβάνεται υπόψη για την επιτάχυνση της διαδικασίας. Η πληροφορία για τη θέση, κλίμακα και προσανατολισμό των προσώπων που ανιχνεύονται σε κάθε καρέ χρησιμοποιούνται για τον προσδιορισμό του αρχικού σημείο έρευνας στο επόμενο καρέ· έτσι ο απαιτούμενος χρόνος επαλήθευσης σε βίντεο μειώνεται δραστικά. 140 ΜΕΡΟΣ IV Εφαρμογή στην Ανάλυση Δελτίων Ειδήσεων Ενδεικτικά αποτελέσματα επαλήθευσης περιλαμβάνονται στο Σχήμα 12-7. Συγκεκριμένα, στο Σχήμα 12-7α φαίνεται μία εικόνα με πολλά πρόσωπα και τμήματα δέρματος που δεν προέρχονται από πρόσωπο. Τα εξωτερικά πλαίσια στο σχήμα αυτό δείχνουν τις περιοχές της εικόνας που ανιχνεύονται από το μοντέλο χρώματος δέρματος και την ανάλυση σχήματος, ενώ τα εσωτερικά δείχνουν την ακριβή θέση προσώπου που προσδιορίζεται μέσω του ταιριάσματος με πρότυπο. Παρατηρείται ότι από τα τρία πιθανά τμήματα προσώπου μόνο τα δύο διατηρούνται, ενώ το τμήμα χεριού απορρίπτεται. Παράλληλα η θέση του προσώπου προσδιορίζεται με μεγαλύτερη ακρίβεια. Όμοια, στο Σχήμα 12-7β φαίνεται μία εικόνα που περιέχει ένα μόνο πρόσωπο, το οποίο όμως καλύπτει μια μικρή περιοχή του αντίστοιχου τμήματος δέρματος. Και πάλι στο στάδιο επαλήθευσης εξάγεται η σωστή περιοχή του προσώπου. (α) (β) Σχήμα 12-7. Ανίχνευση και επαλήθευση πολλαπλών προσώπων. Τα εξωτερικά πλαίσια προκύπτουν από την ανίχνευση δέρματος και την ανάλυση σχήματος· τα εσωτερικά από ταίριασμα με πρότυπο προσώπου. (α) Εικόνα με πολλά πρόσωπα και τμήματα δέρματος που δεν προέρχονται από πρόσωπο (β) Εικόνα με ένα πρόσωπο που καλύπτει μικρή έκταση του αντίστοιχου τμήματος δέρματος. Σημειώνεται ότι η τεχνική ταιριάσματος με πρότυπο έχει χρησιμοποιηθεί και αυτόνομα για ανίχνευση και εντοπισμό προσώπων [133], και ιδιαίτερα σε ασπρόμαυρες εικόνες όπου δεν υπάρχει πληροφορία χρώματος και επομένως η τεχνική ανίχνευσης δέρματος δε μπορεί να εφαρμοσθεί. Το κύριο μειονέκτημά της είναι η υπολογιστική πολυπλοκότητα, αφού στην περίπτωση αυτή απαιτείται έρευνα σε όλη την επιφάνεια της εικόνας. Επιπλέον, για τον εντοπισμό περισσότερων από ένα πρόσωπα, το πλήθος των προσώπων πρέπει να είναι εκ των προτέρων γνωστό, αλλιώς απαιτείται αυθαίρετη ενός κατωφλίου που μπορεί να οδηγήσει σε αναξιόπιστα αποτελέσματα. Παρά τα μειονεκτήματα, η τεχνική αυτή εξακολουθεί να είναι χρήσιμη αφού υπάρχουν μεγάλες ποσότητες οπτικοακουστικού υλικού στο οποίο οι εικόνες είναι ασπρόμαυρες, ιδιαίτερα σε περιπτώσεις ιστορικών αρχείων. 12.4 ΠΕΙΡΑΜΑΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ Στην παρούσα Ενότητα δίνονται πειραματικά αποτελέσματα για την αξιολόγηση των προτεινόμενων τεχνικών. Συγκεκριμένα, περιλαμβάνονται δύο ομάδες πειραμάτων. Η πρώτη αφορά στην ανίχνευση δέρματος και περιλαμβάνει την κατάτμηση με βάση το χρώμα, τη συγχώνευση τμημάτων δέρματος και τον υπολογισμό και κατωφλίωση της πιθανοφάνειας δέρματος. Η δεύτερη αφορά στην ανίχνευση και στον εντοπισμό προσώπων και περιλαμβάνει επιπλέον την ανάλυση σχήματος και την επαλήθευση μέσω ταιριάσματος με πρότυπο. Κεφάλαιο 12 Εντοπισμός Προσώπων 141 Πειράματα Ανίχνευσης Δέρματος Για την αξιολόγηση της ανίχνευσης δέρματος χρησιμοποιείται υποσύνολο της βάσης δεδομένων του Compaq Cambridge Research Laboratory (CRL), η οποία παρουσιάζεται στην εργασία [71]. Η βάση αποτελείται από 4670 εικόνες δέρματος (skin images) που περιέχουν πρόσωπα και τμήματα δέρματος, και 8964 γενικές εικόνες (non-skin images) που δεν περιέχουν κανένα τμήμα δέρματος. Όλες οι εικόνες προέρχονται από παράλληλη έρευνα στο διαδίκτυο και είναι διαθέσιμες σε ανάλυση που κυμαίνεται από πολύ χαμηλή (50 50 pixels) έως σχετικά υψηλή (800 600 pixels), ενώ η ανάλυση χρώματος είναι για όλες τις εικόνες είναι 24bpp. Στις εικόνες δέρματος, όλα τα τμήματα δέρματος έχουν εντοπισθεί χειρονακτικά, με τη βοήθεια ενός εργαλείου που επιτρέπει τον ανεξάρτητο έλεγχο και ρύθμιση ενός αλγορίθμου κατάτμησης για κάθε εικόνα. Οι δυαδικές μάσκες που περιέχουν τις θέσεις των τμημάτων δέρματος περιλαμβάνονται επίσης στη βάση. Για τις ανάγκες των πειραμάτων επιλέχθηκαν τυχαία 213 εικόνες δέρματος μαζί με τις δυαδικές μάσκες τους, καθώς και 107 γενικές εικόνες. Το προτεινόμενο μοντέλο χρώματος δέρματος σε συνδυασμό με τη μέθοδο κατάτμησης και συγχώνευσης τμημάτων δέρματος εφαρμόσθηκε στο σύνολο των 320 εικόνων. Με κατωφλίωση της πιθανοφάνειας δέρματος κάθε τμήματος προκύπτει μια δυαδική μάσκα για κάθε εικόνα. Θεωρώντας τις μάσκες της βάσης ως «αληθείς» (ground truth) αξιολογήσαμε τα αποτελέσματα μετρήσεις ακρίβειας (precision) και ανάκλησης (recall) που παρουσιάζονται στον Πίνακα 12-1. Μέτρηση TAO TAP SAT NST P (%) 66.42 77.82 87.61 85.77 R (%) 85.69 85.36 93.57 88.46 Πίνακας 12-1. Αξιολόγηση ανίχνευσης δέρματος με βάση τις αληθείς μάσκες που περιλαμβάνονται στη βάση δεδομένων CRL. P: Precision (ακρίβεια). R: Recall (ανάκληση). Τα σύμβολα TAO, TAP, SAT και NST εξηγούνται στο κείμενο. Στην πραγματικότητα δίνονται τέσσερις τύποι μετρήσεων στον Πίνακα αυτό. Στον πρώτο τύπο μετρήσεων, η ακρίβεια μετράται ως η μέση τιμή του λόγου της κοινής επιφάνειας που καλύπτεται και από τις δύο μάσκες (εκτιμώμενη και αληθής) προς την επιφάνεια της εκτιμώμενης μάσκας, ενώ η για την ανάκληση χρησιμοποιείται ο λόγος της κοινής επιφάνειας προς την επιφάνεια της αληθούς μάσκας. Η μέτρηση αυτή συμβολίζεται ως TAO (Total Area, Original) στον Πίνακα 12-1. Στον δεύτερο τύπο μετρήσεων, που συμβολίζεται ως TAP (Total Area, after Processing), οι αληθείς μάσκες υφίστανται πρώτα επεξεργασία μορφολογικού closing. Παρατηρείται ότι η ακρίβεια βελτιώνεται σημαντικά αφού οι αρχικές αληθείς μάσκες δεν περιέχουν λεπτομέρειες του προσώπου όπως τα μάτια, τα μαλλιά και το στόμα. Στον τρίτο τύπο μετρήσεων, που συμβολίζεται ως SAT (Segment Area, with Thresholding), οι μάσκες χωρίζονται πρώτα σε ανεξάρτητα τμήματα δέρματος. Ξεκινώντας από μία εκτιμώμενη μάσκα, κάθε τμήμα της θεωρείται «σωστό» αν το 55% τουλάχιστον της επιφάνειάς του καλύπτεται από τμήματα δέρματος της αληθούς μάσκας. Η αντικατάσταση της κοινής επιφάνειας με τη συνολική επιφάνεια «σωστών» τμημάτων δίνει μια νέα μέτρηση ακρίβειας, ενώ η ανάκληση υπολογίζεται με μία ανάλογη διαδικασία ξεκινώντας από τις αληθείς μάσκες. Λόγω της χρησιμοποιούμενης κατωφλίωσης, η ακρίβεια και η ανάκληση είναι και οι δύο υψηλότερες. Επιπλέον, οι μετρήσεις αυτές είναι πιο αξιόπιστες αφού ένα τμήμα 142 ΜΕΡΟΣ IV Εφαρμογή στην Ανάλυση Δελτίων Ειδήσεων δέρματος θα έπρεπε να θεωρείται σωστό ακόμη και όταν δεν ταιριάζει απόλυτα με το αληθές, και λανθασμένο ακόμη και όταν έχει μια μικρή επικάλυψη με το αληθές. Τέλος, η ακρίβεια και η ανάκληση μετρούνται με βάση τον αριθμό τμημάτων δέρματος αντί για τις αντίστοιχες επιφάνειες. Αυτός ο τύπος μετρήσεων συμβολίζεται ως NST (Number of Segments, with Thresholding) στον Πίνακα 12-1. Οι μετρήσεις σε αυτή την περίπτωση είναι ελαφρώς μικρότερες αφού η απώλεια ενός πολύ μικρού τμήματος είναι τώρα ισοδύναμη με την απώλεια ενός μεγάλου. (α) (β) (γ) (δ) TAO TAP SAT NST P (%) 79.8 90.2 100 100 R (%) 98.1 98.2 100 100 TAO TAP SAT NST P (%) 71.5 80.0 99.2 75.0 R (%) 63.8 64.4 55.7 66.7 TAO TAP SAT NST P (%) 10.5 13.4 18.4 50.0 R (%) 73.2 75.2 87.5 50.0 TAO TAP SAT NST P (%) 45.0 60.1 65.5 25.0 R (%) 84.6 86.5 100 100 Σχήμα 12-8. Χαρακτηριστικά παραδείγματα ανίχνευσης δέρματος σε εικόνες της βάσης CRL. (α) Αληθείς μάσκες. (β) Εκτιμώμενες μάσκες. (γ) Αληθείς μάσκες μετά από μορφολογικό closing. (δ) Μετρήσεις ακρίβειας / ανάκλησης. Στο Σχήμα 12-8 δίνονται κάποια χαρακτηριστικά παραδείγματα για να γίνουν οι παραπάνω μετρήσεις πιο κατανοητές. Στο Σχήμα περιλαμβάνονται μόνο μάσκες· για τις αρχικές εικόνες δεν υπάρχει άδεια δημοσίευσης λόγω ζητημάτων πνευματικής ιδιοκτησίας. Η πρώτη στήλη του Σχήματος 12-8 παρουσιάζει μία τυπική περίπτωση επιτυχίας. Παρόλο που αναμένεται υψηλή τιμή ακρίβειας, η μέτρηση TAO είναι μόνο 79.76% λόγω των περιοχών των ματιών και της μύτης που δεν περιλαμβάνονται στην αρχική αληθή μάσκα. Αντίθετα, μετά το μορφολογικό closing (μέτρηση TAP) η ακρίβεια αυξάνεται στο 90.23%. Για τις μετρήσεις SAT και NST παρουσιάζεται απόλυτη επιτυχία, αφού και τα δύο τμήματα προσώπου έχουν ανιχνευθεί. Στη δεύτερη στήλη του Σχήματος 12-8 παρουσιάζεται μία ακραία περίπτωση χαμηλής ανάκλησης· σχεδόν ένα ολόκληρο τμήμα χεριού χάνεται λόγω των συνθηκών φωτισμού (χρωματισμένη πηγή). Η μέτρηση SAT για την ανάκληση είναι η χαμηλότερη, δείχνοντας ότι η διαδικασία κατωφλίωσης δεν ωφελεί πάντα τις μετρήσεις. Όμοια, στην τρίτη στήλη φαίνεται η χειρότερη περίπτωση όσον αφορά στην ακρίβεια. Ένα μεγάλο αντικείμενο ταξινομείται εσφαλμένα ως τμήμα δέρματος· τέτοιες περιπτώσεις είναι αναπόφευκτες και αναδεικνύουν τη σημασία του σταδίου επαλήθευσης. Τέλος, στην τέταρτη στήλη εμφανίζεται μια περίπτωση όπου η αληθής μάσκα δεν περιλαμβάνει τρία τμήματα δέρματος ­ δύο πρόσωπα και ένα χέρι Κεφάλαιο 12 Εντοπισμός Προσώπων 143 ­ που υπάρχουν στην αρχική εικόνα. Στην περίπτωση αυτή όλες οι μετρήσεις είναι προφανώς εσφαλμένες. Πειράματα Ανίχνευσης Προσώπων Για την αξιολόγηση της ανίχνευσης και εντοπισμού προσώπων, που περιλαμβάνει τα προηγούμενα στάδια ανάλυσης καθώς και την ανάλυση σχήματος και το στάδιο επαλήθευσης (ταίριασμα με πρότυπο), πραγματοποιήθηκαν δύο πειράματα: ένα σε ακίνητες εικόνες και ένα σε ακολουθίες εικόνων. Και στις δύο περιπτώσεις η αξιολόγηση έγινε με μετρήσεις ακρίβειας και ανάκλησης, όπως και για την ανίχνευση δέρματος. Σε όλες τις διαθέσιμες εικόνες (ή καρέ) τα «αληθή» (ground truth) στοιχεία των προσώπων είτε υπήρχαν στις βάσεις δεδομένων που χρησιμοποιήθηκαν είτε προσδιορίσθηκαν χειρονακτικά. Έτσι η ακρίβεια υπολογίσθηκε ως ο λόγος των προσώπων που εντοπίσθηκαν σωστά προς το συνολικό αριθμό προσώπων που εντοπίσθηκαν, ενώ η ανάκληση ως ο λόγος των προσώπων που εντοπίσθηκαν σωστά προς το συνολικό αριθμό αληθών προσώπων. Παρατηρείται ότι η ακρίβεια είναι η αντίθετη έννοια του ποσοστού λανθασμένης ανίχνευσης (false alarm) και η ανάκληση η αντίθετη έννοια του ποσοστού απώλειας (dismissal). Μέτρηση Συνολικές εικόνες / καρέ Εικόνες με πρόσωπα Συνολικά πρόσωπα Εντοπισμένα πρόσωπα Σωστά εντοπισμένα πρόσωπα Ακρίβεια (%) Ανάκληση (%) MET (sec) Εικόνες 420 305 409 379 368 97.10 89.98 1.9 Ακολουθίες 701 643 736 681 667 97.94 90.63 1.5 Πίνακας 12-2. Αξιολόγηση ανίχνευσης προσώπων σε έγχρωμες εικόνες και ακολουθίες εικόνων. MET: Mean Execution Time (μέσος χρόνος εκτέλεσης). Το οπτικό υλικό του πειράματος στατικών εικόνων περιλαμβάνει 100 καρέ από τηλεοπτικά προγράμματα σε ανάλυση CIF, καθώς και τις 320 εικόνες της βάσης Compaq CRL που χρησιμοποιήθηκαν και στο πείραμα ανίχνευσης δέρματος. Τα αληθή στοιχεία προσώπων προσδιορίσθηκαν χειρωνακτικά για τις 100 εικόνες τηλεοπτικών προγραμμάτων, ενώ για τις υπόλοιπες 320 εικόνες απλώς επιλέχθηκαν οι περιοχές προσώπων από τις μάσκες δέρματος που είναι διαθέσιμες στη βάση CRL. Από το σύνολο των 420 εικόνων κάποιες δεν περιέχουν κανένα πρόσωπο ενώ άλλες περιέχουν ένα ή και περισσότερα πρόσωπα· συνολικά σε όλες τις εικόνες περιέχονται 409 πρόσωπα. Τα αποτελέσματα ανίχνευσης προσώπων παρουσιάζονται στην πρώτη γραμμή του Πίνακα 12-2: ανιχνεύονται 379 πρόσωπα από τα οποία 368 είναι σωστά. Η κύρια αιτία απωλειών είναι η αποτυχία ανίχνευσης όλων των πιθανών τμημάτων δέρματος, ενώ οι λανθασμένες ανιχνεύσεις (false alarms) οφείλονται κυρίως στο στάδιο επαλήθευσης. Παρατηρείται ότι λόγω του συνδυασμού του μοντέλου χρώματος δέρματος και του ταιριάσματος με πρότυπο επιτυγχάνεται πολύ υψηλό ποσοστό ακρίβειας· η ανάκληση είναι χαμηλότερη λόγω ατελειών του χρωματικού μοντέλου. Στο πείραμα ακολουθιών εικόνων το οπτικό υλικό αποτελείται κυρίως από 20 ακολουθίες μήκους 30 καρέ η κάθε μια, οι οποίες καταγράφηκαν από προγράμματα τηλεοπτικών ειδήσεων. Περιέχονται επίσης δύο ακολουθίες της βάσης Boston University IVC [116] από κινημα- 144 ΜΕΡΟΣ IV Εφαρμογή στην Ανάλυση Δελτίων Ειδήσεων τογραφικές ταινίες, και συγκεκριμένα οι ακολουθίες #3 (μήκους 52 καρέ) και #12 (μήκους 49 καρέ). Και πάλι τα αληθή στοιχεία για τα τηλεοπτικά προγράμματα υπολογίσθηκαν χειρονακτικά, ενώ για τις ακολουθίες της βάσης IVC επιλέχθηκαν τα τμήματα προσώπου από τις μάσκες δέρματος που ήταν διαθέσιμες στη βάση. Τα αποτελέσματα ανίχνευσης για το σύνολο των 701 καρέ που περιέχουν 736 πρόσωπα παρουσιάζονται στη δεύτερη γραμμή του Πίνακα 12-2. Οι μετρήσεις ακρίβειας και ανάκλησης είναι κοντά σε εκείνες του πειράματος στατικών εικόνων. Ο μέσος χρόνος εκτέλεσης ανά καρέ όμως μειώνεται λόγω της εκμετάλλευσης της χρονικής συσχέτισης των διαδοχικών καρέ. Πλήρης έρευνα στο στάδιο επαλήθευσης πραγματοποιείται μόνο στο πρώτο καρέ κάθε ακολουθίας· στα υπόλοιπα η θέση κάθε προσώπου ενός καρέ χρησιμοποιείται για τον προσδιορισμό του αρχικού σημείου έρευνας του επόμενου καρέ. Κεφάλαιο 13 Συντακτική Ανάλυση Δελτίων Ο αξιόπιστος εντοπισμός ανθρώπινων προσώπων σε συνδυασμό με άλλα χαρακτηριστικά χρώματος και κίνησης σε μία ακολουθία δελτίων ειδήσεων είναι δυνατόν να οδηγήσει στην ταξινόμηση των πλάνων της ακολουθίας σε προκαθορισμένες κατηγορίες. Συγκεκριμένα, σε κάθε ακολουθία πραγματοποιείται αρχικά ανίχνευση αλλαγής πλάνων και στη συνέχεια τα πλάνα ταξινομούνται μέσω ενός αριθμού απλών κανόνων στις κατηγορίες «παρουσιαστής», «ρεπορτάζ / συνέντευξη», «στατική εικόνα» και «εξωτερικό πλάνο». Κάθε κατηγορία χαρακτηρίζεται από συγκεκριμένες ιδιότητες όπως την ύπαρξη ενός, δύο ή περισσότερων προσώπων σε κοντινό πλάνο ή στο φόντο της εικόνας, την κίνηση των προσώπων αυτών, τη μεταβολή του ιστογράμματος χρώματος της συνολικής εικόνας και την κίνηση που παρουσιάζεται στο φόντο. Με δεδομένο ότι στην τυπική οργάνωση των τηλεοπτικών ειδήσεων περιλαμβάνονται επαναλαμβανόμενες εμφανίσεις του παρουσιαστή εναλλάξ με άλλα είδη πλάνων, η ταξινόμηση αυτή οδηγεί άμεσα στη συντακτική ανάλυση, δηλαδή στη χρονική κατάτμηση των δελτίων σε στοιχειώδεις ενότητες ειδήσεων. Πρόκειται λοιπόν για ένα θετικό βήμα προς την κατεύθυνση της σημασιολογικής κατάτμησης σε θεματικές ενότητες, η οποία βεβαίως απαιτεί και άλλα είδη πληροφορίας εκτός από την οπτική, όπως για παράδειγμα την ακουστική και τη γλωσσική πληροφορία. Περιλαμβάνονται πειράματα ανάλυσης μεγάλου αριθμού ακολουθιών από δελτία ειδήσεων που αξιολογούνται, όπως και στην περίπτωση του εντοπισμού προσώπων, με μετρήσεις ακρίβειας και ανάκλησης· τα αποτελέσματα είναι ιδιαίτερα ενθαρρυντικά αν ληφθεί υπόψη η απλότητα των χρησιμοποιούμενων κριτηρίων ταξινόμησης. 13.1 ΑΝΑΛΥΣΗ ΔΕΛΤΙΩΝ ΕΙΔΗΣΕΩΝ Τ α ψηφιακά αρχεία τηλεοπτικών δελτίων ειδήσεων αποτελούν σημαντική πηγή οπτικοακουστικού υλικού για δύο κυρίως λόγους. Πρώτον, παρά το γεγονός ότι δεν έχουν κά- ποια συγκεκριμένη δομή όσον αφορά στο περιεχόμενο, όπως οποιοδήποτε οπτικοακουστικό υλικό [152], η τυπική οργάνωσή τους σε θεματικές ενότητες που περιλαμβάνουν επαναλαμβανόμενη εμφάνιση παρουσιαστών, ρεπορτάζ και εξωτερικών λήψεων, επιτρέπει εύκολη συντακτική ανάλυση (parsing). Με άλλα λόγια είναι δυνατή η χρονική τους κατάτμηση σε στοιχειώδεις ενότητες και η εξαγωγή πληροφορίας περιεχομένου από χαμηλού επιπέδου οπτικοακουστικά χαρακτηριστικά. Δεύτερον, συστήματα πλήρως αυτοματοποιημένης δεικτοδότησης (indexing) και χαρακτηρισμού (annotation) δελτίων ειδήσεων θα είναι πολύτιμα για τους αναλυτές δεδομένων σε πρακτορεία ειδήσεων, δημοσιογραφικούς οργανισμούς, κρατικές υπηρεσίες, τηλεοπτικούς παραγωγούς και υπηρεσίες παροχής πληροφοριών [87], καθώς για το σκοπό αυτό χρησιμοποιούνται παραδοσιακά χειρονακτικές μέθοδοι με υψηλό κόστος. Για το σκοπό αυτό έχει αναπτυχθεί πρόσφατα σημαντικός αριθμός πρότυπων συστημάτων που επιτρέπουν την αυτόματη ή ημι-αυτόματη ανάλυση και χαρακτηρισμό δελτίων ειδήσεων [22,86,93,152]. Τέτοια συστήματα καθιστούν δυνατή την πλοήγηση ειδήσεων με 145 146 ΜΕΡΟΣ IV Εφαρμογή στην Ανάλυση Δελτίων Ειδήσεων αλληλεπίδραση του χρήστη, την αναζήτηση με βάση το περιεχόμενο, καθώς και τη δημιουργία εφαρμογών ειδήσεων κατ’ απαίτηση (news on demand, NoD). Τα περισσότερα απ’ αυτά όμως βασίζονται σχεδόν αποκλειστικά σε γλωσσική πληροφορία (linguistic cues) και πληροφορία κειμένου (textual cues), όπως για παράδειγμα οι υπότιτλοι (closed-caption tokens) και οι εγγραφές teletext (teletext transcripts) που είναι διαθέσιμες από την παραγωγή των δελτίων. Είναι όμως κοινά αποδεκτό ότι η οπτικοακουστική πληροφορία (audiovisual cues) θα πρέπει να διαδραματίσει σημαντικότερο ρόλο στο μέλλον [134], ενώ για την ενσωμάτωση όλων των πληροφοριών περιεχομένου σε μια ενιαία περιγραφή για τη σημασιολογική κατάτμηση των ειδήσεων θα απαιτήσει μεθόδους τεχνητής νοημοσύνης. Η ενσωμάτωση πληροφορίας έχει αντιμετωπισθεί με χρήση τεχνικών όπως ο δυναμικός προγραμματισμός (dynamic programming) [93], τα finite state machines [87] και τα hidden Markov models [40]. Από την άλλη μεριά όμως, ο ρόλος της οπτικοακουστικής πληροφορίας στα υπάρχοντα συστήματα συνήθως περιορίζεται σε πολύ απλά στάδια επεξεργασίας. Για παράδειγμα η ακουστική πληροφορία χρησιμοποιείται για την ανίχνευση περιόδων σιωπής, οι οποίες συνήθως λαμβάνουν χώρα κατά την αλλαγή θεματικής ενότητας σε ένα δελτίο, ενώ η οπτική πληροφορία για την ανίχνευση της μαύρης οθόνης η οποία συνήθως εμφανίζεται κατά τη διακοπή ενός δελτίου για διαφημιστικά μηνύματα [87]. Η περαιτέρω αξιοποίηση λοιπόν της οπτικοακουστικής πληροφορίας θα μπορούσε να συμβάλλει αποφασιστικά στη βελτίωση της επίδοσης αυτών των συστημάτων. Επιπλέον η απουσία πληροφορίας κειμένου από ένα σημαντικό αριθμό τηλεοπτικών προγραμμάτων ειδήσεων και κυρίως από ιστορικά αρχεία ειδήσεων δε μπορεί να υποτιμηθεί. Για τους παραπάνω λόγους προτείνεται στο πλαίσιο της διατριβής μία τεχνική χρονικής κατάτμησης και συντακτικής ανάλυσης δελτίων ειδήσεων βασισμένη αποκλειστικά στην οπτική πληροφορία. Επειδή το επικρατέστερο τμήμα περιεχομένου των δελτίων ειδήσεων σχετίζεται με ανθρώπινες δραστηριότητες, οι εικόνες ανθρώπων και ιδιαίτερα προσώπων παίζουν σημαντικότατο ρόλο στην ανάλυση της δομής των δελτίων· έτσι η προτεινόμενη τεχνική στηρίζεται στην ανίχνευση προσώπων. Όπως περιγράφηκε στο προηγούμενο Κεφάλαιο, ο χρησιμοποιούμενος αλγόριθμος ανίχνευσης προσώπων περιλαμβάνει την κατάτμηση με βάση το χρώμα, την ανίχνευση του χρώματος δέρματος με χρήση ενός προσαρμοζόμενου μοντέλου κατανομής πιθανότητας, την ανάλυση σχήματος των τμημάτων δέρματος καθώς και το ταίριασμα με πρότυπα προσώπου στο στάδιο επαλήθευσης. Ο αλγόριθμος έχει παρουσιασθεί στις εργασίες [131,132]. Η ανίχνευση αλλαγής πλάνων που παρουσιάσθηκε στην Ενότητα 5.1 μαζί με ένα σύνολο απλών κανόνων για τον κατάλληλο συνδυασμό των χαρακτηριστικών των τμημάτων προσώπου (όπως η θέση, το μέγεθος, τα χαρακτηριστικά χρώματος, το σχήμα και η κίνηση) με τη δραστηριότητα που εμφανίζεται στο φόντο της εικόνας, επιτρέπει την αναγνώριση τυπικών σκηνών των δελτίων, όπως οι σκηνές του παρουσιαστή (anchorperson shots), τα ρεπορτάζ (reports), τα εξωτερικά πλάνα (outdoor shots) και οι στατικές εικόνες (static images). Έτσι στην προτεινόμενη τεχνική ανάλυσης τα πλάνα ταξινομούνται σε μία από τις προηγούμενες κατηγορίες· η ταξινόμηση αυτή αποτελεί σημαντικό βήμα προς την κατεύθυνση της αναγνώρισης των θεματικών ενοτήτων ενός δελτίου, αφού οι θεματικές ενότητες συνήθως περιλαμβάνουν επαναλαμβανόμενη εμφάνιση του παρουσιαστή εναλλάξ με τα υπόλοιπα είδη πλάνων. Η προτεινόμενη τεχνική συντακτικής ανάλυσης δελτίων ειδήσεων με χρήση οπτικής πληροφορίας είναι πρωτότυπη και δημοσιεύθηκε για πρώτη φορά στην εργασία [9]. Η τεχνική Κεφάλαιο 13 Συντακτική Ανάλυση Δελτίων 147 μπορεί είτε να χρησιμοποιηθεί ως ανεξάρτητη εφαρμογή για την ανάλυση και χαρακτηρισμό δελτίων ειδήσεων στα οποία απουσιάζει η πληροφορία κειμένου, είτε να ενσωματωθεί σε υπάρχοντα συστήματα συνδυάζοντας την οπτικοακουστική με τη γλωσσική πληροφορία. 13.2 ΤΑΞΙΝΟΜΗΣΗ ΠΛΑΝΩΝ Η ακολουθία βίντεο ενός δελτίου ειδήσεων αναλύεται αρχικά σε πλάνα με την τεχνική που παρουσιάσθηκε στην Ενότητα 5.1. Στη συνέχεια σε κάθε καρέ της ακολουθίας πραγματοποιείται ανίχνευση προσώπων με τον αλγόριθμο του Κεφαλαίου 12. Η εικόνα πιθανοφάνειας προσώπου που παράγεται για κάθε καρέ χρησιμοποιείται για την ανίχνευση κοντινών πλάνων (close-ups) προσώπου, τα οποία αποτελούν μία καλή ένδειξη για την εμφάνιση ενός παρουσιαστή, ενός ρεπόρτερ / ανταποκριτή ή γενικότερα ενός ομιλητή σε συνέντευξη. Συγκεκριμένα, το μέγεθος των εξαγόμενων τμημάτων προσώπου χρησιμοποιείται για την απομόνωση κοντινών προσώπων, δηλαδή μεγάλων τμημάτων, και την απόρριψη μικρότερων, που ενδεχομένως αντιστοιχούν σε πρόσωπα στο φόντο της εικόνας, σε χέρια ή και άλλα αντικείμενα. Επιπλέον, η έρευνα στην αναγνώριση προσώπων έχει δείξει ότι πρόσωπα με ανάλυση μικρότερη από 32 32 pixels είναι μη αναγνωρίσιμα. Βασιζόμενοι σε αυτό το συμπέρασμα επιβάλλουμε ένα όριο για την απόρριψη τμημάτων προσώπου τα οποία καταλαμβάνουν ποσοστό λιγότερο από 3% της συνολικής επιφάνειας της εικόνας. Με τον τρόπο αυτό διατηρούνται συνήθως ένα, δύο ή και τρία επικρατέστερα πρόσωπα (dominant faces), τα οποία θεωρείται ότι αντιστοιχούν σε κοντινά πλάνα προσώπου (close-ups). Στη συνέχεια χρησιμοποιούνται και πάλι ασαφείς συναρτήσεις συμμετοχής για τη θέση και το μέγεθος των επικρατέστερων προσώπων για την ταξινόμηση κάθε καρέ ανάλογα με το πλήθος κοντινών πλάνων προσώπου που περιέχουν. Η ταξινόμηση περιλαμβάνει τρεις κατηγορίες καρέ, δηλαδή τα καρέ που περιέχουν κανένα, ένα ή δύο κοντινά πλάνα προσώπου. Η χρονική μεταβολή των χαρακτηριστικών των επικρατέστερων τμημάτων προσώπου, και κυρίως της θέσης και του μεγέθους τους λαμβάνεται υπόψη για την λεπτομερέστερη ταξινόμηση των καρέ. Για την ταξινόμηση αυτή τα παραπάνω χαρακτηριστικά συνδυάζονται με την πληροφορία κίνησης του φόντου (background) της εικόνας, η οποία αποτελεί ένδειξη για την δραστηριότητα που λαμβάνει χώρα στο πλάνο, και επομένως για το αν πρόκειται για εσωτερική ή εξωτερική λήψη. Συγκεκριμένα: (α) ένα ή δύο κοντινά πλάνα προσώπου σε στατικό φόντο ταξινομούνται ως σκηνές ενός ή δύο παρουσιαστών (single / double anchor) (β) ένα ή δύο κοντινά πλάνα προσώπου σε κινούμενο φόντο ταξινομούνται ως ρεπορτάζ / συνέντευξη (report / interview) (γ) εικόνες με στατικό φόντο που δεν περιέχουν πρόσωπα ταξινομούνται ως στατικές εικόνες (static images)· τέτοιες εικόνες συνήθως εμφανίζονται σε οικονομικά ή αθλητικά ρεπορτάζ, ή σε δελτία καιρού (δ) τέλος, άλλες περιπτώσεις καρέ που παρουσιάζουν κίνηση και περιέχουν μικρά ή καθόλου πρόσωπα ταξινομούνται ως εξωτερικά πλάνα (outdoor shots) Η κίνηση του φόντου εκτιμάται μέσω της απόλυτης διαφοράς εικόνας μεταξύ διαδοχικών καρέ· η αντιστάθμιση κίνησης δεν είναι απαραίτητη εδώ όπως στην ανίχνευση αλλαγής πλάνου, 148 ΜΕΡΟΣ IV Εφαρμογή στην Ανάλυση Δελτίων Ειδήσεων αφού ο σκοπός είναι μόνο η ταξινόμηση του φόντου ως στατικού ή κινούμενου, επιτρέποντας τη διάκριση ανάμεσα σε εξωτερική και εσωτερική λήψη (στούντιο). Αφού ταξινομηθεί κάθε καρέ ενός πλάνου σε μία από τις παραπάνω κατηγορίες, είναι δυνατή η ταξινόμηση ολόκληρου του πλάνου· κάτι τέτοιο πραγματοποιείται με την εκτίμηση της κατηγορίας (παρουσιαστής, ρεπορτάζ, στατική εικόνα ή εξωτερικό πλάνο) που περιγράφει καλύτερα το πλάνο, δηλαδή την πλειοψηφία των καρέ. Σε περιπτώσεις μάλιστα που διαδοχικά τμήματα ενός πλάνου ταξινομούνται σε διαφορετικές κατηγορίες, είναι δυνατή η επιπλέον χρονική κατάτμηση του πλάνου. Η χρονική κατάτμηση ενός δελτίου ειδήσεων είναι λοιπόν εφικτή μέσω της ανίχνευσης αλλαγής πλάνου (shot change detection) και της ταξινόμησης πλάνων (shot classification) με χρήση των παραπάνω κριτηρίων. Η ανίχνευση αλλαγής πλάνου, όπως αναλύεται στην Ενότητα 5.1, πραγματοποιείται με την κατωφλίωση των διαφορών καρέ μετά από αντιστάθμιση κίνησης· πρόκειται για μια απλή αλλά γρήγορη τεχνική, ιδιαίτερα όταν τα διανύσματα κίνησης και το σφάλμα εκτίμησης κίνησης είναι ήδη διαθέσιμα, όπως σε ακολουθίες MPEG. Με τον τρόπο αυτό ανιχνεύονται μόνο οι απότομες αλλαγές πλάνου, οι οποίες βέβαια έχουν και τη συντριπτική πλειοψηφία σε ακολουθίες βίντεο από δελτία ειδήσεων. Για την ανίχνευση ομαλής μετάβασης (transition) από ένα πλάνο στο επόμενο, όπως για παράδειγμα για μεταβάσεις τύπου zoom, wipe και dissolve, μπορούν να χρησιμοποιηθούν πιο εξειδικευμένες τεχνικές [21]. Επειδή κοντινά πλάνα προσώπου σε στατικό φόντο μπορούν να εμφανιστούν και σε περιπτώσεις διαφορετικές από εκείνη του κεντρικού παρουσιαστή (π.χ. στην περίπτωση ενός ανταποκριτή που μεταδίδει ρεπορτάζ από εσωτερικό χώρο), τα πλάνα παρουσιαστή φιλτράρονται περαιτέρω. Συγκεκριμένα, υλοποιείται ομαδοποίηση (clustering) σύμφωνα με το ιστόγραμμα χρώματος (color histogram) του φόντου με χρήση του αλγορίθμου K-means, όπως και στην περίπτωση επιλογής χαρακτηριστικών πλάνων στην Ενότητα 5.2. Στη συνέχεια επιλέγεται η ομάδα πλάνων με τα περισσότερα μέλη, η οποία αντιστοιχεί στο πλάνο παρουσιαστή με τις περισσότερες εμφανίσεις. Έτσι τα πλάνα παρουσιαστή περιορίζονται σημαντικά, ενώ τα υπόλοιπα πλάνα κατατάσσονται στην κατηγορία του ρεπορτάζ / συνέντευξης. Τα πλάνα που παρεμβάλλονται ανάμεσα σε δύο διαδοχικές εμφανίσεις του κεντρικού παρουσιαστή ομαδοποιούνται σε στοιχειώδεις ενότητες ειδήσεων (elementary story units). Αυτό είναι ένα θετικό βήμα προς την κατεύθυνση της σημασιολογικής κατάτμησης (semantic segmentation) των δελτίων, δηλαδή της ανίχνευσης των πραγματικών θεματικών ενοτήτων (news topics). Οι θεματικές ενότητες αποτελούνται από μία ή περισσότερες στοιχειώδεις ενότητες· επομένως για τον ακριβή προσδιορισμό των θεματικών ενοτήτων απαιτείται περαιτέρω ομαδοποίηση. Φυσικά, κάτι τέτοιο είναι ανέφικτο με χρήση της οπτικής πληροφορίας μόνο. Αντίθετα είναι απαραίτητος ο συνδυασμός με την ακουστική πληροφορία ή και την πληροφορία κειμένου, αν βέβαια η τελευταία είναι διαθέσιμη. Για παράδειγμα, δύο διαδοχικά πλάνα στα οποία η ομιλία είναι συνεχόμενη εύκολα κατατάσσονται στην ίδια στοιχειώδη ενότητα ειδήσεων, αφού στην αλλαγή θεματικών ενοτήτων παρεμβάλλονται μικρά χρονικά διαστήματα σιωπής. Από την οπτική πληροφορία ένα τέτοιο συμπέρασμα είναι πολύ δύσκολο να εξαχθεί. 13.3 ΠΕΙΡΑΜΑΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ Το οπτικό περιεχόμενο που χρησιμοποιήθηκε για την πειραματική αξιολόγηση της προτεινόμενης τεχνικής προέρχεται από μία βάση δεδομένων η οποία περιλαμβάνει εγγραφές δελτίων Κεφάλαιο 13 Συντακτική Ανάλυση Δελτίων 149 ειδήσεων από τέσσερις Ελληνικούς τηλεοπτικούς σταθμούς, και συγκεκριμένα τους ET1, Mega, Antenna και Alter. Έξι τμήματα δελτίων ειδήσεων, διάρκειας 10 λεπτών περίπου το καθένα ψηφιοποιήθηκαν για το σκοπό αυτό με ρυθμό 10 frames/sec και σε ανάλυση 384 288 24 bpp. Αρχικά δίνονται ενδεικτικά παραδείγματα ανίχνευσης του επικρατέστερου προσώπου σε ένα καρέ του κεντρικού παρουσιαστή και ταξινόμησης πλάνων σε ένα τμήμα δελτίου διάρκειας 100 δευτερολέπτων, αποτελούμενου από 15 πλάνα. Στη συνέχεια παρουσιάζονται στατιστικά αποτελέσματα αξιολόγησης της τεχνικής ταξινόμησης για ολόκληρο το περιεχόμενο της βάσης δεδομένων. (α) (β) (γ) (δ) (ε) (στ) Σχήμα 13-1. Ανίχνευση επικρατέστερου τμήματος προσώπου. (α) Αρχικό καρέ παρουσιαστή. (β,γ) Κατάτμηση με βάση το χρώμα, πριν και μετά τη συγχώνευση τμημάτων δέρματος, αντίστοιχα. (δ) Πιθανοφάνεια δέρματος. (ε) Πιθανοφάνεια προσώπου. (στ) Επικρατέστερο τμήμα προσώπου. Ένα τυπικό παράδειγμα ανίχνευσης του επικρατέστερου τμήματος προσώπου απεικονίζεται στο Σχήμα 13-1. Η αρχική εικόνα ενός καρέ του κεντρικού παρουσιαστή φαίνεται στο Σχήμα 13-1α. Στην εικόνα εφαρμόζεται κατάτμηση με βάση το χρώμα και συγχώνευση τμημάτων δέρματος όπως περιγράφεται στην Ενότητα 12.3 και παρουσιάζεται στα Σχήματα 131β,γ αντίστοιχα. Στη συνέχεια παράγονται οι εικόνες πιθανοφάνειας δέρματος και προσώπου που φαίνονται στα Σχήματα 13-1δ,ε αντίστοιχα. Τέλος, με κατωφλίωση της πιθανοφάνειας προσώπου και του μεγέθους των τμημάτων εξάγεται το επικρατέστερο τμήμα προσώπου. Παρατηρείται ότι με το συνδυασμό της κατάτμησης, της ανίχνευσης χρώματος δέρματος, της επεξεργασίας σχήματος, του ταιριάσματος με πρότυπο προσώπου και της κατωφλίωσης μεγέθους, εξάγεται με μεγάλη ακρίβεια το τμήμα του προσώπου του παρουσιαστή. Η χρονική κατάτμηση σε πλάνα και η ταξινόμηση πλάνων σε κατηγορίες επιδεικνύεται για την ενδεικτική ακολουθία που εμφανίζεται στο Σχήμα 13-2. Η ακολουθία αυτή είναι τμήμα δελτίου ειδήσεων του σταθμού Mega, αποτελείται από 1000 καρέ, έχει δηλαδή συνολική διάρκεια 100 δευτερόλεπτα, και περιέχει 15 πλάνα, ένα από τα οποία είναι πλάνο παρουσιαστή. Το Σχήμα 13-3α απεικονίζει τη γραφική παράσταση της μέγιστης πιθανοφάνειας προσώπου (maximum face likelihood) συναρτήσει του χρόνου, δηλαδή του αριθμού καρέ, για όλη τη διάρκεια της ακολουθίας (0-1000). Σε κάθε καρέ, η μέγιστη πιθανοφάνεια υπολογίζεται ως η μέγιστη τιμή της πιθανοφάνειας όλων των τμημάτων, πριν τα τμήματα φιλτραριστούν με βάση το μέγεθος. 150 ΜΕΡΟΣ IV Εφαρμογή στην Ανάλυση Δελτίων Ειδήσεων #1 #2 #3 #4 #5 #6 #7 #8 #9 #10 #11 #12 #13 #14 #15 Σχήμα 13-2. Η ακολουθία Mega, διάρκειας 1000 καρέ (100 sec), που αποτελείται από 15 πλάνα, ένα από τα οποία (πλάνο #13) είναι πλάνο παρουσιαστή. Για κάθε πλάνο παρουσιάζεται το πρώτο καρέ. Αντίστοιχα στο Σχήμα 13-3β φαίνεται η ανάλογη γραφική παράσταση μετά την απόρριψη των μικρότερων τμημάτων, για τα οποία η πιθανοφάνεια τίθεται ίση με μηδέν. Πρόκειται δηλαδή για τη μέγιστη πιθανοφάνεια επικρατέστερου προσώπου (maximum dominant face likelihood), η τιμή της οποίας υπολογίζεται και πάλι για όλα τα τμήματα της εικόνας. Είναι εμφανές ότι ορισμένα καρέ τα οποία περιέχουν μικρά τμήματα με υψηλή πιθανοφάνεια προσώπου απορρίπτονται, ενώ διατηρούνται κυρίως τα καρέ που περιέχουν μεγάλα πρόσωπα σε κοντινό πλάνο ­ πρόσωπα δηλαδή που πιθανόν να αντιστοιχούν σε παρουσιαστή, ανταποκριτή ή συνομιλητή σε συνέντευξη. 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 0 100 200 300 400 500 600 700 800 900 1000 100 200 300 400 500 600 700 800 900 1000 (α) (β) Σχήμα 13-3. Μετρήσεις πιθανοφάνειας συναρτήσει του χρόνου (αριθμού καρέ, 0-1000) για την ακολουθία Mega. (a) Μέγιστη πιθανοφάνεια προσώπου. (β) Μέγιστη πιθανοφάνεια επικρατέστερου προσώπου, μετά την αφαίρεση μικρών τμημάτων. Παρατηρείται από το Σχήμα 13-3β ότι από τη μέγιστη πιθανοφάνεια επικρατέστερου προσώπου δεν μπορεί να εξαχθεί αξιόπιστο συμπέρασμα για την ταξινόμηση ενός ολόκληρου πλάνου, διότι η χρονική μεταβολή της πιθανοφάνειας από καρέ σε καρέ είναι ιδιαίτερα έντονη. Για το λόγο αυτό πραγματοποιείται φιλτράρισμα της παραπάνω καμπύλης ως προς το χρόνο με χρήση ενός φίλτρου median. Η φιλτραρισμένη καμπύλη της μέγιστης πιθανοφάνειας επικρατέστερου προσώπου απεικονίζεται στο Σχήμα 13-4α. Το φιλτράρισμα είναι απαραίτητο για να απορριφθούν πλάνα πολύ μικρής διάρκειας που περιέχουν πρόσωπα, αφού Κεφάλαιο 13 Συντακτική Ανάλυση Δελτίων 151 για παράδειγμα ένα πλάνο παρουσιαστή σπάνια έχει διάρκεια μικρότερη από λίγα δευτερόλεπτα. Η επιλογή του μήκους παραθύρου που χρησιμοποιείται στο φιλτράρισμα μπορεί να προσαρμόζεται στην επιθυμητή ελάχιστη χρονική διάρκεια πλάνων. 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 0 100 90 80 70 60 50 40 30 20 10 0 0 100 200 300 400 500 600 700 800 900 1000 100 200 300 400 500 600 700 800 900 1000 (α) (β) Σχήμα 13-4. (α) Μέγιστη πιθανοφάνεια επικρατέστερου προσώπου για την ακολουθία Mega συναρτήσει του χρόνου (αριθμού καρέ), μετά από φιλτράρισμα με χρήση φίλτρου median. (β) Μέτρο διανύσματος κίνησης του επικρατέστερου προσώπου, συναρτήσει του χρόνου. Με απλή παρατήρηση του Σχήματος 13-4α προκύπτει ότι υπάρχουν τρία πιθανά χρονικά τμήματα της ακολουθίας που περιέχουν κοντινό πλάνο προσώπου. Το πρώτο (πλάνο #1, καρέ 0-38) δεν αντιστοιχεί σε πραγματικό πλάνο προσώπου, έχει γίνει δηλαδή λανθασμένη ανίχνευση (false alarm). Το δεύτερο τμήμα αντιστοιχεί σε δύο πραγματικά πλάνα προσώπων, και αποτελείται από τα δύο διαδοχικά πλάνα #5 και #6 (καρέ 209-286). Τέλος, το τρίτο τμήμα αποτελείται επίσης από δύο διαδοχικά πλάνα προσώπων μεγαλύτερης διάρκειας, τα πλάνα #13 και #14 της ακολουθίας (καρέ 614-867). Σημειώνεται ότι η ανίχνευση προσώπου είναι επιτυχής στην ακολουθία αυτή παρά τις άσχημες συνθήκες φωτισμού που επικρατούν, αφού η ακολουθία περιέχει εξωτερικά πλάνα ρεπορτάζ και συνεντεύξεων κατά τη διάρκεια της νύχτας. 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 600 650 700 750 800 850 900 Σχήμα 13-5. Μέτρο της διαφοράς ιστογράμματος χρώματος διαδοχικών καρέ γιa την ακολουθία Mega, καρέ 600-900 (πλάνα #13 και #14) Η μέγιστη τιμή αντιστοιχεί στη χρονική στιγμή αλλαγής πλάνου. Η λανθασμένη ανίχνευση προσώπου στο πλάνο #1 αντισταθμίζεται εύκολα λαμβάνοντας υπόψη την κίνηση του επικρατέστερου προσώπου, όπως φαίνεται στο Σχήμα 13-4β, αφού τα πραγματικά τμήματα προσώπου συνήθως εμφανίζουν μικρή κίνηση ενώ οι ταχείες ταλαντώσεις στην κίνηση του επικρατέστερου προσώπου οφείλονται ουσιαστικά σε εξωτερικά πλάνα με έντονη δραστηριότητα που ταξινομούνται λανθασμένα ως πλάνα προσώπου. Η κίνηση του επικρατέστερου προσώπου στο πλάνο #1 υποδηλώνει πως το πλάνο δεν περιέχει κοντινή λήψη προσώπου, παρά τη μεγάλη τιμή πιθανοφάνειας. Από την άλλη μεριά, το γεγονός ότι δύο ζεύγη διαδοχικών πλάνων (#5,#6 και #13,#14) εμφανίζονται στο Σχήμα 13-4α ως ενιαία χρονικά τμήματα δεν αποτελεί πρόβλημα, αφού τα πλάνα έχουν ήδη διαχωριστεί σε προηγούμε- 152 ΜΕΡΟΣ IV Εφαρμογή στην Ανάλυση Δελτίων Ειδήσεων νο στάδιο· θα μπορούσαν βέβαια εύκολα να διαχωριστούν με χρήση κριτηρίων όπως η μεταβολή του ιστογράμματος χρώματος, όπως φαίνεται και στο Σχήμα 13-5. 13.4 ΑΞΙΟΛΟΓΗΣΗ Η επίδοση της προτεινόμενης τεχνικής χρονικής κατάτμησης δελτίων ειδήσεων αξιολογήθηκε μέσω μετρήσεων ακρίβειας (precision) και ανάκλησης (recall). Οι έξι δεκάλεπτες ακολουθίες της βάσης δεδομένων χωρίσθηκαν σε πλάνα και κάθε πλάνο ταξινομήθηκε και χαρακτηρίσθηκε χειρωνακτικά σε μία από τις κατηγορίες Παρουσιαστής, Ρεπορτάζ / Συνέντευξη, Στατική Εικόνα και Εξωτερικό Πλάνο. Η ταξινόμηση αυτή θεωρείται αληθής (ground truth) ταξινόμηση. Τα αποτελέσματα λοιπόν της αυτόματης διαδικασίας ταξινόμησης μπορούν να συγκριθούν με την αληθή ταξινόμηση ώστε να προκύψουν στατιστικές μετρήσεις για την αξιολόγηση της τεχνικής. Ακολουθία A5 (α) A5 (β) ANT1 ET-1 MEGA (α) MEGA (β) Σύνολο Παρουσιαστής P 0.92 0.95 0.93 1.00 0.93 0.96 0.95 R 0.94 1.00 0.94 1.00 0.93 1.00 0.97 Ρεπορτάζ / Συνέντευξη P 0.65 0.83 0.77 0.71 0.76 0.84 0.76 R 0.82 0.94 0.88 0.88 0.86 0.91 0.88 Στατική Εικόνα P - 0.50 0.75 0.66 0.75 - 0.67 R - 1.00 0.66 1.00 0.75 - 0.85 Εξωτερικό Πλάνο P 0.75 0.73 0.85 0.81 0.67 0.74 0.76 R 0.85 0.87 0.86 0.93 0.86 0.81 0.86 Πίνακας 13-1. Μετρήσεις ακρίβειας (precision) και ανάκλησης (recall) για την ταξινόμηση πλάνων στις έξι δοκιμαστικές ακολουθίες δελτίων ειδήσεων. Όπως περιγράφεται στην εργασία [87], η ακρίβεια ορίζεται ως ο λόγος των σωστά ευθυγραμμισμένων γεγονότων (correctly aligned events) προς το συνολικό αριθμό γεγονότων που ανιχνεύονται, ενώ η ανάκληση ως ο λόγος ως ο λόγος των σωστά ευθυγραμμισμένων γεγονότων προς το συνολικό αριθμό αληθών γεγονότων. Ως γεγονός (event) ορίζεται κάθε μετάβαση ανάμεσα σε δύο διαφορετικές κατηγορίες πλάνων· ένα γεγονός είναι σωστά ευθυγραμμισμένο (correctly aligned) αν λαμβάνει χώρα σε ένα χρονικό διάστημα που απέχει το πολύ ±2 καρέ από το αντίστοιχο αληθές γεγονός. Σημειώνεται ότι η ακρίβεια είναι η αντίθετη έννοια του ρυθμού λανθασμένης ανίχνευσης (false alarm rate), ενώ η ανάκληση είναι η αντίθετη έννοια του ρυθμού απώλειας (dismissal rate). Οι πρώτες χρησιμοποιούνται γενικά στο πλαίσιο της αναζήτησης πληροφορίας (information retrieval) ενώ οι δεύτερες στην ανίχνευση και αναγνώριση προσώπων αλλά και γενικότερα στην εκτίμηση υποθέσεων (hypothesis testing) και τη στατιστική. Οι μετρήσεις ακρίβειας και ανάκλησης για κάθε μία από τις έξι δοκιμαστικές ακολουθίες της βάσης και για κάθε μία από τις τέσσερις κατηγορίες πλάνων δίνονται στον Πίνακα 13-1. Παρατηρείται αρχικά ότι τις καλύτερες μετρήσεις εμφανίζει η κατηγορία του παρουσιαστή· κάτι τέτοιο είναι αναμενόμενο καθώς η κατηγορία αυτή βασίζεται και στην ομαδοποίηση (clustering) πέρα από την ανίχνευση προσώπων. Οι μετρήσεις ταξινόμησης για την κατηγορία των ρεπορτάζ / συνεντεύξεων είναι ελαφρώς μικρότερες, κυρίως λόγω των ανεξέλεγκτων συνθηκών φωτισμού που γενικά επηρεάζουν τη διαδικασία ανίχνευσης χρώματος δέρματος. Συνήθως τα πλάνα ρεπορτάζ / συνεντεύξεων ταξινομούνται λανθασμένα στην κατηγορία των εξωτερικών πλάνων και αντίστροφα. Τέλος, λόγω του περιορισμένου αριθμού διαθέσιμων Κεφάλαιο 13 Συντακτική Ανάλυση Δελτίων 153 στατικών εικόνων στη βάση δεν είναι δυνατό να εξαχθούν αξιόπιστα συμπεράσματα για την κατηγορία αυτή. Γενικά παρατηρείται ότι οι μετρήσεις ακρίβειας και ανάκλησης είναι ιδιαίτερα ενθαρρυντικές παρά την απλότητα της προτεινόμενης τεχνικής. Εκτιμάται λοιπόν ότι ο συνδυασμός της με ακουστική και γλωσσική πληροφορία και η ενσωμάτωσή της σε υφιστάμενα συστήματα θα μπορούσε να δώσει πολύ ικανοποιητικά αποτελέσματα για την πλήρως αυτοματοποιημένη ανάλυση δελτίων ειδήσεων. Κεφάλαιο 14 Προεπισκόπηση και Ανάκληση Στο τελευταίο Κεφάλαιο της διατριβής εξετάζεται η εφαρμογή των προτεινόμενων μεθόδων χαρακτηρισμού, δεικτοδότησης, εξαγωγής περίληψης, προεπισκόπησης και αναζήτησης με βάση το περιεχόμενο στην ειδική περίπτωση των ακολουθιών που προέρχονται από δελτία ειδήσεων. Στην περίπτωση αυτή η συντακτική ανάλυση των δελτίων σε συνδυασμό με την επιλογή χαρακτηριστικών πλάνων και καρέ μπορεί να οδηγήσει στη δημιουργία ενός ισχυρού συστήματος παρουσίασης, πλοήγησης και αναζήτησης από δελτία ειδήσεων με βάση το οπτικοακουστικό περιεχόμενο, στο οποίο η αλληλεπίδραση με το χρήστη παίζει πρωταρχικό ρόλο. Επιπλέον, για την περίπτωση της αναζήτησης και ανάκλησης εξετάζεται ένας αριθμός από νέα σενάρια αναζήτησης που σχετίζονται με την ύπαρξη ανθρώπινων προσώπων, αφού η πληροφορία των τμημάτων προσώπου παράγεται από τον αυτόματο εντοπισμό τους και μπορεί να αποθηκευθεί για σκοπούς δεικτοδότησης. Συγκεκριμένα εξετάζεται η αναζήτηση με βάση τα χαρακτηριστικά χρώματος, το μέγεθος και το πλήθος των προσώπων. Τα κριτήρια αυτά μπορούν επίσης να συνδυαστούν με γενικότερα κριτήρια αναζήτησης όπως αυτά που παρουσιάσθηκαν στο Κεφάλαιο 8 για την ανάκληση μέσω παραδείγματος ή σχεδιαγράμματος, εμπλουτίζοντας έτσι τις δυνατότητες υφιστάμενων συστημάτων διαχείρισης οπτικοακουστικού υλικού και αναζήτησης με βάση το περιεχόμενο. Παρουσιάζονται επίσης ενδεικτικά αποτελέσματα ανάκλησης με βάση το χρώμα και το μέγεθος των προσώπων, καθώς και ποσοτική αξιολόγηση της ανάκλησης με βάση το πλήθος προσώπων με μετρήσεις ακρίβειας και ανάκλησης σε ένα μεγάλο σύνολο ακολουθιών δελτίων ειδήσεων. 14.1 ΕΞΑΓΩΓΗ ΠΕΡΙΛΗΨΗΣ ΚΑΙ ΠΡΟΕΠΙΣΚΟΠΗΣΗ Μ ία από τις σημαντικότερες εφαρμογές της συντακτικής ανάλυσης ακολουθιών δελτίων ειδήσεων είναι η χρήση της πληροφορίας χαρακτηρισμού των πλάνων για σκοπούς προεπισκόπησης της ακολουθίας. Με δεδομένο ότι η τυπική οργάνωση των δελτίων ειδήσεων περιλαμβάνει περιοδικές εμφανίσεις του κεντρικού παρουσιαστή ανάμεσα στις οποίες εμφα- νίζονται συνήθως ρεπορτάζ / συνεντεύξεις, εξωτερικά πλάνα ή στατικές εικόνες, η αυτόματη ταξινόμηση πλάνων σε μία από τις παραπάνω κατηγορίες επιτρέπει τον προσδιορισμό ενοτήτων πλάνων (shot units) που αντιστοιχούν σε στοιχειώδεις ενότητες ειδήσεων (elementary story units). Μία ενότητα πλάνων ορίζεται ως το σύνολο πλάνων που μεσολαβούν μεταξύ δύο διαδοχικών πλάνων του κεντρικού παρουσιαστή. Η προεπισκόπηση ενός δελτίου ειδήσεων περιλαμβάνει την απεικόνιση στον τελικό χρήση των ενοτήτων πλάνων του δελτίου, καθώς και των πλάνων που περιλαμβάνονται σε κάθε ενότητα, με μικρά εικονίδια, και της πληροφορίας χαρακτηρισμού των πλάνων. Η πληροφορία αυτή συνίσταται στο αποτέλεσμα ταξινόμησης κάθε πλάνου σε μία από τις παραπάνω κατηγορίες. Επιπλέον ο χρήστης έχει τη δυνατότητα να επιλέξει τις κατηγορίες πλάνων που επιθυμεί για επισκόπηση, δηλαδή για παράδειγμα μόνο τα πλάνα παρουσιαστή, μόνο τα εξωτερικά πλάνα κλπ. 154 Κεφάλαιο 14 Προεπισκόπηση και Ανάκληση 155 (Ε1) #1 (A) (Ε2) #8 (A) (Ε3) #10 (A) (Ε4) #12 (A) #13 (O) #14 (O) #15 (O) #16 (R) #17 (O) #18 (O) #19 (O) #11 (R) #9 (O) #2 (R) #3 (O) #4 (O) #5 (O) #6 (O) #7 (R) #20 (O) (Ε5) #22 (A) #23 (O) #21 (O) #24 (O) #25 (O) #26 (O) #27 (O) #28 (O) #29 (O) #30 (O) (Ε6) #35 (A) #36 (O) #31 (O) #32 (O) #33 (O) #34 (O) #37 (O) #38 (R) #39 (O) #40 (O) #41 (O) #42 (O) #43 (O) (Ε7) #49 (A) #50 (R) #44 (O) #45 (O) #46 (O) #47 (O) #48 (O) #51 (O) #52 (O) #53 (R) #54 (O) #55 (O) #56 (O) #57 (R) (Ε8) #61 (A) (Ε9) #64 (A) #65 (O) #62 (R) #58 (O) #59 (O) #60 (O) #63 (O) #66 (O) #67 (O) #68 (O) Σχήμα 14-1. Παράδειγμα προεπισκόπησης ακολουθίας δελτίου ειδήσεων. Διακρίνονται εννέα ενότητες πλάνων (Ε1-Ε9) σε κάθε μία από τις οποίες αντιστοιχούν από 2 έως 14 πλάνα. Η κατηγορία κάθε πλάνου εμφανίζεται δίπλα στον αριθμό της. (Α): Anchor (Παρουσιαστής). (R): Report (Ρεπορτάζ / Συνέντευξη). (O): Outdoor shot (Εξωτερικό πλάνο). Στατικές εικόνες δεν υπάρχουν. Αυτός ο τύπος προεπισκόπησης μπορεί να συνδυαστεί με την εξαγωγή περίληψης που παρουσιάσθηκε στο Μέρος II της διατριβής. Συγκεκριμένα, οι ενότητες πλάνων πολύ συχνά περιλαμβάνουν πολλά πλάνα με παρόμοιο οπτικό περιεχόμενο, και μάλιστα με περιοδική επανάληψη. Η ομαδοποίηση πλάνων λοιπόν με βάση το περιεχόμενο χρησιμεύει για την απει- 156 ΜΕΡΟΣ IV Εφαρμογή στην Ανάλυση Δελτίων Ειδήσεων κόνιση στο χρήστη ενός περιορισμένου αριθμού πλάνων, δηλαδή των αντιπροσωπευτικών πλάνων κάθε ομάδας· ο χρήστης τότε μπορεί να επιλέξει ένα από αυτά για να δει και το σύνολο των πλάνων της ομάδας που τον ενδιαφέρει. Επιπλέον, η εξαγωγή χαρακτηριστικών καρέ από κάθε πλάνο επιτρέπει την επιλογή από το χρήστη ενός πλάνου και την επισκόπηση των περιεχομένων του με τη μορφή εικονιδίων. Δημιουργείται έτσι μία ιεραρχική δομή των δελτίων ειδήσεων που δίνει στο χρήστη τη δυνατότητα προεπισκόπησης και πλοήγησης στα περιεχόμενα των δελτίων με διαφορετικό επίπεδο λεπτομέρειας κάθε φορά. Ένα χαρακτηριστικό παράδειγμα φαίνεται στο Σχήμα 14-1 για μία ακολουθία δελτίου ειδήσεων της ΕΤ1, διάρκειας 8.5 περίπου λεπτών (5115 καρέ με ρυθμό δειγματοληψίας 10 frames/sec). Η ακολουθία περιέχει συνολικά 68 πλάνα, από τα οποία 9 χαρακτηρίζονται ως πλάνα παρουσιαστή (Anchor, A), άλλα 9 ως ρεπορτάζ / συνέντευξη (Report, R) και 50 ως εξωτερικά πλάνα (Outdoor shot, O), ενώ πλάνα στατικών εικόνων δεν υπάρχουν στο συγκεκριμένο δελτίο. Με βάση τα πλάνα του παρουσιαστή, ορίζονται εννέα ομάδες πλάνων, κάθε μία από τις οποίες περιέχει από 2 έως 14 πλάνα. Η απεικόνιση των ομάδων πλάνων όπως στο Σχήμα 14-1 επιτρέπει στο χρήστη την άμεση επισκόπηση των στοιχειωδών ενοτήτων ειδήσεων. Φυσικά, οι πραγματικές θεματικές ενότητες (news topics) του δελτίου αποτελούνται από σύνολα στοιχειωδών ενοτήτων ειδήσεων, τα οποία όμως δεν είναι δυνατό να προσδιορισθούν μόνο με βάση την οπτική πληροφορία, όπως αναφέρεται στο Κεφάλαιο 13. Παρατηρείται ότι πολλά από τα πλάνα παρουσιάζουν όμοιο ή παρόμοιο οπτικό περιεχόμενο, όπως για παράδειγμα τα #2/#7, #17/#18, #19/#20/#21, #24/#31, #37/#38, #42/#45/#46, #43/#44 και #54/#55/#56. Με την ομαδοποίηση πλάνων η παρουσίαση των πλάνων αυτών θα μπορούσε να γίνει με ένα εικονίδιο για κάθε ομάδα, που να αντιστοιχεί στο αντιπροσωπευτικό πλάνο της ομάδας. Παρατηρείται επίσης ότι πολλές φορές η ταξινόμηση πλάνων αποτυγχάνει. Χαρακτηριστικό παράδειγμα είναι το πλάνο #58 το οποίο είναι ασπρόμαυρο με αποτέλεσμα να μην ανιχνεύεται το πρόσωπο (dismissal). Έτσι το πλάνο θεωρείται εξωτερικό και όχι ρεπορτάζ / συνέντευξη. Πάντως τα πλάνα παρουσιαστή εντοπίζονται όλα σωστά, αφενός λόγω των κατάλληλων συνθηκών φωτισμού και του στατικού φόντου, και αφετέρου λόγω της διαδικασίας ομαδοποίησης πλάνων παρουσιαστή που περιγράφηκε στην Ενότητα 13.2. 14.2 ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΠΡΟΣΩΠΩΝ Η ανίχνευση και εντοπισμός προσώπων σε μια βάση δεδομένων με εικόνες και βίντεο δίνει τη δυνατότητα εκμετάλλευσης της εξαγόμενης πληροφορίας, όπως το πλήθος προσώπων, η κλίμακα και η μέση τιμή των χρωματικών συνιστωσών. Η πληροφορία αυτή μπορεί να αποθηκευτεί στη βάση και να χρησιμοποιηθεί για δεικτοδότηση (indexing) και ανάκληση με βάση το περιεχόμενο (content-based retrieval). Έτσι, σε ένα περιβάλλον αναζήτησης μέσω παραδείγματος (query-by-example), η πληροφορία προσώπων μπορεί να οδηγήσει σε νέα κριτήρια δεικτοδότησης. Στην περίπτωση αυτή οι εικόνες εισόδου αναλύονται σε πραγματικό χρόνο και τα χαρακτηριστικά των προσώπων που εντοπίζονται χρησιμοποιούνται για ανάκληση με βάση τα πρόσωπα. Τα προτεινόμενα σενάρια αναζήτησης με βάση την πληροφορία προσώπων αποτέλεσαν το αντικείμενο των εργασιών [15,132]. Κεφάλαιο 14 Προεπισκόπηση και Ανάκληση 157 Για το σκοπό της ανάκλησης με βάση τα πρόσωπα, κάθε εικόνα (ή καρέ ακολουθίας) αναλύεται για την ανίχνευση προσώπων, και στη συνέχεια εξάγονται και αποθηκεύονται στη βάση τα ακόλουθα χαρακτηριστικά: (α) Το πλήθος τμημάτων προσώπου (β) Η μέση τιμή των χρωματικών συνιστωσών κάθε τμήματος προσώπου. Έστω ότι cCr και cCb είναι αντίστοιχα οι χρωματικές συνιστώσες Cr και Cb μιας εικόνας, και Si είναι το i-οστό τμήμα προσώπου της εικόνας. Τότε οι μέσες τιμές των συνιστωσών Cr και Cb για το τμήμα Si υπολογίζονται ως εξής: μCr (Si) = 1 Si 1 Si sS i cCr (s ) , μCb (Si) = sS i cCb (s ) (14-1) (γ) Το ποσοστό a(Si) της επιφάνειας της εικόνας που καλύπτεται από κάθε τμήμα προσώπου. Επιπρόσθετα χαρακτηριστικά μπορούν επίσης να χρησιμοποιηθούν στη διαδικασία δεικτοδότησης, όπως η θέση κάθε προσώπου, ο προσανατολισμός του, χαρακτηριστικά σχήματος (π.χ. συμπαγές, επιμήκυνση) καθώς και χαρακτηριστικά υφής (π.χ. ροπές, συντελεστές FFT κλπ.). Επιπλέον, τα χαρακτηριστικά αυτά μπορούν να συνδυαστούν και με τα γενικότερα χαρακτηριστικά που χρησιμοποιούνται σε ένα περιβάλλον αναζήτησης, οδηγώντας σε μια ποικιλία από σενάρια αναζήτησης. Όμως τα τρία χαρακτηριστικά που αναφέρθηκαν παραπάνω είναι επαρκή για τα τρία κριτήρια αναζήτησης που χρησιμοποιούνται στην παρούσα εργασία και αναλύονται αμέσως παρακάτω. 14.3 ΑΝΑΚΛΗΣΗ ΜΕ ΒΑΣΗ ΤΑ ΠΡΟΣΩΠΑ Παρουσιάζονται στη συνέχεια τρία κριτήρια ανάκλησης εικόνων με βάση τα πρόσωπα, τα οποία έχουν εξεταστεί πειραματικά και δίνουν αξιόλογα αποτελέσματα. Συγκεκριμένα τα κριτήρια αυτά είναι οι μέσες χρωματικές συνιστώσες των προσώπων, η κλίμακα και το πλήθος προσώπων σε μια εικόνα. Μέσες Χρωματικές Συνιστώσες Προσώπων Με βάση το κριτήριο αυτό ο χρήστης ενδιαφέρεται για την ανάκληση εικόνων ή καρέ από βίντεο που περιέχουν πρόσωπα με χαρακτηριστικά χρώματος παρόμοια με εκείνα μιας εικόνας που εισάγει στο σύστημα αναζήτησης. Στην περίπτωση αυτή ανιχνεύεται αυτόματα και χαρακτηρίζεται το επικρατέστερο τμήμα προσώπου από την εικόνα· αν υπάρχουν περισσότερα από ένα πρόσωπα ο χρήστης μπορεί να επιλέξει το συγκεκριμένο που τον ενδιαφέρει. Έστω ότι F είναι το επιλεγμένο τμήμα προσώπου. Για το τμήμα αυτό υπολογίζονται οι μέσες χρωματικές συνιστώσες μCr (F) και μCr (F) αντίστοιχα, σύμφωνα με τον ορισμό (14-1). Οι τιμές αυτές χρησιμοποιούνται για την επανεκτίμηση του μέσου διανύσματος μ στο μοντέλο χρώματος δέρματος της σχέσης (12-1). Συγκεκριμένα, σύμφωνα με τη σχέση επανεκτίμησης (12-3), ^ μ0 = (1 - m) μ + m μ0 (14-2) όπου μ = [μCr (F) μCr (F)]T και η παράμετρος μνήμης m λαμβάνει σχετικά μικρή τιμή (τυπικά 0.4) έτσι ώστε το μοντέλο να προσαρμόζεται καλά στο επιλεγμένο τμήμα προσώπου, διατηρώ- 158 ΜΕΡΟΣ IV Εφαρμογή στην Ανάλυση Δελτίων Ειδήσεων ντας ταυτόχρονα τα γενικά χαρακτηριστικά του χρώματος δέρματος. Έστω τώρα ότι με Si(k ) συμβολίζεται το i-οστό τμήμα προσώπου της k-οστής εικόνας στη βάση και x(S i ) = [ μCr (Si k ) μCb (Si k )]T είναι το αντίστοιχο μέσο διάνυσμα χρωματικών συνιστωσών. Τότε ο βαθμός ομοιότητας του τμήματος Si(k ) με το επιλεγμένο τμήμα F ορίζεται ως 1 ( ) ( ) ( ) ^ ^ s c (Si k ) = exp - ( x(Si k ) - μ0 )T C - 1 ( x(Si k ) - μ0 ) 2 (14-3) ( ) ( ) (k ) και ο βαθμός ομοιότητας χρώματος ολόκληρης της k-οστής εικόνας με την εικόνα εισόδου είναι ( s ck ) = max {s c (S i k )} i ( ) (14-4) Οι εικόνες της βάσης ταξινομούνται σύμφωνα με το παραπάνω μέτρο ομοιότητας και εκείνες με τη μεγαλύτερη τιμή ομοιότητας ανακαλούνται πρώτες και επιστρέφονται στο χρήστη. Σημειώνεται ότι θα μπορούσε να χρησιμοποιηθεί απευθείας σύγκριση ανάμεσα στις μέσες χρωματικές συνιστώσες του επιλεγμένου τμήματος προσώπου και των τμημάτων που περιέχονται στη βάση· όμως με την παραπάνω τεχνική τα τμήματα προσώπου των ανακαλούμενων εικόνων εξακολουθούν να ικανοποιούν το γενικό μοντέλο χρώματος δέρματος. Κλίμακα Προσώπων Το κριτήριο αυτό απευθύνεται σε χρήστες που ενδιαφέρονται για πρόσωπα σε κλίμακα παρόμοια με εκείνη ενός τμήματος προσώπου που παρουσιάζουν ως είσοδο στο σύστημα ανάκλησης. Η περίπτωση αυτή μπορεί να είναι χρήσιμη, για παράδειγμα, για την ανίχνευση κοντινών πλάνων προσώπων ή προσώπων μακριά στο φόντο της εικόνας. Έστω ότι a(F) είναι το ποσοστό της συνολικής επιφάνειας της εικόνας που καλύπτεται από το επιλεγμένο τμήμα προσώπου F, κανονικοποιημένο στο διάστημα [0,1]. Τότε ο βαθμός ομοιότητας του τμήματος Si(k ) (του i-οστού τμήματος προσώπου της k-οστής εικόνας στη βάση, όπως στην προηγούμενη περίπτωση) με το επιλεγμένο τμήμα F ορίζεται ως s r (S i k ) = 1-| a(Si k ) - a(F )| ( ) ( ) (14-5) και ο βαθμός ομοιότητας κλίμακας ολόκληρης της k-οστής εικόνας με την εικόνα εισόδου είναι s ( k ) = max {s r (S i k )} r i ( ) (14-6) Και πάλι οι εικόνες της βάσης ταξινομούνται σύμφωνα με το παραπάνω μέτρο ομοιότητας, το (k οποίο είναι επίσης κανονικοποιημένο στο διάστημα [0,1] ενώ η τιμή s r ) = 1 αντιστοιχεί σε μέγιστη ομοιότητα, δηλαδή σε ίσες κλίμακες. Οι εικόνες που περιέχουν πρόσωπα με τη μέγιστη τιμή ομοιότητας ανακαλούνται πρώτες και επιστρέφονται στο χρήστη ως αποτέλεσμα της αναζήτησης. Πλήθος Τμημάτων Προσώπου Τέλος, ο χρήστης μπορεί να ενδιαφέρεται για εικόνες ή καρέ από ακολουθίες που περιέχουν ένα συγκεκριμένο αριθμό προσώπων. Στην περίπτωση αυτή οι εικόνες της βάσης που περιέχουν τον επιθυμητό αριθμό τμημάτων προσώπου ανακαλούνται από τη βάση, ενώ η σειρά ταξινόμησης των ανακαλούμενων εικόνων καθορίζεται είτε σύμφωνα με την ομοιότητα χρώματος των τμημάτων προσώπου με ένα παράδειγμα προσώπου που δίνει ο χρήστης σε μια εικό- Κεφάλαιο 14 Προεπισκόπηση και Ανάκληση 159 να εισόδου, είτε σύμφωνα με την ομοιότητα κλίμακας, είτε τέλος με ένα συνδυασμό και των δύο μέτρων ομοιότητας. 14.4 ΠΕΙΡΑΜΑΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ Η ανάκληση με βάση τα πρόσωπα με τα τρία προτεινόμενα κριτήρια δεικτοδότησης και αναζήτησης αξιολογήθηκε σε μία βάση δεδομένων με ακολουθίες βίντεο. Το περιεχόμενο της βάσης δημιουργήθηκε χρησιμοποιώντας 200 συνολικά ακολουθίες μήκους 120-850 καρέ η κάθε μία, οι οποίες καταγράφηκαν από προγράμματα δελτίων ειδήσεων πέντε Ελληνικών καναλιών σε ανάλυση CIF και με ρυθμό 10 frames/sec. Από τα 10850 συνολικά καρέ, 28% περίπου δεν περιέχουν καθόλου πρόσωπα (ή περιέχουν πρόσωπα σε πολύ μικρή κλίμακα), 49% περιέχουν ακριβώς ένα πρόσωπο, ενώ 23% περιέχουν δύο ή περισσότερα πρόσωπα. Η συνολική διαδικασία εντοπισμού προσώπων, που περιλαμβάνει κατάτμηση με βάση το χρώμα, συγχώνευση τμημάτων δέρματος, ανάλυση σχήματος, υπολογισμό πιθανοφάνειας δέρματος και προσώπου και ταίριασμα με πρότυπο, εφαρμόσθηκε σε όλο το υλικό της βάσης. Το χρώμα, η κλίμακα, η θέση, ο προσανατολισμός και τα χαρακτηριστικά σχήματος (συμπαγές και επιμήκυνση) αποθηκεύτηκαν στη συνέχεια ως πληροφορία δεικτοδότησης στη βάση. sc = 0.9985 sc = 0.9981 sc = 0.9976 sc = 0.9901 sc = 0.9845 sc = 0.9803 sc = 0.9774 sc = 0.9618 (α) (β) Σχήμα 14-2. Ανάκληση με βάση το χρώμα προσώπου. (α) Εικόνα εισόδου. Σημειώνεται το επιλεγμένο τμήμα προσώπου. (β) Ανακαλούμενες εικόνες, κατά φθίνουσα σειρά ομοιότητας χρώματος (sc: ομοιότητα χρώματος). Παραδείγματα Ανάκλησης Η ανάκληση αξιολογήθηκε σε ένα περιβάλλον αναζήτησης μέσω παραδείγματος (query-byexample). Οι εικόνες εισόδου που παρουσιάσθηκαν στο σύστημα αναζήτησης αναλύθηκαν με τον ίδιο ακριβώς τρόπο για τον εντοπισμό προσώπων και τα χαρακτηριστικά των προσώπων που εντοπίσθηκαν συγκρίθηκαν με εκείνα των προσώπων που υπάρχουν αποθηκευμένα στη βάση, σύμφωνα με τα τρία διαφορετικά κριτήρια δεικτοδότησης που προτείνονται. Για παράδειγμα, στο Σχήμα 14-2 εμφανίζονται ενδεικτικά αποτελέσματα αναζήτησης με βάση την ομοιότητα χρώματος. Το μοναδικό πρόσωπο της εικόνας εισόδου του Σχήματος 14-2α ανιχνεύεται σωστά και οι μέσες χρωματικές συνιστώσες του συγκρίνονται με τις διαθέσιμες στη βάση, ανακαλώντας τις οκτώ εικόνες που παρουσιάζονται στο Σχήμα 14-2β κατά φθίνουσα σειρά ομοιότητας χρώματος. Παρατηρείται ότι ανακαλούνται πρόσωπα παρόμοιου χρώματος, ανεξάρτητα από το μέγεθος ή το πλήθος προσώπων. Το Σχήμα 14-3 παρουσιάζει την περίπτωση της ανάκλησης με βάση την κλίμακα προσώπου. Το κύριο τμήμα προσώπου εξάγεται και πάλι σωστά από την εικόνα εισόδου του Σχήματος 14-3α αλλά τώρα η ομοιότητα υπολογίζεται ως προς την κλίμακα του προσώπου, δηλαδή 160 ΜΕΡΟΣ IV Εφαρμογή στην Ανάλυση Δελτίων Ειδήσεων ως προς το ποσοστό της συνολικής επιφάνειας εικόνας που καλύπτεται από το πρόσωπο. Όπως φαίνεται στο Σχήμα 14-3β, τα αποτελέσματα αναζήτησης είναι τώρα ανεξάρτητα από το χρώμα και ταξινομούνται κατά φθίνουσα σειρά ομοιότητας κλίμακας. Τέλος, το Σχήμα 14-4 παρουσιάζει αποτελέσματα για το κριτήριο του πλήθους τμημάτων προσώπου. Αφού ανιχνεύονται δύο τμήματα στην εικόνα εισόδου του Σχήματος 14-4α, η έρευνα στη βάση περιορίζεται στις εικόνες εκείνες που περιέχουν δύο ακριβώς πρόσωπα· όμως η ομοιότητα υπολογίζεται ως προς την κλίμακα στην περίπτωση αυτή. sr = 0.9994 sr = 0.9973 sr = 0.9909 sr = 0.9814 sr = 0.9811 sr = 0.9807 sr = 0.9693 sr = 0.9649 (α) (β) Σχήμα 14-3. Ανάκληση με βάση την κλίμακα προσώπου. (α) Εικόνα εισόδου. Σημειώνεται το επιλεγμένο τμήμα προσώπου. (β) Ανακαλούμενες εικόνες, κατά φθίνουσα σειρά ομοιότητας κλίμακας (sr: ομοιότητα κλίμακας). sr = 0.9744 sr = 0.9659 sr = 0.9545 sr = 0.9528 sr = 0.9502 sr = 0.9478 sr = 0.9436 sr = 0.9312 (α) (β) Σχήμα 14-4. Ανάκληση με βάση το πλήθος προσώπων. (α) Εικόνα εισόδου. Σημειώνονται τα δύο επιλεγμένα τμήματα προσώπου. (β) Ανακαλούμενες εικόνες που περιέχουν δύο πρόσωπα, κατά φθίνουσα σειρά ομοιότητας κλίμακας (sr: ομοιότητα κλίμακας). Μπορεί να ισχυρισθεί κανείς ότι η ανάκληση στα παραπάνω παραδείγματα είναι επιτυχής· είναι επίσης σαφές ότι τέτοια αποτελέσματα αναζήτησης δεν θα μπορούσαν να επιτευχθούν με τη χρήση γενικών χαρακτηριστικών των εικόνων, όπως η χρωματική σύνθεση ή το σχήμα και η υφή των αντικειμένων, χωρίς γνώση της δομής του ανθρώπινου προσώπου. Βέβαια τα αποτελέσματα που παρουσιάσθηκαν είναι ποιοτικά και μια ποσοτική αξιολόγηση δεν μπορεί να πραγματοποιηθεί άμεσα, κυρίως λόγω της υποκειμενικής φύσης του προβλήματος. Πιο αξιόπιστα πειράματα που λαμβάνουν υπόψη τους την ανθρώπινη αντίληψη θα μπορούσαν να διεξαχθούν αναθέτοντας σε μια ομάδα κριτών να αξιολογήσουν κατά πόσο οι ανακαλούμενες είναι σχετικές με την εικόνα εισόδου. Ποσοτική Αξιολόγηση Στην ειδική περίπτωση της αναζήτησης με βάση το πλήθος προσώπων πραγματοποιήθηκε ένα είδος ποσοτικής αξιολόγησης σε ένα υποσύνολο της βάσης το οποίο αποτελείται από 500 καρέ. Τα καρέ αυτά ταξινομήθηκαν χειρονακτικά σε τέσσερις κατηγορίες ανάλογα με το πλήθος Κεφάλαιο 14 Προεπισκόπηση και Ανάκληση 161 προσώπων που περιέχουν, όπως φαίνεται στον Πίνακα 14-1. Η ταξινόμηση αυτή θεωρείται αληθής (ground truth). Στη συνέχεια εκτελέσθηκε μία αναζήτηση για κάθε κατηγορία και οι ανακαλούμενες εικόνες χαρακτηρίσθηκαν «σωστές» αν περιείχαν τον ίδιο ακριβώς αριθμό προσώπων με τον επιθυμητό, δηλαδή τον αριθμό προσώπων που προέκυψαν χειρονακτικά. Από τη σύγκριση αυτή των αποτελεσμάτων αναζήτησης με την αληθή ταξινόμηση υπολογίσθηκαν τιμές ακρίβειας (precision) και ανάκλησης (recall) για κάθε κατηγορία. Όπως και στις περιπτώσεις εντοπισμού προσώπων και ταξινόμησης πλάνων στα Κεφάλαια 12 και 13, η ακρίβεια μετρήθηκε ως ο λόγος σωστά ανακαλούμενων εικόνων προς τις συνολικά ανακαλούμενες εικόνες, ενώ η ανάκληση ως ο λόγος των σωστά ανακαλούμενων εικόνων προς τις συνολικές εικόνες. Πλήθος προσώπων Συνολικές εικόνες Ανακαλούμενες εικόνες Σωστά ανακαλούμενες Ακρίβεια (%) Ανάκληση (%) Κανένα 62 66 59 89.34 95.16 1 275 282 273 96.81 99.27 2 112 106 101 93.57 87.61 3+ 51 46 42 91.30 82.35 Πίνακας 14-1. Αριθμητική αξιολόγηση ανάκλησης με βάση το πλήθος προσώπων. Παρατηρείται από τις μετρήσεις ακρίβειας και ανάκλησης του Πίνακα 14-1 ότι καλύτερα αποτελέσματα λαμβάνονται στην περίπτωση του ενός προσώπου· αυτό είναι αναμενόμενο αφού το ένα πρόσωπο είναι συνήθως σε κοντινό πλάνο και επομένως σε μεγαλύτερη ανάλυση, οπότε ανιχνεύεται ευκολότερα. Επιπλέον, πολλά καρέ με ένα πρόσωπο εμφανίζουν πρόσοψη παρουσιαστών ή ομιλητών σε εσωτερική λήψη όπου οι συνθήκες φωτισμού είναι ελεγχόμενες. Η μειωμένη ανάλυση είναι ο κυριότερος παράγοντας για τις χαμηλότερες τιμές ανάκλησης στις περιπτώσεις των δύο ή περισσότερων προσώπων, καθώς προκαλεί μεγαλύτερο αριθμό απωλειών (dismissals). Η ακρίβεια της κατηγορίας «κανένα πρόσωπο» είναι χαμηλότερη για τον ίδιο ακριβώς λόγο, αφού όταν τα πρόσωπα δεν ανιχνεύονται οι αντίστοιχες εικόνες κατατάσσονται στην κατηγορία αυτή. Σημειώνεται τέλος ότι μία παρόμοια ποσοτική αξιολόγηση για τις περιπτώσεις ανάκλησης με βάση το χρώμα και την κλίμακα προσώπου δεν είναι εύκολη διότι σε αυτές τις περιπτώσεις δε μπορεί να καθοριστεί αντικειμενικά το επιθυμητό αποτέλεσμα (ground truth). Συμπεράσματα Η παραδοσιακή ακολουθιακή ή γραμμική αναπαράσταση βίντεο με διαδοχικά καρέ έχει σημαντικούς περιορισμούς για τις μελλοντικές εφαρμογές πολυμέσων όπως η δεικτοδότηση, η πλοήγηση και η ανάκληση με βάση το περιεχόμενο, κυρίως λόγω του τεράστιου όγκου πληροφοριών που εμπλέκονται και των αντίστοιχων απαιτήσεων χωρητικότητας αποθήκευσης ή εύρους ζώνης μετάδοσης. Μία από τις σημαντικότερες συνεισφορές της παρούσας διατριβής είναι ότι επιτυγχάνει μη γραμμική αναπαράσταση ως προς το χρόνο, με βάση το οπτικό περιεχόμενο. Οι ακολουθίες διαμερίζονται αρχικά σε διαδοχικά πλάνα και στη συνέχεια πραγματοποιείται ουσιαστικά μη ομοιόμορφη δειγματοληψία με βάση το περιεχόμενο, απορρίπτοντας πλάνα ή καρέ με παρόμοιο οπτικό περιεχόμενο. Η προσέγγιση αυτή παρέχει αυτόματη εξαγωγή περίληψης της οπτικής πληροφορίας με τρόπο παρόμοιο με εκείνο που χρησιμοποιείται σε συστήματα διαχείρισης εγγράφων και πληροφορίας κειμένου. Η χρησιμοποιούμενη πολυδιακριτική υλοποίηση του αλγορίθμου RSST για την κατάτμηση με βάση το χρώμα, την κίνηση και το πεδίο βάθους, πέρα από τη δραματική επιτάχυνση της διαδικασίας κατάτμησης, επιτυγχάνει και μείωση του φαινομένου του oversegmentation. Το πεδίο βάθους υπολογίζεται στην περίπτωση των στερεοσκοπικών ακολουθιών από την απόκλιση μεταξύ των εικόνων των δύο καναλιών, ενώ οι επικαλυπτόμενες περιοχές ανιχνεύονται και αντισταθμίζονται αποτελεσματικά με κατάλληλες τιμές απόκλισης. Επιπλέον, με τη συγχώνευση της πληροφορίας χρώματος και βάθους επιτυγχάνεται ικανοποιητική προσέγγιση των σημασιολογικών αντικειμένων, και μάλιστα με μεγάλη ακρίβεια στα περιγράμματά τους. Πιο αξιόπιστη ανάλυση μπορεί να επιτευχθεί με την παρακολούθηση (tracking) των αντικειμένων, ώστε να μειωθεί η επίδραση του θορύβου κατάτμησης [83,142]. Τα πειράματα εξαγωγής περίληψης δείχνουν ότι επιτυγχάνεται καλύτερη αναπαράσταση με τη χρήση της πληροφορίας βάθους, γεγονός που δικαιολογεί το επιπλέον υπολογιστικό κόστος εκτίμησης του πεδίου απόκλισης. Η όλη διαδικασία ανάλυσης είναι προσανατολισμένη στην εκμετάλλευση πληροφορίας που είναι διαθέσιμη σε ακολουθίες MPEG, με κριτήριο την ταχεία υλοποίηση. Στην περίπτωση αυτή, παράμετροι όπως οι μέσες χρωματικές συνιστώσες στα block των εικόνων και τα διανύσματα κίνησης είναι ήδη υπολογισμένα· έτσι απαιτείται μικρού μόνο βαθμού αποκωδικοποίηση και ταυτόχρονα υπάρχει σημαντικό όφελος στην ταχύτητα επεξεργασίας. Με βάση την κατάτμηση ακολουθιών σε αντικείμενα, τα χαρακτηριστικά του κάθε αντικειμένου, όπως η θέση, το μέγεθος, το χρώμα, η κίνηση και το βάθος, χρησιμοποιούνται για την κατασκευή διανυσμάτων περιγραφής μέσω ασαφών πολυδιάστατων ιστογραμμάτων, μειώνοντας έτσι την επίδραση των ασυνεχειών και του θορύβου κατάτμησης. Η αναπαράσταση του οπτικού περιεχομένου με διανύσματα περιγραφής σταθερών διαστάσεων, στα οποία υπάρχει ένα προς ένα αντιστοιχία των επιμέρους στοιχείων, επιτρέπει ταχεία και αξιόπιστη σύγκριση εικόνων, καρέ ή πλάνων. Έτσι, με χρήση της Ευκλείδειας απόστασης διανυσμάτων περιγραφής, είναι η δυνατή η ομαδοποίηση των πλάνων παρόμοιου οπτικού περιεχομένου και η επιλογή ενός περιορισμένου αριθμού αντιπροσωπευτικών πλάνων με το γενικευμένο αλγόριθμο Lloyd-Max, ο οποίος έχει χαμηλό υπολογι- 162 Συμπεράσματα 163 στικό κόστος. Σημειώνεται ότι η επιλογή γίνεται πάντα με βάση το περιεχόμενο· επιλογή πλάνων σε ισαπέχοντα χρονικά διαστήματα δε μπορεί να αποδώσει σωστά το οπτικό περιεχόμενο. Για κάθε πλάνο, επιλέγεται ένας περιορισμένος αριθμός χαρακτηριστικών καρέ, με δύο εναλλακτικές μεθόδους: την επιλογή ακραίων σημείων της τροχιάς του διανύσματος περιγραφής ως συνάρτησης του χρόνου και την ελαχιστοποίηση ενός κριτηρίου συσχέτισης των διανυσμάτων περιγραφής των καρέ. Η πρώτη μέθοδος είναι πολύ γρήγορη και απλή στην υλοποίηση· επιπλέον, ανιχνεύει τη δράση ενός πλάνου, επιτρέποντας την εκτίμηση του βέλτιστου πλήθους χαρακτηριστικών καρέ, και λειτουργεί ακόμη και σε περιπτώσεις περιοδικής επανάληψης του οπτικού περιεχομένου. Αντίθετα, η δεύτερη μέθοδος επιλέγει χαρακτηριστικά καρέ με βέλτιστο τρόπο, βάσει της ομοιότητας. Επειδή η εξαντλητική αναζήτηση της βέλτιστης λύσης είναι πρακτικά ανέφικτη, προτείνεται ένας αλγόριθμος λογαριθμικής αναζήτησης, μία στοχαστική εκδοχή του αλγορίθμου αυτού, καθώς και ένας γενετικός αλγόριθμος για την υλοποίηση της μεθόδου συσχέτισης. Η πειραματική αξιολόγηση δείχνει ότι η επίδοση του γενετικού αλγορίθμου είναι ανώτερη όσον αφορά στην ταχύτητα αλλά και στην ακρίβεια των αποτελεσμάτων, ενώ η μέθοδος χρονικής μεταβολής αποτελεί ένα ισχυρό εργαλείο προ-επεξεργασίας για την εκτίμηση της πολυπλοκότητας και της δράσης ενός πλάνου. Η χρήση της προτεινόμενης αναπαράστασης με διανύσματα περιγραφής των επιλεγμένων καρέ δίνει τη δυνατότητα ανάκλησης βάσει παραδείγματος ή σχεδιαγράμματος και ουσιαστικά ανάγει το πρόβλημα της ανάκλησης βίντεο σε ανάκληση ακίνητων εικόνων. Επιπλέον, ο μηχανισμός ανάδρασης, ακριβώς όπως και στα συστήματα αναζήτησης πληροφορίας εγγράφων με βάση το κείμενο, επιτρέπει την αλληλεπίδραση ανάμεσα στο χρήστη και το υπολογιστικό σύστημα και αυξάνει την ευελιξία ανάκλησης, αφού διαφορετικές εφαρμογές ή διαφορετικοί χρήστες μπορεί να απαιτούν διαφορετικούς τύπους αναζήτησης. Τα πειραματικά αποτελέσματα αναζήτησης από πραγματικές ακολουθίες βίντεο φανερώνουν ότι ένα απλό στάδιο ανάδρασης είναι στις περισσότερες περιπτώσεις επαρκές, ενώ στην περίπτωση που απαιτείται πολλαπλή ανάδραση το μεγαλύτερο ποσοστό βελτίωσης επιτυγχάνεται στην πρώτη επανάληψη. Η προτεινόμενη τεχνική κανονικοποίησης περιγραμμάτων που παρουσιάσθηκε στο τρίτο μέρος της διατριβής επιτρέπει την αναλλοίωτη περιγραφή ως προς τους affine μετασχηματισμούς χωρίς καμία απώλεια πληροφορίας σχήματος. Η τεχνική μπορεί να εφαρμοσθεί ως ένα στάδιο προεπεξεργασίας σε συνδυασμό με οποιαδήποτε μέθοδο αναπαράστασης, ταξινόμησης, αναγνώρισης ή ανάκλησης, αφού ουσιαστικά αποσυνδέει το πρόβλημα της αναλλοίωτης περιγραφής από την εξαγωγή χαρακτηριστικών και το ταίριασμα. Το γεγονός αυτό επιβεβαιώνεται με ένα αριθμό πειραμάτων με διάφορα μέτρα απόστασης καμπυλών στο πλαίσιο της ταξινόμησης και ανάκλησης αντικειμένων με βάση το σχήμα από βάσεις εικόνων και βίντεο. Σε κάθε περίπτωση, τα πειράματα έδειξαν ότι η προτεινόμενη κανονικοποίηση είναι ανθεκτική στο θόρυβο και στις περιορισμένες παραμορφώσεις σχήματος. Επιπλέον, το υπολογιστικό κόστος της τεχνικής είναι πολύ μικρό και επομένως μπορεί να ενσωματωθεί σε οποιοδήποτε σύστημα πραγματικού χρόνου για ανάκληση με βάση το περιεχόμενο ή ακόμη και για κωδικοποίηση βίντεο. Η βελτίωση της τεχνικής είναι δυνατή προς διάφορες κατευθύνσεις. Κατ’ αρχάς, μπορεί να γενικευθεί ώστε να χειρίζεται σύνολα από ανοικτές ή κλειστές καμπύλες, είτε συνεκτικές είτε όχι, για το σκοπό της οπτικής αναγνώρισης χαρακτήρων ή τη δεικτοδότηση σε βάσεις δεδομένων με τεχνικά διαγράμματα. Επίσης είναι επιθυμητή η κανονικοποίηση διδιάστατων δεδομένων από εικόνες, πέρα από τα περιγράμματα αντικειμένων, ή ακόμη και η κανονικοποίηση τρισδιάστατων μοντέλων και πολυδιάστατων δεδομένων. Τέλος ένα πολύ ενεργό πεδίο έρευνας είναι η κανονικοποίηση ως προς άλλους, μη γραμμικούς μετασχηματισμούς, και κυρίως ως το μετασχηματισμό προοπτικής προβο- 164 Συμπεράσματα λής. Τεχνικές υπολογισμού αναλλοίωτων ποσοτήτων ως προς το μετασχηματισμό αυτό υπάρχουν [103], αλλά δεν επιτρέπουν κανονικοποίηση και δεν έχουν την ιδιότητα διατήρησης της πληροφορίας σχήματος. Τα παραπάνω ζητήματα μπορούν να αποτελέσουν αντικείμενο μελλοντικής έρευνας. Η τεχνική εντοπισμού ανθρώπινων προσώπων σε ακολουθίες βίντεο που εξετάσθηκε στο τελευταίο μέρος της διατριβής μπορεί να χρησιμοποιηθεί σε διάφορες εφαρμογές, όπως η χρονική κατάτμηση, η εξαγωγή περίληψης και η πλοήγηση οπτικοακουστικού υλικού, καθώς και η συντακτική ανάλυση και δεικτοδότηση τηλεοπτικών δελτίων ειδήσεων. Η χρήση των χαρακτηριστικών υφής και του ταιριάσματος με πρότυπο προσώπου βελτιώνει σημαντικά την ακρίβεια του αλγορίθμου, με κόστος την αυξημένη πολυπλοκότητα. Όμως η τελευταία είναι μειωμένη έως και 100 φορές σε σχέση με την εξαντλητική αναζήτηση σε ολόκληρη την εικόνα (όπως γίνεται στις ασπρόμαυρες εικόνες), αφού εξετάζονται μόνο οι περιοχές στις οποίες ανιχνεύεται δέρμα. Το μοντέλο χρώματος δέρματος προσαρμόζεται σε κάθε καρέ μιας ακολουθίας βίντεο, παρέχοντας την απαιτούμενη γενίκευση για την αποτελεσματική ανίχνευση σε μεταβαλλόμενες συνθήκες φωτισμού. Η τεχνική κατάτμησης με βάση το χρώμα σε συνδυασμό με τη συγχώνευση τμημάτων δέρματος επιτυγχάνει εξαγωγή ενός μόνο τμήματος για κάθε πρόσωπο και δίνει καλύτερα αποτελέσματα σε σχέση με την κατωφλίωση της πιθανοφάνειας δέρματος ως προς το ποσοστό ανάκλησης, ενώ η χρήση χαρακτηριστικών σχήματος βελτιώνει σημαντικά το ποσοστό ακρίβειας. Η συνολική πειραματική αξιολόγηση δείχνει ότι η μέθοδος αντιμετωπίζει το πρόβλημα της ακριβούς ανίχνευσης επιτυγχάνοντας ταυτόχρονα ταχεία υλοποίηση. Η προτεινόμενη τεχνική χρονικής κατάτμησης, συντακτικής ανάλυσης και δεικτοδότησης δελτίων ειδήσεων με ανάλυση της οπτικής πληροφορίας δίνει ενθαρρυντικά αποτελέσματα, παρά το γεγονός ότι σε συνδυασμό με τον εντοπισμό προσώπων χρησιμοποιείται μόνο ένα μικρό σύνολο κανόνων που βασίζεται σε απλά οπτικά χαρακτηριστικά όπως τα ιστογράμματα χρώματος, οι απόλυτες διαφορές καρέ και η κίνηση. Αν και η σημασιολογική ανάλυση σε πραγματικές θεματικές ενότητες θα απαιτούσε ταυτόχρονα και ηχητική πληροφορία καθώς και πληροφορία κειμένου, η επίδοση της χρησιμοποιούμενης τεχνικής εντοπισμού προσώπων επιτρέπει αξιόπιστη ανάλυση ακόμη και όταν οι πληροφορίες αυτές δεν είναι διαθέσιμες. Η προτεινόμενη τεχνική ανάλυσης μπορεί είτε να χρησιμοποιηθεί σαν ανεξάρτητη εφαρμογή για δελτία ειδήσεων που δεν συνοδεύονται από υπότιτλους ή εγγραφές teletext, είτε και να ενσωματωθεί σε υφιστάμενα συστήματα που βασίζονται σε πληροφορία κειμένου και ήχου. Επιπλέον, τα πειράματα δείχνουν ότι πέρα από την αυτοματοποίηση της διαδικασίας δεικτοδότησης ανθρώπινων προσώπων, η χρήση χαρακτηριστικών των προσώπων μπορεί επίσης να οδηγήσει σε νέα κριτήρια αναζήτησης σε εφαρμογές ανάκλησης μέσω παραδείγματος. Τα τρία απλά κριτήρια που προτείνονται, δηλαδή της αναζήτησης με βάση το χρώμα, το μέγεθος και το πλήθος προσώπων, μπορούν να συνδυαστούν και με γενικότερα κριτήρια που βασίζονται σε χαρακτηριστικά χρώματος, κίνησης, σχήματος ή υφής, επιτρέποντας τη γενίκευση των σεναρίων αναζήτησης. Έτσι παρέχεται ένα ισχυρό εργαλείο σημασιολογικής αναζήτησης που μπορεί να αποτελέσει τμήμα υφιστάμενων συστημάτων δεικτοδότησης και ανάκλησης. Βιβλιογραφία [1] Alatan A., Onural L., Wollborn M., Mech R., Tuncel E., and Sikora T., "Image Sequence Analysis for Emerging Interactive Multimedia Services ­ The European Cost 211 Framework," IEEE Trans. Circuits and Systems for Video Technology, Vol. 8, No. 7, pp. 802-813, Nov. 1998. [2] Androutsos D., Plataniotis K. N., and Venetsanopoulos A. N., "Extraction of Detailed Image Regions for Content-Based Image Retrieval," in Proc. of IEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP), Seattle, WA, May 1998. [3] [4] Ariki Y. and Saito Y., "Extraction of TV News Articles Based on Scene Cut Detection Using DCT Clustering," in Proc. of IEEE Int. Conf. on Image Processing (ICIP), Vol. 3, pp. 847-850, 1996. Arkin E. M., Chew L. P., Huttenlocher D. P., Kedem K., and Mitchell J. S. B., "An Efficiently Computable Metric for Comparing Polygonal Shapes," IEEE Trans. Pattern Analysis and Machine Intelligence, Vol. 13, No. 3, pp. 209-216, 1991. [5] [6] Arman F., Depommier R., Hsu A., and Chiu M-Y., "Content-based Browsing of Video Sequences," in Proc. of ACM Multimedia Conf., pp. 97-103, San Francisco, CA, Oct. 1994. Avrithis Y. S. and Kollias S. D., "Fuzzy Image Classification Using Multiresolution Neural Networks with Applications to Remote Sensing," in Proc. of 13th Int. Conf. on Digital Signal Processing (DSP), Vol. 1, pp. 261-264, Santorini, Greece, July 1997. [7] [8] Avrithis Y. S., Delopoulos A. N., and Papageorgiou G. C., "Ultrasonic Array Imaging Using CDMA Techniques," in Proc. of IX European Signal Processing Conf. (EUSIPCO), Rhodes, Greece, September 1998. Avrithis Y. S., Doulamis A. D., Doulamis N. D., and Kollias S. D., "A Stochastic Framework for Optimal Key Frame Extraction from MPEG Video Databases," Computer Vision and Image Understanding, Vol. 75, No. 1/2, pp. 3-24, July/August 1999. [9] Avrithis Y. S., Tsapatsoulis N. A., and Kollias S. D., "Broadcast News Parsing Using Visual Cues: A Robust Face Detection Approach," in Proc. of IEEE Int. Conf. on Multimedia and Expo (ICME), Vol. 3, pp. 1469-1472, New York City, NY, July-August 2000. [10] Avrithis Y. S., Xirouhakis Y. S., and Kollias S. D., "Affine Invariant Representation and Classification of Object Contours for Image and Video Retrieval," in Computational Intelligence and Applications, N. Mastorakis (editor), World Scientific and Engineering Society Press, pp. 342-347, 1999. [11] Avrithis Y. S., Xirouhakis Y. S., and Kollias S. D., "Affine Invariant Representation and Classification of Object Contours for Image and Video Retrieval," in Proc. of 3rd WSES/IEEE/IMACS World Multiconference on Circuits, Systems, Communications and Computers (CSCC), Athens, Greece, July 1999. [12] Avrithis Y. S., Xirouhakis Y. S., and Kollias S. D., "Affine-Invariant Curve Normalization for Object Shape Representation, Classification and Retrieval," Machine Vision and Applications (submitted for publication). [13] Avrithis Y., Doulamis A., Doulamis N., and Kollias S., "An Adaptive Approach to Video Indexing and Retrieval Using Fuzzy Classification," in Proc. of Workshop on Very Low Bit Rate Video Coding (VLBV), Urbana-Champaign, IL, Oct. 1998. 165 166 [14] Βιβλιογραφία Avrithis Y., Doulamis N., Doulamis A., and Kollias S., "Efficient Content Representation in MPEG Video Databases," in Proc. of IEEE Workshop of Content-Based Access of Image and Video Libraries (CBAIVL), pp. 91-95, Santa Barbara, CA, June 1998. [15] [16] [17] [18] Avrithis Y., Tsapatsoulis N., and Kollias S., "Color-Based Retrieval of Facial Images," in Proc. of IX European Signal Processing Conference (EUSIPCO), Tampere, Finland, September 2000. Avrithis Y., Xirouhakis Y., and Kollias S., "Affine-Invariant Curve Normalization for Shape-Based Retrieval," in Proc. of Int. Conf. on Pattern Recognition (ICPR), Barcelona, Spain, Sept. 2000. Balslev I., "Noise Tolerance of Moment Invariants in Pattern Recognition," Pattern Recognition Letters, Vol. 19, pp. 1183-1189, 1998. Bhanu B., Peng J., and Qing S., "Learning Feature Relevance and Similarity Metrics in Image Databases," in Proc. of IEEE Workshop on Content-Based Access of Image and Video Libraries (CBAIVL), Santa Barbara, CA, June 1998. [19] [20] [21] Bimbo A. D. and Pala P., "Visual Image Retrieval by Elastic Matching of User Sketches," IEEE Trans. Pattern Analysis and Machine Intelligence, Vol. 19, No. 2, pp. 121-132, 1997. Blum H., "A Transformation for Extracting New Descriptors of Shape," in Models for the Perception of Speech and Visual Form, W. Wathen-Dum (editor), MIT Press, Cambridge, Mass, 1967. Bouthemy P., Gelgon M., and Ganancia F., "A Unified Approach to Shot Change Detection and Camera Motion Characterization," IEEE Trans. Circuits and Systems for Video Technology, Vol. 9, No. 7, pp.10301044, Oct. 1999. [22] [23] Brown M., Foote J., Jones G., Sparck-Jones K., and Young S., "Automatic Content-Based Retrieval of Broadcast News," in Proc. of ACM Multimedia Conf., San Francisco, CA, Nov. 1995. Castagno R., Ebrahimi T., and Kunt M., "Video Segmentation Based on Multiple Features for Interactive Multimedia Applications," IEEE Trans. Circuits and Systems for Video Technology, Vol. 8, No. 5, pp. 562571, Sept. 1998. [24] [25] CCITT Recommendation H.261, "Video Codec for Audiovisual Data at p64 kb/s," Geneva, 1990. Chang S.-F., Chen W., Meng H. J., Sundaram H., and Zhong D., "A Fully Automated Content-Based Video Search Engine Supporting Spatiotemporal Queries," IEEE Trans. Circuits and Systems for Video Technology, Vol. 8, No. 5, Sept. 1998. [26] Chang S.-F., Eleftheriadis A., and McClintock R., "Next-Generation Content Representation Creation, and Searching for New-Media Applications in Education," Proceedings of the IEEE, Vol. 86, No. 5., pp. 884-904, May 1998. [27] [28] [29] [30] [31] Chiariglione L., "MPEG and Multimedia Communications," IEEE Trans. Circuits and Systems for Video Technology, Vol. 7, pp. 5-18, Feb. 1997. Cohen F. S., Huang Z., and Yang Z., "Invariant Matching and Identification of Curves using B-Splines Curve Representation," IEEE Trans. Image Processing, Vol. 4, No. 1, pp. 1-10, Jan. 1995. Dell’Acqua F. and Gamba P., "Simplified Model analysis and Search for Reliable Shape Retrieval," IEEE Trans. Circuits and Systems for Video Technology, Vol. 8, No. 5, pp. 656-666, Sept. 1998. DeMenthon D., Kobla V., and Doermann D., "Video Summarization by Curve Simplification," in Proc. of ACM Multimedia Conf., pp. 211-218, Bristol, UK, 1998. Doulamis A. D., Avrithis Y. S., Doulamis N. D., and Kollias S. D., "A Genetic Algorithm for Efficient Video Content Representation," in Computational Intelligence in Systems and Control ­ Design and Applications, S. G. Tzafestas (editor), Kluwer Academic Publishers, Jan. 2000. Βιβλιογραφία [32] 167 Doulamis A. D., Avrithis Y. S., Doulamis N. D., and Kollias S. D., "Indexing and Retrieval of the Most Characteristic Frames / Scenes in Video Databases," in Proc. of Workshop on Image Analysis for Multimedia Interactive Services (WIAMIS), pp. 105-110, Louvain-la-Neuve, Belgium, June 1997. [33] Doulamis A. D., Avrithis Y. S., Doulamis N. D., and Kollias S. D., "A Genetic Algorithm for Efficient Video Content Representation," in Proc. of IMACS/IFAC Int. Symp. on Soft Computing in Engineering Applications (SOFTCOM), Athens, Greece, June 1998. [34] Doulamis A. D., Doulamis N. D., Avrithis Y. S., and Kollias S. D., "A Fuzzy Video Content Representation for Video Summarization and Content-Based Retrieval," Signal Processing Journal, Vol. 80, No. 6, June 2000. [35] Doulamis A., Avrithis Y., Doulamis N., and Kollias S., "Interactive Content-Based Retrieval in Video Databases Using Fuzzy Classification and Relevance Feedback," in Proc. of IEEE Int. Conf. on Multimedia Computing and Systems (ICMCS), Florence, Italy, June 1999. [36] Doulamis N. D., Doulamis A. D., Avrithis Y. S., and Kollias S. D., "Video Content Representation Using Optimal Extraction of Frames and Scenes," in Proc. of IEEE Int. Conf. on Image Processing (ICIP), Vol. 1, pp. 875-879, Chicago, IL, October 1998. [37] Doulamis N. D., Doulamis A. D., Avrithis Y. S., Kollias S. D., "A Stochastic Framework for Optimal Key Frame Extraction from MPEG Video Databases," in Proc. of IEEE Int. Workshop on Multimedia Signal Processing (MMSP), pp. 141-146, Copenhagen, Denmark, September 1999. [38] Doulamis N. D., Doulamis A. D., Avrithis Y. S., Ntalianis K. S., and Kollias S. D., "An Optimal Framework for Summarization of Stereoscopic Video Sequences," in Proc. of Int. Workshop on Synthetic ­ Natural Hybrid Coding and Three Dimensional Imaging (IWSNHC3DI), Santorini, Greece, September 1999. [39] Doulamis N., Doulamis A., Avrithis Y., Ntalianis K., and Kollias S., "Efficient Summarization of Stereoscopic Video Sequences," IEEE Trans. Circuits and Systems for Video Technology, Vol. 10, No. 4, pp. 501517, June 2000. [40] Eickeler S., Kosmala A., and Rigoll G., "A New Approach to Content-Based Video Indexing Using Hidden Markov Models," in Proc. of Workshop on Image Analysis and Multimedia Interactive Systems (WIAMIS), Louvain-la-Neuve, Belgium, June 1997. [41] Flickner M., Sawhney H., Niblack W., Ashley J., Huang Q., Dom B., Gorkani M., Hafner J., Lee D., Petkovic D., Steele D., and Yanker P., "Query by Image and Video Content: the QBIC System," IEEE Computer Magazine, pp. 23-32, Sept. 1995. [42] [43] [44] Freeman H., "Boundary Encoding and Processing," in Picture Processing and Phychopictorics, Lipkin and Rosenfeld (editors), Academic Press, New York, 1970. Garcia C. and Tziritas G., "Face Detection Using Quantized Skin Color Regions Merging and Wavelet Packet Analysis," IEEE Trans. Multimedia, Vol. 1, No. 3, pp. 264-277, 1999. Garrido L., Marques F., Pardas M., Salembier P., and Vilaplana V., "A Hierarchical Technique for Image Sequence Analysis," in Proc. of Workshop on Image Analysis for Multimedia Interactive Services (WIAMIS), pp. 13-20, Louvain-la-Neuve, Belgium, June 1997. [45] Gelgon M. and Bouthemy P., "A Hierarchical Motion-Based Segmentation and Tracking Technique for Video Storyboard-Like Representation and Content-Based Indexing," in Proc. of Workshop on Image Analysis and Multimedia Interactive Systems (WIAMIS), Louvain-la-Neuve, Belgium, June 1997. [46] [47] [48] Gersho A. and Gray R. M., Vector Quantization and Signal Compression, Κluwer Academic Publishers, 1993. Girdwood C. and Chiwy P., "MIRAGE: An ACTS Project in Virtual Production and Stereoscopy," IBC Conference Publication, No. 428, pp. 155-160, Sept. 1996. Goldberg D. E., Genetic Algorithm in Search, Optimization and Machine Learning, Addison Wesley, 1989. 168 [49] [50] Gonzalez R. C. and Woods R. E., Digital Image Processing, Addison-Wesley, 1992. Βιβλιογραφία Grammalidis N. and Strintzis M. G., "Disparity and Occlusion Estimation in Multiocular Systems and Their Coding for the Communication of Multiview Image Sequences," IEEE Trans. Circuits and Systems for Video Technology, Vol. 8, No. 3, pp. 328-344, June 1998. [51] [52] Gu C. and Lee M.-C., "Semiautomatic Segmentation and Tracking of Semantic Video Objects," IEEE Trans. Circuits and Systems for Video Technology, Vol. 8, No. 5, pp. 572-584, Sept. 1998. Hamrapur A., Gupta A., Horowitz B., Shu C. F., Fuller C., Bach J., Gorkani M., and Jain R., "Virage Video Engine," in SPIE Proc. Storage and Retrieval for Video and Image Databases V, pp. 188-197, San Jose, CA, Feb. 1997. [53] [54] [55] [56] [57] [58] [59] [60] [61] [62] [63] [64] [65] [66] [67] [68] [69] [70] Han K. J. and Tewfik A. H., "Eigen-Image Video Segmentation and Indexing," in Proc. of IEEE Int. Conf. on Image Processing (ICIP), pp. 538-541, Santa Barbara, CA, Oct. 1997. Harwood L. A., "A Chrominance Demodulator IC with Dynamic Flesh Correction," IEEE Trans. Consumer Electronics, Vol. 22, No. 2, pp. 111-117, 1976. Hu M. K., "Visual Pattern Recognition by Moment Invariants," IRE Trans. Information Theory, Vol. 8, pp. 179-187, 1962. Huang Z. and Cohen F. S., "Affine-invariant B-Spline Moments for Curve Matching," IEEE Trans. Image Processing, Vol. 5, No. 10, pp. 1473-1480, 1996. Hush D. R. and Horne B. G., "Progress in Supervised Neural Networks," IEEE Signal Processing Magazine, Jan. 1993. Idris F. M. and Panchanathan S., "Spatio-Temporal Indexing of Vector Quantized Video Sequences," IEEE Trans. Circuits and Systems for Video Technology, pp. 728-740, Oct. 1997. IEEE Workshop on Content Based Access of Image and Video Libraries (CBAIVL), Santa Barbara, 21 June, 1998. Ioannou S., Moschovitis G., Ntalianis K., Karpouzis K., and Kollias S., "Effective Access to Large Audiovisual Assets Based on User Preferences," ACM Multimedia, Marina del Ray, CA, Nov. 2000. Ip H. S. and Shen D., "An Affine-Invariant Active Contour Model (AI-Snake) for Model-Based Segmentation," Image and Vision Computing, Vol. 16, No. 2, pp. 135-146, 1998. Irani M. and Anandan P., " Video Indexing Based on Mosaic Representation," Proceedings of the IEEE, Vol. 86, No. 5., pp. 805-921, May 1998. ISO/CD 11172-2, "Coding of Moving Pictures and Associated Audio for Digital Storage Media at up to about 1.5 Mbps," March 1991. ISO/IEC 13818-2, "Generic Coding of Moving Pictures and Associated Audio," H.262, Committee Draft, May 1994. ISO/IEC JTC1/SC29/WG11, "MPEG-4 Video Verification Model Version 11.0," Doc. N2172, 1998. ISO/IEC JTC1/SC29/WG11, "MPEG-7 Overview (v. 1.0)," Doc. N3158, Dec. 1999. ISO/IEC JTC1/SC29/WG11, "MPEG-7: Context and Objectives (v.5)," Doc. N1920, Oct. 1997. ITU-T SG 15 Experts Group for Very Low Bitrate Visual Telephony, Draft Recommendation H.263, Feb. 1995. Jain A. K., Zhong Y., and Lakshmanan S., "Object Matching Using Deformable Templates," IEEE Trans. Pattern Analysis and Machine Intelligence, Vol. 18, No. 3, pp. 267-278, 1996. Jiang X., Bunke H., and Widmer-Kljajo D., "Skew Correction of Document Images by Focused NearestNeighbor Clustering," in Proc. of 5th Int. Conf. on Document Analysis and Recognition (ICDAR'99), pp 629632, Bangalore, 1999. Βιβλιογραφία [71] [72] 169 Jones M. J. and Regh M. R., "Statistical Color Models with Application to Skin Detection," Compaq Cambridge Research Lab Technical Report, CRL 98/11, 1998. Karpouzis K., Votsis G., Xirouhakis Y., Stamou G., and Kollias S., "An Intelligent Multimedia System for Efficient Image Browsing and Retrieval," in Proc. of European Workshop on Content-Based Multimedia Indexing (CBMI), Toulouse, France, Nov. 1999. [73] [74] [75] Khotanzad A. and Hong Y. H., "Invariant Image Recognition by Zernike Moments," IEEE Trans. Pattern Analysis and Machine Intelligence, Vol. 12, No. 5, pp. 489-497, 1990. Kobla V., Doermann D., and Faloutsos C., "Video Trails: Representing and Visualizing Structure in Video Sequences," in Proc. of ACM Multimedia Conf., pp. 335-346, Seattle, WA, Nov. 1997. Kompatsiaris I., Tzovaras D., and Strintzis M. G., "3-D Model Based Segmentation of Videoconference Image Sequences," IEEE Trans. Circuits and Systems for Video Technology, Vol. 8, No. 5, pp. 547-561, Sept. 1998. [76] [77] [78] [79] [80] [81] [82] [83] [84] Kosko B., Neural Networks and Fuzzy Systems: A Dynamical Systems Approach to Machine Intelligence, Prentice Hall, 1992. Lai K. K. and Chin R. T., "Deformable Contours: Modeling and Extraction," IEEE Trans. Pattern Analysis and Machine Intelligence, Vol. 17, No. 11, pp. 1084-1090, 1995. Lei Z., Chan Y., and Lopresti D., "Image Curvelet Feature Extraction and Matching," in Proc. of Int. Conf. on Image Processing (ICIP), Santa Barbara, CA, 1997. Li C.-S., Mahan R., and Smith J., "Multimedia Content Description in the Infopyramid," in Proc. of IEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP), pp. 3789-3792, Seattle, WA, May 1998. Lin H.-C., Wang L.-L., and Yang S.-N., "Color Image Retrieval Based on Hidden Markov Models," IEEE Trans. Image Processing, Vol. 6, No. 2, pp. 332-339, Feb. 1997. Llados J., Bunke H., and Marti E., "Finding rotational symmetries by cyclic string matching," Pattern Recognition Letters, Vol. 18, No. 14, pp. 1435-1442, 1997. Ma W. Y. and Manjunath B. S., "Netra: A Toolbox for Navigating Large Image Databases," in Proc. of Int. Conf. on Image Processing (ICIP), Santa Barbara, CA, Oct. 1997. Malassiotis S. and Strintzis M., "Tracking Textured Deformable Objects Using a Finite-Element Mesh," IEEE Trans. Circuits and Systems for Video Technology, Vol. 8, pp. 756-774, Oct. 1998. Marques F., Llorens B., and Gasull A., "Prediction of Image Partitions Using Fourier Descriptors: Application to Segmentation-Based Coding Schemes," IEEE Trans. Pattern Analysis and Machine Intelligence, Vol. 7, No. 4, pp. 529-542, 1998. [85] [86] [87] [88] [89] [90] [91] Meier T. and Ngan K. N., "Automatic Segmentation of Moving Objects for Video Object Plane Generation," IEEE Trans. Circuits and Systems for Video Technology, Vol. 8, No. 5, pp. 525-538, Sept. 1998. Merialdo B., "Automatic Indexing of TV News," in Proc. of Workshop on Image Analysis and Multimedia Interactive Systems (WIAMIS), Louvain-la-Neuve, Belgium, June 1997. Merlino A., Morey D., and Maybury M., "Broadcast News Navigation Using Story Segments," in Proc. of ACM Multimedia Conf., Seattle, WA, Nov. 1997. Michalewicz Z., Genetic Algorithms + Data Structures = Evolution Programs, Springer Verlag, 1994. Mills M., Cohen J., and Wong Y. Y., "A Magnifier Tool for Video Data," in Proc. ACM Computer Human Interface (CHI), pp. 93-98, May 1992. Mokhtarian F., "Silhouette-Based Isolated Object Recognition through Curvature Scale Space," IEEE Trans. Pattern Analysis and Machine Intelligence, Vol. 17, No. 5, pp. 539-544, 1995. Morris O. J., Lee M. J., and Constantinides A. G., "Graph Theory for Image Analysis: An Approach Based on the Shortest Spanning Tree," IEE Proceedings, Vol. 133, pp. 146-152, April 1986. 170 [92] Βιβλιογραφία Mulroy P. J., "Video Content Extraction: Review of Current Automatic Segmentation Algorithms," in Proc. of Workshop on Image Analysis and Multimedia Interactive Systems (WIAMIS), Louvain-la-Neuve, Belgium, June 1997. [93] [94] [95] [96] Nakamura Y. and Kanade T., "Semantic Analysis for Video Contents Extraction ­ Spotting by Association in News Video," in Proc. of ACM Multimedia Conf., Seattle, WA, Nov. 1997. Nam J. and Tewfik A., "Progressive Resolution Motion Indexing of Video Object," in Proc. of IEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP), Seattle, USA, May 1998. Ngan K. N., Panchanathan S., Sikora T., and Sun M.-T., Guest Editorial, IEEE Trans. Circuits and Systems for Video Technology, Vol. 8, No. 5, Sept. 1998. Odobez J. M. and Bouthemy P., "Separation of Moving Regions from Background in an Image Sequence Acquired with a Mobile Camera," in Video Data Compression for Multimedia Computing, Kluwer Academic Publishers, pp. 238-311, 1997. [97] [98] [99] Patel N. V. and Sethi I. K., "Video Shot Detection and Characterization for Video Databases," Pattern Recognition, Vol. 30, No. 4, pp. 583-592, April 1997. Pavlidis T. and Ali F., "Computer Recognition of Handwritten Numerals by Polygonal Approximation," IEEE Trans. Systems, Man and Cybernetics, Vol. 6, pp. 610-614, 1975. Pentland A., Picard R. W., and Sclaroff S., "Photobook: Content-Based Manipulation of Image Databases," Int. J. Computer Vision, Vol. 18, No. 3, pp. 233-254, 1996. [100] Persoon E. and Fu K. S., (1986) "Shape Discrimination Using Fourier Descriptors," IEEE Trans. Pattern Analysis and Machine Intelligence, Vol. 8, No. 3, pp. 388-397, 1986. [101] Pratt I., "Shape Representation using Fourier Coefficients of the Sinusoidal Transform," Technical Report Series UMCS-96-7-1, University of Manchester, 1996. [102] Raja Y., McKenna S. J., and Gong S., "Tracking and Segmenting People in Varying Lighting Conditions Using Color," in Proc. of 3rd Int. Conf. on Automatic Face and Gesture Recognition, Nara, Japan, April 1998. [103] Rivlin E. and Weiss I., "Deformation Invariants in Object Recognition," Computer Vision and Image Understanding, Vol. 65, No. 1, pp. 95-108, 1999. [104] Rothe I., Susse H., and Voss K., "The Method of Normalization to Determine Invariants," IEEE Trans. Pattern Analysis and Machine Intelligence, Vol. 18, No. 4, pp. 366-375, 1996. [105] Rui Y., Huang T. S., and Chang S.-F., "Digital Image/Video Library and MPEG-7: Standardization and Research Issues," in Proc. of IEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP), pp. 37853788, Seattle, WA, May 1998. [106] Rui Y., Huang T. S., and Mehrotra S., "Content-Based Image Retrieval with Relevance Feedback in MARS," in Proc. of Int. Conf. on Image Processing (ICIP), Santa Barbara, CA, Oct. 1997. [107] Rui Y., Huang T. S., Ortega M., and Mehrotra S., "Relevance Feedback: A Power Tool for Interactive Content-Based Image Retrieval," IEEE Trans. Circuits and Systems for Video Technology, Vol. 8, No. 5, Sept. 1998. [108] Rui Y., She A., and Huang T. S., "A Modified Fourier Descriptor for Shape Matching in MARS," in Image Databases and Multimedia Search, Series on Software Engineering and Knowledge Engineering 8, S. K. Chang (editor), World Scientific Publishing House in Singapore, pp. 165-180, 1998. [109] Rzeszewski T., "A Novel Automatic Hue Control System," IEEE Trans. Consumer Electronics, Vol. 21, No. 2, pp. 155-163, 1975. [110] Salembier P., Marques F., Pardas M., Morros R., Corset I., Jeannin S., Bouchard L., Meyer F., Marcotequi B., "Segmentation-based Video Coding System Allowing the Manipulation of Objects," IEEE Trans. Circuits and Systems for Video Technology, Vol. 7, No. 1, pp. 60-73, 1997. Βιβλιογραφία 171 [111] Salembier P. and Pardas M., "Hierarchical morphological segmentation for image sequence coding," IEEE Trans. Image Processing, Vol. 3, No. 5, pp. 639-651, Sept. 1994. [112] Samal A. and Iyengar P. A., "Automatic Recognition and Analysis of Human Faces and Facial Expressions: A Survey," Pattern Recognition, Vol. 25, No. 1, pp. 65-77, 1992. [113] Schmid C. and Mohr R., "Local Grayvalue Invariants for Image Retrieval," IEEE Trans. Pattern Analysis and Machine Intelligence, Vol. 19, No. 5, pp. 530-535, 1997. [114] Shahraray B., "Scene Change Detection and Content-Based Sampling of Video Sequences," in Proc. of SPIE 2419: Digital Video Compression: Algorithms and Technologies, pp. 2-13, Feb. 1995. [115] Shen D. and Ip H., "Generalized Affine Invariant Image Normalization," IEEE Trans. Pattern Analysis and Machine Intelligence, Vol. 19, No. 5, pp. 431-440, 1997. [116] Sigal L., Sclaroff S., and Athitsos V., "Estimation and Prediction of Evolving Color Distributions for Skin Segmentation Under Varying Illumination," in Proc. of Int. Conf. on Computer Vision and Pattern Recognition (CVPR), Hilton Head Island, SC, June 2000. [117] Sikora T., "The MPEG-4 Video Standard Verification Model," IEEE Trans. Circuits and Systems for Video Technology, Vol. 7, No. 1, pp. 19-31, February 1997. [118] Slater J., "Eye to Eye with Stereoscopic TV," Image Technology, p. 23, Nov./Dec. 1996. [119] Smith J. R. and Chang S.-F., "VisualSEEk: A Fully Automated Content-Based Image Query System," in Proc. of ACM Multimedia Conf., pp. 87-98, Boston, MA, Nov. 1996. [120] Smoliar S. W. and Zhang H. J., "Content-Based Video Indexing and Retrieval," IEEE Multimedia, pp.6272, Summer 1994. [121] Special Issue on Content-Based Image Retrieval Systems, IEEE Computer Magazine, Venkat N. Gudivada and J. V. Raghavan (editors), Vol. 28, No. 9, 1995. [122] Special Issue on Segmentation, Description and Retrieval of Video Content, IEEE Trans. Circuits and Systems for Video Technology, Vol. 8, No. 5, 1998. [123] Special Issue on Visual Information Management, Communications of ACM, Ramesh Jain (guest editor), Dec. 1997. [124] Sun Q. B., Huang W. M., and Wu J. K., "Face Detection Based on Color and Local Symmetry Information," in Proc. of 3rd Int. Conf. on Automatic Face and Gesture Recognition, Nara, Japan, April 1998. [125] Swanson M. D. and Tewfik A. H., "Affine-Invariant Multiresolution Image Retrieval using B-Splines," in Proc. of Int. Conf. on Image Processing (ICIP), Santa Barbara, CA, 1997. [126] Taubin G. and Cooper D., "Object Recognition Based on Moment (or Algebraic) Invariants," in Geometric Invariance in Computer Vision, J. L. Mundy and A. Zisserman (editors), pp. 375-397, 1992. [127] Tekalp A. M., Digital Video Processing, Prentice Hall, 1995. [128] Torres L. and Kunt M., Video Coding: The Second Generation Approach, Kluwer Academic Publishers, Boston, MA, 1996. [129] Tsai C.-J. and Katsaggelos A. K., "Dense Disparity Estimation with a Divide-and Conquer Disparity Space Image Technique," IEEE Trans. Multimedia, Vol. 1, No. 1, pp. 18-29, Mar. 1999. [130] Tsang P. W. M., "A Genetic Algorithm for Affine Invariant Recognition of Object Shapes from Broken Boundaries," Pattern Recognition Letters, Vol. 18, pp. 631-639, 1997. [131] Tsapatsoulis N. A., Avrithis Y. S., and Kollias S. D., "Efficient Face Detection for Multimedia Applications," in Proc. of IEEE Int. Conf. on Image Processing (ICIP), Vancouver, BC, Canada, September 2000. [132] Tsapatsoulis N. A., Avrithis Y. S., and Kollias S. D., "Facial Image Indexing in Multimedia Databases," Pattern Analysis and Applications, Special Issue on Image Indexation, Springer-Verlag (accepted for publication). 172 Βιβλιογραφία [133] Tsapatsoulis N., Avrithis Y., and Kollias S., "On the use of Radon Transform for Facial Expression Recognition," in Proc. of Int. Conf. on Information Systems Analysis and Synthesis (ISAS), Orlando, FL, August 1999. [134] Tsekeridou S. and Pitas I., "Audio-Visual Content Analysis for Content-Based Video Indexing," in Proc. of Int. Conf. on Multimedia Computing and Systems, Florence, Italy, June 1999. [135] Tzovaras D., Grammalidis N., and Strintzis M. G., "Disparity Field and Depth Map Coding for Multiview 3D Image Generation," Signal Processing: Image Communication, No. 11, pp. 205-230, 1998. [136] Tzovaras D., Grammalidis N., and Strintzis M. G., "Object-Based Coding of Stereo Image Sequences Using Joint 3-D Motion/Disparity Compensation," IEEE Trans. Circuits and Systems for Video Technology, Vol. 7, No. 2, pp. 312-327, April 1997. [137] Vasconcelos N. and Lippman A., "A Spatiotemporal Motion Model for Video Summarization," in Proc. of IEEE Int. Conf. on Computer Vision and Pattern Recognition (CVPR), pp. 361-366, Santa Barbara, CA, June 1998. [138] Wan X. and Kuo C.-C. J., "A New Approach to Image Retrieval with Hierarchical Color Clustering," IEEE Trans. Circuits and Systems for Video Technology, Vol. 8, No. 5, pp. 628-643, Sept. 1998. [139] Wang H. and Chang S.-F., "A Highly Efficient System for Automatic Face Region Detection in MPEG Video," IEEE Trans. Circuits and Systems for Video Technology, Vol. 7, No. 4, pp. 615-628, 1997. [140] Wang J. and Cohen F. S., "Part II: 3-D Object Recognition and Shape Estimation from Image Contours Using B-Splines, Shape Invariant Matching, and Neural Network," IEEE Trans. Pattern Analysis and Machine Intelligence, Vol. 16, No. 1, pp. 13-23, 1994. [141] Wang J., Yang W.-J., and Acharya R., "Efficient Access to and Retrieval from a Shape Image Database," in Proc. of IEEE Workshop on Content-Based Access of Image and Video Libraries (CBAIVL), Santa Barbara, CA, June 1998. [142] Wang Y. and Lee O., "Active Mesh ­ A Feature Seeking and Tracking Image Sequence Representa- tion Scheme," IEEE Trans. Image Processing, Vol. 3, pp. 610-624, Sept. 1994. [143] Watt A. and Watt M., Advanced Animation and Rendering Techniques, ACM Press, New York, 1992. [144] Wax M. and Kailath T., "Detection of Signals by Information Theoretic Criteria," IEEE Trans. Acoustics, Speech and Signal Processing, Vol. 33, No. 2, April 1985. [145] Xirouhakis Y., Avrithis Y., and Kollias S., "Image Retrieval and Classification Using Affine Invariant BSpline Representation and Neural Networks," in Proc. of IEE Colloquium on Neural Nets and Multimedia, pp. 4/1-4/4, London, UK, Oct. 1998. [146] Xirouhakis Y., Mathioudakis V., and Delopoulos A., "An Efficient Algorithm for Mobile Object Localization in Video Sequences," in Proc. of Visual Modeling and Visualization Workshop (VMV), Erlangen, Germany, 1999. [147] Yang G. and Huang T. S., "Human Face Detection in Complex Background," Pattern Recognition, Vol. 27, No. 1, pp. 55-63, 1994. [148] Yang Z. and Cohen F. S., "Image Registration and Object Recognition Using Affine Invariants and Convex Hulls," IEEE Trans. Pattern Analysis and Machine Intelligence, Vol. 8, No. 7, pp. 934-946, 1999. [149] Yeo B.-L. and Liu B., "Rapid Scene Analysis on Compressed Videos," IEEE Trans. Circuits and Systems for Video Technology, Vol. 5, pp. 533-544, Dec. 1995. [150] Yeung M. M. and Yeo B.-L., "Video Visualization for Compact Presentation and Fast Browsing of Pictorial Content," IEEE Trans. on Circuits and Systems for Video Technology, Vol. 7, No. 5, pp. 771-785, Oct. 1997. Βιβλιογραφία 173 [151] Yow K. C. and Cipolla C., "Feature-based Human Face Detection in Complex Background," Image and Vision Computing, Vol. 15, No. 9, pp. 713-735, 1997. [152] Zhang H. J., Tan S. Y., Smoliar S., and Yihong G., "Automatic Parsing and Indexing of News Video," Multimedia Systems, Vol. 2, pp. 256-266, 1995. [153] Ziegler M., "Digital Stereoscopic Imaging and Applications: A Way Towards New Dimensions, the RACE II Project DISTIMA," in Proc. of IEE Colloquium on Stereoscopic Television, London, UK, 1992. Ευρετήριο Ελληνικοί όροι Α αβεβαιότητα σημείου αναφοράς, 105, 107 ακεραίων αριθμών, κωδικοποίηση, 72 ακολουθιακή πρόσβαση, 1 ακολουθίες MPEG, 19, 20, 46, 51, 148 δελτίων ειδήσεων, 3, 85 στερεοσκοπικές, 3, 6, 22 συνθετικές, 46, 62 ψευδοτυχαίες, 9 ακουστική πληροφορία, 148, 153 ακραία σημεία, 61 ακρίβεια, 141, 144, 152, 161 ακρότατα, τοπικά, 66 αλγόριθμος color clustering, 14 K-means, 53, 148 Levenberg-Marquardt, 116 Lloyd-Max, 9, 52, 53 M-RSST, 6, 9, 16, 117, 133 pyramidal region growing, 14 RSST, 6, 9, 14 watershed, 14 ανίχνευσης προσώπων, 129, 146 γενετικός, 7, 10, 69, 72 λογαριθμικός, 69 ορθοκανονικοποίησης, 99 στοχαστικός, 71 συγχώνευσης, 6, 33 ταχείας ανίχνευσης δέρματος, 131 αληθείς μάσκες, 141, 143, 144 αληθής ταξινόμηση, 152, 161 αλλαγή κλίμακας, 92, 113, 117 αλλαγή πλάνου, 148 απότομη, 148 αλληλεπίδραση, 82, 146 αλυσίδας, κωδικοποίηση, 90 αναγνώριση θεματικών ενοτήτων, 146 περιγραμμάτων, 123 προσώπων, 129, 147 χαρακτήρων, 89 ανάδραση, 7, 10, 80, 82, 131 απλή, 83 καταλληλότητας, 82 πολλαπλή, 83, 84, 87 αναζήτηση, 1 λογαριθμική, 7, 10, 69 με βάση τα πρόσωπα, 8 κλίμακα προσώπων, 158, 159 πλήθος προσώπων, 158, 160 χρώμα προσώπων, 157, 159 με βάση το περιεχόμενο, 7, 79, 129 με βάση το σχήμα, 5, 112, 115, 117 μέσω κειμένου, 82 μέσω παραδείγματος, 7, 79, 85, 114, 126, 156 μέσω σκίτσου, 114 μέσω σχεδιαγράμματος, 5, 7, 79, 81, 90, 114 παράλληλη, 72 περιγραμμάτων, 125 περιοχή, 26 πληροφορίας, 152 σενάρια, 157 τυχαία, 71 ανακατανομή κομβικών σημείων, 98, 120 ανακατασκευή εικόνων υπερήχων, 9 ανάκληση, 1, 141, 144, 152, 161 λανθασμένη, 127 με βάση τα πρόσωπα, 156 με βάση το περιεχόμενο, 7, 79, 156 με βάση το σχήμα, 8, 10, 93, 112, 117, 125 μέσω παραδείγματος, 80, 87, 159 μέσω σχεδιαγράμματος, 5, 127 αναλλοίωτα χαρακτηριστικά, 136 αναλλοίωτες ποσότητες, 5, 91 αναλλοίωτη αναπαράσταση, 114, 115 αναλλοίωτη περιγραφή, 7 σε affine μετασχηματισμούς, 107 αναλλοίωτοι μετασχηματισμοί, 91, 113 ανάλυση δελτίων ειδήσεων, 5, 8, 13, 146 επίπεδο, 16 οπτικοακουστικού υλικού, 131 σε αντικείμενα, 114 στερεοσκοπική, 3, 9, 22 συντακτική, 3, 82 σχήματος προσώπου, 133, 135 αναλυτές δεδομένων, 145 ανάμειξης, συνάρτηση, 96 ανανέωση βαρών, 116 αναπαράσταση αναλλοίωτη σε affine μετασχηματισμούς, 114, 115, 124 οπτικού περιεχομένου, 6 περιγραμμάτων, 113, 114, 116 αναπροσαρμογή μοντέλου, 132, 133 αναφοράς, σημείο, 92, 98, 103 ανίχνευση ακμών, 93 174 Ευρετήριο αλλαγής πλάνων, 4, 50, 146, 148 δέρματος, 130, 141 επικάλυψης, 6, 28 κύριων κινούμενων αντικειμένων, 94 λανθασμένη, 130, 132 μαύρης οθόνης, 146 περιγραμμάτων, 114 περιόδων σιωπής, 146 προσώπων, 8, 13, 129, 131, 133, 140, 146 σημείων ενδιαφέροντος, 5 χρώματος δέρματος, 131 ανταλλαγή γονιδίων, 74 αντικατάστασης, στρατηγική, 72, 75 αντικείμενα, 2 αντικειμενική συνάρτηση, 73 αντιπροσωπευτικά πλάνα, 7 αντιστάθμιση επικάλυψης, 6, 29 κίνησης, 147, 148 λανθασμένης ανίχνευσης, 151 αντιστρέψιμος πίνακας, 109 απαλοιφή φάσης, 113 απαριθμητικές τεχνικές, 72 απλή ανάδραση, 83 απλό σημείο ανταλλαγής γονιδίων, 74 απλοποίηση περιγραμμάτων, 123 απόγονοι, 72, 74 απόκλιση, 6 διάνυσμα, 25 πεδίο, 25 αποκωδικοποίηση, 19 απόλυτη διαφορά, 147 απόσταση διανυσμάτων περιγραφής, 80 Ευκλείδεια, 124 κανονικοποιημένων Fourier descriptors, 115, 124 κομβικών σημείων, 124, 125 με βάρη, 80 παραμετρική, 80 περιγραμμάτων, 115, 124 αποσύνθεση, 93 απότομες αλλαγές πλάνου, 148 απώλεια, 130, 139, 143, 161 πληροφορίας, 113, 114 αρχικό σημείο αναφοράς, 92, 98 αρχικός πληθυσμός, 73 αρχιτεκτονική νευρωνικού δικτύου, 116 ασαφείς συναρτήσεις συμμετοχής, 137, 147 ασαφές ιστόγραμμα, 9, 41, 42, 44 ασαφή συστήματα, 44 ασαφής ταξινόμηση, 41 αυτόματη ανάλυση δελτίων ειδήσεων, 145 Β βαθμός ομοιότητας κλίμακας, 158 περιγραμμάτων, 122, 127 χρώματος, 158 συμμετοχής, 41, 43 βάθος, 6 πεδίο, 25 βάρη ανανέωση, 116 απόσταση με, 80 διάνυσμα, 81 διασύνδεσης νευρώνων, 116 συνδέσμων, 134 βάρους εξομάλυνσης, συνάρτηση, 27 βάσεις δεδομένων κατανεμημένες, 3 πολυμέσων, 1 βάσης, απόσταση, 23 βάσης, συνάρτηση, 96 βέλτιστη επιλογή χαρακτηριστικών καρέ, 67 βελτιστοποίηση, 69, 72, 84, 91, 113 βήματα κανονικοποίησης, 117 βήματα ορθοκανονικοποίησης, 100 βιντεοτηλέφωνο, 13, 32 Γ γεγονός, 152 γειτονική περιοχή, 70 γενετικός αλγόριθμος, 7, 10, 69, 72, 91 γενίκευση μοντέλου χρώματος δέρματος, 131 γεωμετρικός μέσος με βάρη, 137 Γκαουσιανή κατανομή, 131, 132 γλώσσα ορισμού περιγραφής, 3 γλωσσική πληροφορία, 5, 146, 147, 153 γονέων, επιλογή, 73 γονίδιο, 72 γονιδίων, ανταλλαγή, 74 γονικά χρωμοσώματα, 72 175 Δ δεδομένα σημεία, 97 δειγματοληψία, 92 με βάση το περιεχόμενο, 7 μη ομοιόμορφη, 117, 119 ομοιόμορφη, 120 περιγραμμάτων, 117, 118 δεικτοδότηση, 1, 129, 145, 156 οπτικοακουστικού υλικού, 131 δεικτών, διάνυσμα, 68 δεικτών, συνάρτηση, 45 δελτία ειδήσεων, 3, 8, 129, 131, 145 δέρμα ανίχνευση, 130 χρώμα, 130 δευτερεύων άξονας, 136 δεύτερη παράγωγος, 60 διαγραφής, φορά, 92 διαδίκτυο, 141 διαίρεση τμημάτων, 16 διακριτός μετασχηματισμός Fourier, 103 διακριτός μετασχηματισμός Karhunen-Loeve, 136 διαμέριση, 41, 43 διάνυσμα απόκλισης, 25 βαρών, 81 δεικτών, 68 εισόδου, 116 εξόδου, 116 176 κίνησης, 20, 148 μετατόπισης, 26 μιγαδικό, 103, 106 παραμέτρων, 81 περιγραφής, 7, 14, 45, 80 απόσταση, 80 μέτρο ομοιότητας, 80 σφάλματος, 81 φάσης, 103, 110 χαρακτηριστικών τμήματος, 42 χρωματικών συνιστωσών, 132, 133 διασπορά, 122 διασύνδεση νευρώνων, 116 διαχείριση, 2, 90 διδιάστατη κανονική κατανομή, 131 διοπτρικό σύστημα κάμερας, 23 δυαδική κωδικοποίηση, 72 δυαδική μάσκα, 135, 141 δυναμικός προγραμματισμός, 72, 146 Ε εγγραφές teletext, 146 ειδήσεις, 129 κατ’ απαίτηση, 5, 146 εικόνα γενική, 141 δέρματος, 141 πιθανοφάνειας δέρματος, 138 προσώπου, 138 υπερήχων, 9 εκπαίδευση, 125 νευρωνικού δικτύου, 116, 117 εκτίμηση ικανότητας, 73 κίνησης, 19, 69 σφάλμα, 51 φόντου, 147 πεδίου απόκλισης, 25 πεδίου βάθους, 25 υποθέσεων, 152 εκφράσεις, 9 ελάσσων άξονας, 136 ελάχιστο μέσο τετραγωνικό σφάλμα, 97, 116 ελέγχου, σημεία, 96 έμμεσα πολυώνυμα, 5 ενεργά περιγράμματα, 92, 127, 136 ενεργοποίησης, συνάρτηση, 116 ενότητες ειδήσεων, 148 πλάνων, 154 εντοπισμός περιγράμματος, 115 προσώπων, 10, 13, 129, 131, 133, 140 εξαγωγή περιγραμμάτων, 114, 117, 125 περίληψης, 1, 4, 129, 155 τμημάτων προσώπου, 133 χαρακτηριστικών, 93 χαρακτηριστικών καρέ, 47 εξελικτικό πρόγραμμα, 71 εξομάλυνσης, συνάρτηση, 26 Ευρετήριο εξωτερικά πλάνα, 146, 147, 151, 152 επαλήθευση, 131, 132, 139 επανεκτίμηση μοντέλου χρώματος δέρματος, 139 παραμέτρων κατανομής, 131, 132, 133 χρωματικού μοντέλου, 157 επεξεργασία εγγράφων, 89 μορφολογική, 135 σχήματος, 130 επίδραση θορύβου, 122 επιθυμητό διάνυσμα εξόδου, 116 επικάλυψη, 6, 28, 94 ανίχνευση, 28 αντιστάθμιση, 29 ποσοστό, 42 τμημάτων, 142 επικρατέστερα πρόσωπα, 147, 149 μέγιστη πιθανοφάνεια, 150 επίλεκτων, στρατηγική, 75 επιλογή απλού καρέ, 4 γονέων, 73 καρέ, ομοιόμορφη, 4 πολλαπλών καρέ, 4 φυσική, 72 χαρακτηριστικών καρέ, 76 βέλτιστη, 67 επιλογής, τάση, 73 επιμήκυνση, 90, 136 επίπεδα αντικειμένων βίντεο, 2 επίπεδο Cr-Cb, 130, 131 αντικειμένων, 90 εικόνας, 24 κρυφό, 116 νευρώνων, 116 επιρροής, ζώνη, 52 επιτάχυνση, 62 επιφάνεια περιγράμματος, 136 προσώπου, 158 ερώτημα, 80 εστιακό μήκος, 23 σημείο, 24 εσφαλμένη ανίχνευση, 132, 133 ευθυγράμμιση περιγραμμάτων, 114, 121 ευθυγραμμισμένα γεγονότα, 152 Ευκλείδεια απόσταση, 124 εύρος ζώνης μετάδοσης, 1, 3 εφαρμογές πολυμέσων, 1 Ζ ζώνη επιρροής, 52 Η ημιτονοειδής μετασχηματισμός, 90 Θ θεματικές ενότητες, 4, 146, 148, 156 θόρυβος περιγραμμάτων, 122 Ευρετήριο Ι ιδιοδιανύσματα, 136 ιδιοτιμές, 136 ιεραρχική ομαδοποίηση χρωμάτων, 5 ικανότητα, 72 εκτίμηση, 73 συνάρτηση, 73 ιστόγραμμα ασαφές, 42, 44 πολυδιάστατο, 9, 40, 41 χρώματος, 45, 148 δέρματος, 130, 132 Κ καθοδηγούμενη τυχαία αναζήτηση, 71 καμπύλη μιγαδική αναπαράσταση, 103, 106, 113 ομοιότητα, 115 ορθοκανονικοποιημένη, 100, 102, 109 περιγραφή, 113 ταίριασμα, 102 καμπυλότητας, μέτρο, 60 κανάλι αριστερό/δεξί, 26 φωτεινότητας, 130 κανονική κατανομή, 122, 131, 132 κανονικοποιημένα περιγράμματα, 115 κανονικοποιημένοι περιγραφείς Fourier, 91, 112, 113 Ευκλείδεια απόσταση, 124 κανονικοποίηση, 5, 7, 91 affine μετασχηματισμού, 107 αλλαγής κλίμακας, 99 ανοικτών καμπυλών, 108 βήματα, 117 εικόνων, 92 κατοπτρισμού, 103, 106, 119 κλίμακας, 101, 119 κλίσης, 99, 101, 119 κυκλικής ολίσθησης, 104, 105 μετατόπισης, 99, 101, 119 περιγραμμάτων, 10, 93, 114, 117, 119, 136 περιστροφής, 103, 106, 119 σημείου αναφοράς, 103, 104, 105, 119 ταξινόμησης, 73 φοράς διαγραφής, 108 καρέ, 1 ταξινόμηση, 147 χαρακτηριστικά, 7, 60, 68, 76, 156 Καρτεσιανές συντεταγμένες, 24 καταλληλότητα, 82 κατανομή κανονική, 122, 131 κομβικών σημείων, 115 προσαρμογή, 131 χρώματος δέρματος, 130, 131 κατάτμηση, 2, 6, 13, 126 M-RSST, 117 με βάση την κίνηση, 6, 19 με βάση το πεδίο βάθους, 6, 13, 30 με βάση το χρώμα, 6, 17, 117, 130, 133 κατηγορίες περιγραμμάτων, 115, 117, 121, 124, 125 κατοπτρισμός, 92, 117 κανονικοποίηση, 106, 119 μετασχηματισμός, 109 πίνακας, 106, 107 πρότυπος, 106 συμμετρία, 105 κατώφλι επιλογής καρέ, 4 κατάτμησης, 16, 37, 133 ταξινόμησης, 132 κατωφλίωση, 142 διαφοράς καρέ, 148 πιθανοφάνειας, 132 πιθανοφάνειας δέρματος, απευθείας, 135 κειμένου, πληροφορία, 146 κέντρα ομάδων, 53 βέλτιστα, 53 κεντρικές ροπές, 46 κεντρικό σημείο, 70 κέντρο βάρους, 43 κέρδος, 116 κίνηση, 2 διάνυσμα, 20 εκτίμηση, 19, 69 φόντου, 147 κλάσεις, 40 κλειδιά, 4 κλίμακα αλλαγή, 92 κανονικοποίηση, 119 προσώπου, 158 κλίση, 92, 113, 117 κανονικοποίηση, 119 κόλουρος πυραμίδα εικόνων, 16 κομβικά σημεία, 96, 114, 115 ανακατανομή, 120 Ευκλείδεια απόσταση, 124, 125 κοντινά πλάνα, 147 προσώπου, 147, 158 κόστους, συνάρτηση, 26, 83 κριτήριο αναζήτησης, 157 μέγιστης πιθανοφάνειας, 133 κρυφά επίπεδα, 116 κυβικά B-Splines, 95 κυκλική ολίσθηση, 103, 113 κανονικοποίηση, 104, 105 μετασχηματισμός, 105 πρότυπη, 104 κυκλική συμμετρία, 105 κύρια κινούμενα αντικείμενα, 94 κύριοι άξονες, 90, 136 κυρτό περίβλημα, 5, 91 κυρτότητας, μέτρο, 90 κωδικοποίηση ακεραίων αριθμών, 72 αλυσίδας, 90 βίντεο, 2 δεύτερης γενιάς, 5, 90 δυαδική, 72 σχέδιο, 72 177 178 Λ λανθασμένη ανάκληση, 127 ανίχνευση, 130, 143, 151 ταξινόμηση, 117 λέξεις-κλειδιά, 4 λεπτομέρειες προσώπου, 133 λογαριθμική αναζήτηση, 7, 10, 69 Μ μάσκες, 90, 135, 141 αληθείς, 141, 144 μέγιστη πιθανοφάνεια, 133 προσώπου, 149 μέθοδος ρουλέτας, 73 συσχέτισης, 7, 67, 76 χρονικής μεταβολής, 7, 61, 73 μείζων άξονας, 136 μείωσης, ρυθμός, 73 μέσες χρωματικές συνιστώσες, 157 μετάβαση πλάνου, 148 μεταβολές φωτεινότητας, 133 μετάλλαξη, 75 μετασχηματισμός affine, 7, 90, 101, 102, 114, 117, 119, 124 Fourier, 7, 95, 103 φάση, 113 Hotelling, 136 Karhunen-Loeve, 136 Radon, 8 ημιτονοειδής, 90 κατοπτρισμού, 109 κυκλικής ολίσθησης, 105 μετατόπισης, 24 ορθογώνιος, 99, 102, 107 παραμέτρου, 94 περιστροφής, 24, 109 προοπτικής προβολής, 24, 90 σκελετού, 90 συμπαγούς / επιμήκυνσης, 137 συντεταγμένων, 94 μετατόπιση, 92, 113, 117 διάνυσμα, 26 κανονικοποίηση, 119 μετρήσεις ακρίβειας, 141 μέτρο απόστασης βάρη, 134 περιγραμμάτων, 115, 124 συνδέσμων, 134 δεύτερης παραγώγου, 60 καμπυλότητας, 60 κυρτότητας, 90 ομοιότητας, 158 διανυσμάτων περιγραφής, 80 καμπυλών, 93, 115 συσχέτισης, 68 μη ομοιόμορφη δειγματοληψία, 117, 119 μη ομοιόμορφη μετάλλαξη, 75 μήκος παραθύρου, 151 περιγράμματος, 90 τόξου, 92, 94, 115, 120 χορδής, 97 μηχανισμός ταξινόμησης, 114 μιγαδικό διάνυσμα, 103, 106 μνήμη, 84, 132, 157 μοναδικότητα, 93, 102, 106 μονοδιάστατη ταξινόμηση, 41 μονοπάτι, 69 μοντέλο Markov, 5, 130 YCrCb, 131 ανάδρασης, 131 Γκαουσιανό, 130 ενεργών περιγραμμάτων, 5, 92, 127 κανονικής κατανομής, 132 κίνησης, παραμετρικό, 117 μοντελοποίηση B-Splines, 120 περιγραμμάτων, 117 χρώματος δέρματος, 130, 133 μορφολογική επεξεργασία, 135 μορφολογικό closing, 141 μωσαϊκό εικόνων, 4 Ν νευρώνες, 116 νευρωνικό δίκτυο, 8, 9, 91, 112, 115, 124 αρχιτεκτονική, 116 εκπαίδευση, 116, 125 Ευρετήριο Ο ολικά χαρακτηριστικά, 45, 90, 102, 136 ολίσθηση, κυκλική, 103 ομαδοποίηση, 152 περιγραμμάτων, 115 πλάνων, 52, 148, 155 χρωμάτων, ιεραρχική, 5 ομαλότητα, 95 ομογενείς συντεταγμένες, 24 ομοιογένεια χρώματος, 93 ομοιόμορφη ανταλλαγή γονιδίων, 74 δειγματοληψία, 120 επιλογή καρέ, 4 μετάλλαξη, 75 ομοιότητα καμπυλών, 115 κλίμακας, 158 περιγραμμάτων, 122, 125, 127 χρώματος, 158 οπτική ροή, 19 οπτικοακουστική πληροφορία, 146 οργάνωση δελτίων ειδήσεων, 145 περιγραμμάτων, 115 ορθογώνιος μετασχηματισμός, 99, 102, 107 ορθοκανονικοποιημένη καμπύλη, 109 ορθοκανονικοποίηση, 95, 99, 119 βήματα, 100, 108 πίνακας, 101, 109 Ευρετήριο συνθήκες, 101, 108 όρισμα, πρωτεύον, 103 Π παράθυρο, τεραγωνικό, 62 παράλληλη αναζήτηση, 72 παραμετρική απόσταση, 80 παραμετρικό μοντέλο κίνησης, 117 παράμετροι κατανομής, 131 επανεκτίμηση, 131 παραμορφούμενα πρότυπα, 5, 92, 127, 136 παραμόρφωση, 53 σχήματος, 122 παρουσιαστές, 146, 147, 152 πεδίο απόκλισης, 6, 25 βάθους, 6, 25 περιβάλλον αλληλεπίδρασης, 133 περίβλημα, κυρτό, 5 περιγράμματα, 5, 46, 81, 89 αναλλοίωτα σε affine μετασχηματισμούς, 114 αναπαράσταση, 113, 114 ανίχνευση, 114 απλοποίηση, 123 απόσταση, 115 ενεργά, 5, 92 εξαγωγή, 117 επιφάνεια, 136 ευθυγράμμιση, 114, 121 θόρυβος, 122 κανονικοποίηση, 114, 115 ομαδοποίηση, 115 περίμετρος, 136 πρότυπα, 116, 117, 125 σύγκριση, 114, 115, 117 σχεδίαση, 114 ταξινόμηση, 124 περιγραφείς, 3 Fourier, 5, 90 κανονικοποιημένοι, 91, 112 τροποποιημένοι, 5, 91, 115 Legendre, 90 περιγραφή αναλλοίωτη, 7 διάνυσμα, 7, 40, 45 καμπυλών, 113 υλικού πολυμέσων, 2 περίληψη, 4, 129 περίμετρος περιγράμματος, 136 περιοχές, 14 απόσταση, 14 γειτονικές, 70 δέρματος, 132 συνοριακές, 19 περιστροφή, 92, 113, 117 κανονικοποίηση, 106, 119 μετασχηματισμός, 109 πίνακας, 106, 107 πρότυπη, 106 πιθανότητα μετάλλαξης, 75 πιθανοφάνεια προσώπου, 137 μέγιστη, 149 χρώματος δέρματος, 132, 133, 137 πίνακας affine μετασχηματισμού, 114 αντιστρέψιμος, 109 κατοπτρισμού, 106, 107 ορθογώνιος, 101, 102, 107 ορθοκανονικοποίησης, 101, 109 περιστροφής, 106, 107 προοπτικής προβολής, 24 συμμεταβλητότητας, 132, 136 πλάνα αλλαγή, 50 αντιπροσωπευτικά, 156 διάνυσμα περιγραφής, 52 κοντινά, 147 ομαδοποίηση, 52 παρουσιαστή, 148 ταξινόμηση, 148 χαρακτηρισμός, 52 χαρακτηριστικά, 7, 53 πληθυσμός, 72 αρχικός, 73 πληρότητα, 93, 102, 106 πληροφορία απώλεια, 113 γλωσσική, 5, 146, 147 κειμένου, 5, 146, 148 οπτικοακουστική, 5, 146 σημασιολογική, 129 σχήματος, 5 πλοήγηση, 1, 5, 7, 156 ειδήσεων, 145 πολλαπλά σημεία ανταλλαγής γονιδίων, 74 πολλαπλή ανάδραση, 83, 84, 87 πολλαπλή προσπέλαση διαίρεσης κώδικα, 9 πολυγώνων, προσέγγιση, 90 πολυδιακριτική υλοποίηση, 16 πολυδιάστατη ταξινόμηση, 42 πολυμέσα, 1 πολυπλοκότητα M-RSST, 17 RSST, 16 ανίχνευσης προσώπων, 131 ασαφούς ιστογράμματος, 45 εκτίμησης απόκλισης, 58 εξαντλητικής αναζήτησης, 69 μεθόδου συσχέτισης, 7 ταιριάσματος με πρότυπο, 139 περιγραμμάτων, 114, 115 υφής, 45 πολυώνυμα, έμμεσα, 5 ποσοστό ανίχνευσης, 132 επικάλυψης, 42 πραγματικό διάνυσμα εξόδου, 116 προβολής, συνάρτηση, 34 προεπεξεργασία περιγραμμάτων, 122 προεπισκόπηση, 1, 7, 50, 66, 154 προοπτική προβολή, 24 προσαρμογή 179 180 καμπύλης B-Spline, 97 κατανομής, 131 προσέγγιση πολυγώνων, 90 προσήμου, συνάρτηση, 106 πρόσωπα αναγνώριση, 129 ανίχνευση, 129 επικρατέστερα, 147, 149 κοντινά, 147 υφή, 131 χαρακτηριστικά στοιχεία, 130 πρότυπα παραμορφούμενα, 92 περιγράμματα, 116, 117, 125 προσώπου, 131 πρότυπη θέση, 91 κυκλική ολίσθηση, 104 περιστροφή, 106 πρότυπος κατοπτρισμός, 106 πρωτεύον όρισμα, 103 πρωτεύων άξονας, 136 πυρήνας, 114 Ρ ρεπορτάζ, 146, 147, 152 ροπές, 5, 7, 46, 90, 112, 114, 157 Zernike, 90 καμπυλών, 90, 100 με βάρη, 114 πυρήνας, 114 ρουλέτας, μέθοδος, 73 ρυθμός απώλειας, 152 λανθασμένης ανίχνευσης, 152 μείωσης, 73 Σ σενάρια αναζήτησης, 157 σημασιολογική κατάτμηση, 13, 148 πληροφορία, 129 σημασιολογικό περιεχόμενο, 13, 32 σημασιολογικός χαρακτηρισμός, 131 σηματοθορυβικός λόγος, 123 σημεία δεδομένα, 97 ελέγχου, 96 ενδιαφέροντος, 90 κομβικά, 96, 114, 115 ανακατανομή, 98 σύνδεσης, 95 σημείο αναφοράς, 92, 98, 103, 113, 117 αβεβαιότητα, 105, 107 κανονικοποίηση, 103, 119 σφάλμα, 110 σκελετός, 90 σκηνές εξωτερικών πλάνων, 146, 147 παρουσιαστή, 146, 147 ρεπορτάζ, 146, 147 στατικών εικόνων, 146, 147 Ευρετήριο σκίτσο, 80, 81, 90, 114, 127 στάδιο επαλήθευσης, 131, 132, 133 στατικές εικόνες, 146, 147, 152 στερεοσκοπικές ακολουθίες, 3, 6, 22 στερεοσκοπική ανάλυση, 3, 9, 22, 23 στοιχειώδεις ενότητες ειδήσεων, 148, 154 στρατηγική αντικατάστασης, 75 στροφής, συνάρτηση, 91 σύγκριση περιγραμμάτων, 114, 115, 117 συγχώνευση, 6, 14, 15, 16, 33 τμημάτων δέρματος, 134 τμημάτων προσώπου, 130, 133 συμμεταβλητότητα, 68, 132, 136 συμμετοχή βαθμός, 41, 43 συνάρτηση, 41 συμμετρία κατοπτρισμού, 105 κυκλική, 105 τοπική, 130 συμπαγές, 90, 136 συμπίεση βίντεο, 2 συνάρτηση Dirac, 113 ανάμειξης, 96 αντικειμενική, 73 βάρους εξομάλυνσης, 27 βάσης, 96 δεικτών, 45 ενεργοποίησης, 116 εξομάλυνσης, 26 ικανότητας, 73 κόστους, 26, 83 προβολής, 34 προσήμου, 106 πυκνότητας πιθανότητας, 131, 132 πυρήνα, 114 στροφής, 91 συμμετοχής, 41, 137, 147 Γκαουσιανή, 64 σιγμοειδής, 64 τριγωνική, 41 σφάλματος, 26 φραγμένη, 95 σύνδεσης, σημεία, 95 σύνδεσμοι, 14 βάρος, 14 ταξινόμηση, 15, 16 συνδυασμός Γκαουσιανών μοντέλων, 130, 131 συνέντευξη, 147 συνέχεια, 95 συνθετική ακολουθία, 46, 62 συνθήκες κανονικοποίησης κατοπτρισμού, 107, 111 περιστροφής, 107, 111 σημείου αναφοράς, 105 ορθοκανονικοποίησης, 101, 108 φωτισμού, 132, 138, 142, 151 μεταβαλλόμενες, 132 συντακτική ανάλυση, 3, 8, 10, 82, 129, 145, 146 σύστημα αναφοράς, 24 Ευρετήριο συστήματα αναζήτησης, 126 πρωτότυπα, 2 ασαφή, 44 συσχέτιση, 7 μέθοδος, 67, 76 μέτρο, 68 συντελεστής, 68 σφάλμα διάνυσμα, 81 εκτίμησης κίνησης, 51, 148 σημείου αναφοράς, 110 συνάρτηση, 26 τετραγωνικό, 97, 116 σχεδιάγραμμα, 81 σχεδίαση περιγραμμάτων, 114 σχετικότητα, 82 σχήμα, 2, 5, 81, 89 επεξεργασία, 130 περιγράμματος, 89 περιγραφής, 3 προσώπου, 135 σωστά ευθυγραμμισμένα γεγονότα, 152 Τ ταίριασμα αναλλοίωτο σε affine μετασχηματισμούς, 112, 114 καμπυλών, 5, 91, 102 με πρότυπο, 8, 93, 130 προσώπου, 131, 133, 139 με χρήση ροπών, 112, 114 περιγραμμάτων, 114, 117, 119, 123 ταξινόμηση αληθής, 152, 161 ασαφής, 41 εκφράσεων, 9 κανονικοποίηση, 73 καρέ, 147 λανθασμένη, 117 με βάση το σχήμα, 115 με νευρωνικό δίκτυο, 116, 124 μονοδιάστατη, 41 περιγραμμάτων, 112, 113, 117, 123, 124 περιοχών δέρματος, 132 πλάνων, 8, 146, 148, 154 πολυδιακριτική, 9 πολυδιάστατη, 42 συνδέσμων, 15, 16 σχημάτων, 8 τάση επιλογής, 73 τερματισμός κατάτμησης, 133 τετραγωνικό παράθυρο, 62 σφάλμα, 116 τεχνητή νοημοσύνη, 6, 146 τηλεοπτικά δελτία ειδήσεων, 3, 8, 145 τμήματα, 14 B-Splines, 95 βάθους, 33, 43 δέρματος, 134 κίνησης, 33, 43 181 προσώπου, 133 χρώματος, 33, 43 τόξο, 94, 120 τοπικά ελάχιστα, 71 τοπικά χαρακτηριστικά, 90 τοπική συμμετρία, 130 τριγωνική συνάρτηση συμμετοχής, 41 τρισδιάστατες ακολουθίες, 3, 22 τροποποιημένοι περιγραφείς Fourier, 5, 91, 115, 124 τροχιά διανύσματος περιγραφής, 10, 61 τυχαία αναζήτηση, 76, 78 Υ υπερήχων, εικόνες, 9 υπερ-χρωμοσώματα, 73 υποδειγματοληψία, 59 υποθέσεων, εκτίμηση, 152 υπότιτλοι, 146 υφή, 2, 18, 157 πολυπλοκότητα, 45 Φ φάση, 103 απαλοιφή, 113 διάνυσμα, 103, 110 επαλήθευσης, 139 μετασχηματισμού Fourier, 113 φίλτρο median, 20, 150 φόντο, 147 φορά διαγραφής, 92 κανονικοποίηση, 108 φυσική επιλογή, 72 φωτεινότητα, 130 μεταβολές, 133 φωτισμός, 132, 138 Χ χαρακτηρισμός, 1, 5, 14, 85, 145 με λέξεις-κλειδιά, 4 πλάνων, 52 σημασιολογικός, 131 χαρακτηριστικά διάνυσμα, 40 εξαγωγή, 93 καρέ, 7, 47, 60, 68, 76 ολικά, 45, 90, 102 πλάνα, 7, 53 σχήματος, 131, 157 τοπικά, 90 υφής, 157 χρώματος, 157 χορδή, 97 χρονική μεταβολή, 7 μέθοδος, 61, 73 χρώμα, 2 δέρματος ανίχνευση, 131 ιστόγραμμα, 130, 132 κατανομή, 131 μοντελοποίηση, 130 ιστόγραμμα, 148 182 χρωματικές συνιστώσες, 15, 157 Cr-Cb, 130, 131, 132 διάνυσμα, 132, 133 χρωματισμένη πηγή φωτισμού, 142 χρωμοσώματα, 72 γονικά, 72 χωρητικότητα αποθήκευσης, 1 χώρος Ευκλείδειος, 136 κλίμακας κυρτότητας, 90 χρωμάτων HSV, 130 RGB, 15, 130 YCrCb, 130 δέρματος, 130 Ψ ψευδοαντίστροφος πίνακας, 25 ψευδοτυχαίες ακολουθίες, 9 Ευρετήριο Ξενόγλωσσοι όροι A activation function, 116 active contours, 92, 127, 136 affine invariant, 7, 91 transformation, 90, 101 aligned events, 152 anchorperson shots, 146 anchors, 147 annotation, 1, 145 keyword, 4 approximation, polygonal, 90 arc length, 94 argument, primary, 103 arithmetical crossover, 75 audiovisual cues, 146 B background, 147 baseline distance, 23 basis function, 96 bin, 40 binary encoding scheme, 72 binocular camera system, 23 blending function, 96 block, 19, 46 error function, 26 matching, 25 motion estimation, 69 error, 51 Boston University IVC database, 144 boundedness, 95 bounding rectangle, 139 browsing, 1 B-Splines, 7, 90, 95, 117, 120 cubic, 95 segments, 95 C CDMA, 9 chain coding, 90 channel, left/right, 26 chord length, 97 chromosome, 72 circular shift, 103 CL, 97 classification fuzzy, 41 shot, 148 closed-caption tokens, 146 close-ups, 147 closing, 141 cluster center, 53 clustering, 52, 148, 152 code division multiple access, 9 color clustering, 14 histogram, 148 compactness, 90, 136 Compaq research database, 141 completeness, 93 connection points, 95 content-based retrieval, 1, 79, 156 sampling, 7 continuity, 95 contour, 89 active, 92 contrast, 138 control points, 96 convex hull, 91 coordinate transformation, 94 correctly aligned events, 152 cost function, 26, 83 COST211ter, 14 CRL, 141, 143 crossover, 74 cubic B-Splines, 95 cues audiovisual, 146 linguistic, 146 textual, 146 curvature measure, 90 scale spaces, 90 curve moments, 90 D data points, 97 decomposition, 93 deformable templates, 92, 127, 136 degree of membership, 41 depth field, 25 description definition language, 3 Ευρετήριο multimedia content, 2 schemes, 3 descriptors, 3 Fourier, 90 modified, 91 normalized, 91, 112 Legendre, 90 detection face, 129 main mobile objects, 94 shot change, 148 Dirac function, 113 dismissal, 130, 139, 143, 156, 161 rate, 152 disparity field, 25 vector, 25 displacement vector, 26 dissolve, 50, 148 distance feature vectors, 80 parametric, 80 weighted, 80 DISTIMA, 55 distortion, 53 distribution, normal / Gaussian, 132 dominant face, 147 maximum likelihood, 150 dynamic programming, 146 E eigenvalues, 136 eigenvectors, 136 elementary story units, 148, 154 elitist strategy, 75 elongation, 90, 136 encoding scheme, 72 EP, 71 error minimum mean square, 97 vector, 81 event, 152 evolution program, 71 F face detection, 129 dominant, 147 likelihood, 137 maximum, 149 recognition, 129 fading, 50 false alarm, 130, 132, 143, 151 rate, 152 feature extraction, 93 vector, 40 feedback, 82 feedforward neural network, 116 FFT, 157 finite state machines, 146 fitness, 72 function, 73 fitting, B-Spline curve, 97 focal length, 23 point, 24 Fourier descriptors, 90 modified, 115 normalized, 112 frame, 1 feature vector, 40 selection, 60 optimal, 67 function activation, 116 basis, 96 blending, 96 cost, 83 Dirac, 113 signum, 106 turning, 91 fusion, 33 fuzzy classification, 41 G gain, 116 Gaussian distribution, 132 mixture model, 130, 131 gene, 72 genetic algorithm, 72 global features, 45, 90, 136 ground truth, 141, 143, 152, 161 guided random search, 71 H H.261/3, 2 hidden layer, 116 hidden Markov models, 146 histogram bin, 40 color, 148 homogeneous coordinates, 24 Hotelling transform, 136 HSV, 130 hypothesis testing, 152 I ICL, 98 image mosaic, 4 non-skin, 141 plane, 24 skin, 141 indexing, 1, 145, 156 influence zone, 52 information retrieval, 152 initial population, 73 integer encoding scheme, 72 interaction, 82 interest points, 90 inverse chord length, 98 IVC, 144 183 184 K Karhunen-Loeve transform, 136 kernel, 114 key frames, 7, 60 selection, 60 optimal, 67 keyword annotation, 4 K-means, 53, 148 knot points, 96 reallocation, 98 L layer, hidden, 116 Legendre descriptors, 90 Levenberg-Marquardt, 116 likelihood face, 137 maximum, 149 skin-color, 132, 133 linguistic cues, 5, 146 links, 14 weight, 14 Lloyd-Max, 9, 52, 53 local controllability, 95 local features, 90 M main mobile objects, 94 major axis, 136 manipulation, 2, 90 Markov models, 130 hidden, 146 MARS, 2 matrix perspective projection, 24 reflection, 106 rotation, 106 maximum face likelihood, 149 MDL, 54 measure curvature, 90 similarity, 93 medial axis transform, 90 median filter, 20, 150 membership function, 41 memory factor, 84 merging, 15 skin-color, 134 MFD, 91, 115, 124 minimum description length, 54 minimum mean square error, 97 minor axis, 136 MIRAGE, 55 mixture of Gaussians, 130, 131 MMSE, 97 model active contour, 127 Gaussian mixture, 130 Markov, 130 modified Fourier descriptors, 91, 115 moments, 90, 112 invariants, 91 Zernike, 90 mosaic, 4 motion estimation, 19 MPEG, 19, 20, 46, 51, 64, 69 MPEG 1/2, 2 MPEG-4, 2, 32 MPEG-7, 2, 3, 32 M-RSST, 6, 9, 16, 117, 133 multimedia content description, 2 multi-ocular camera system, 23 multiple relevance feedback, 83 multipoint crossover, 74 multiresolution decomposition, 16 implementation, 16 RSST, 16 mutation, 75 N Netra, 2 neural network, 115 neurons, 116 news on demand, 5, 146 topics, 148, 156 NFD, 112, 113, 124 NN, 115 NoD, 5, 146 non-skin images, 141 nonuniform mutation, 75 normal distribution, 132 normalization, 91 scaling, 99 skew, 99 translation, 99 normalized Fourier descriptors, 91, 112 NST, 142 O objective function, 73 occlusion, 28, 94 detection, 28, 29 offspring, 72, 74 optical flow, 19 orientation, 92 orthogonal transformation, 99 orthogonalization, 95, 99 outdoor shots, 146, 147 oversegmentation, 18 P parameter transformation, 94 vector, 81 parametric distance, 80 parents, 72 selection, 73 parsing, 3, 82, 145 pattern matching, 93 PCA, 5 perspective projection, 24 Ευρετήριο Ευρετήριο matrix, 24 transformation, 90 phase, 103 vector, 103 Photobook, 2 points connection, 95 controll, 96 data, 97 interest, 90 knot, 96 polygonal approximation, 90 population, 72 precision, 141, 152, 161 preview, 1 primary argument, 103 principal axes, 90, 136 component analysis, 5 projection function, 34 pseudorandom sequences, 9 pyramidal region growing, 14 Q QBIC, 2 query, 79 by example, 79, 114, 126, 156, 159 by sketch, 79, 90, 114, 127 textual, 82 R Radon transform, 8 rank-based normalization, 73 reallocation, 98 recall, 141, 152, 161 re-estimation, 132 reflection, 92 matrix, 106 reflectional symmetry, 105 regions, 14 distance, 14 registration, 91 relevance feedback, 80, 82 multiple, 83 single, 83 replacement strategy, 72, 75 reports, 146, 147 representative shots, 7 retrieval, 1 content-based, 156 RGB, 15, 130 ROC curve, 132 rotation, 92 matrix, 106 rotational symmetry, 105 roulette wheel selection, 73 RSST, 6, 9, 14 S sampling, content-based, 7 SAT, 141 scaling, 92 search, 1, 79 area, 26 segmentation, 13 segmented crossover, 75 segments, 14 B-Splines, 95 selective pressure, 73 semantic meaning, 13 segmentation, 13, 148 shape, 89 shift, circular, 103 shot anchorperson, 146, 147 change detection, 148 classification, 148 clustering, 148 cut detection, 50 dissolve, 50 fading, 50 outdoor, 146, 147 report, 146, 147 representative, 7 static image, 146, 147 transition, 148 unit, 154 shuffle crossover, 75 signum function, 106 similarity measure, 93 feature vector, 80 single point crossover, 74 single relevance feedback, 83 sinusoidal transform, 90 skeleton transform, 90 sketch, 114, 127 skew, 92, 113 skin images, 141 skin-color likelihood, 133 merging, 134 smoothing weight function, 27 smoothness, 95 function, 26 snake, 92 splines, 90, 120, 136 splitting, 16 starting point, 92 static images, 146, 147 story units, 4, 148 summarization, 1, 4 super chromosomes, 73 symmetry reflectional, 105 rotational, 105 T TAO, 141 TAP, 141 teletext transcripts, 146 template deformable, 92 matching, 131, 139 185 186 textual cues, 5, 146 query, 82 texture, 19 threshold, segmentation, 16 thresholding, 141 transform Fourier, 103 Hotelling, 136 Karhunen-Loeve, 136 medial axis, 90 Radon, 8 sinusoidal, 90 skeleton, 90 transformation affine, 90, 101 coordinate, 94 orthogonal, 99 parameter, 94 perspective, 90 transition, 148 translation, 92 truncated image pyramid, 16 turning function, 91 U uniform crossover, 74 uniform mutation, 75 uniqueness, 93 V vector error, 81 parameter, 81 phase, 103 weight, 81 video object planes, 2, 90 VideoQ, 2 Virage, 2 VisualSeek, 2 VOP, 2, 90 W watershed, 14 wavelets, 5 weight vector, 81 weighted distance, 80 geometric mean, 137 wipe, 148 world coordinate system, 24 Y YCrCb, 130 Z Zernike moments, 90 zoom, 148 Ευρετήριο