ΔΙΔΑΚΤΟΡΙΚΗ ΔΙΑΤΡΙΒΗ Νικόλας Α. Τσαπατσούλης Διπλ. Ηλεκτρολόγος Μηχανικός ΕΜΠ ΠΡΟΗΓΜΕΝΕΣ ΤΕΧΝΙΚΕΣ ΑΝΑΓΝΩΡΙΣΗΣ ΠΡΟΣΩΠΩΝ ΚΑΙ ΑΝΑΛΥΣΗΣ ΕΚΦΡΑΣΕΩΝ Επιβλέπων Καθηγητής: Τριμελής Συμβουλευτική Επιτροπή: Στέφανος Κόλλιας Στέφανος Κόλλιας Ανδρέας Σταφυλοπάτης Παναγιώτης Τσανάκας Επταμελής Εξεταστική Επιτροπή Στέφανος Κόλλιας Καθηγητής ΕΜΠ Ανδρέας Σταφυλοπάτης Καθηγητής ΕΜΠ Παναγιώτης Τσανάκας Καθηγητής ΕΜΠ Γεώργιος Παπακωνσταντίνου Καθηγητής ΕΜΠ Γεώργιος Καραγιάννης Καθηγητής ΕΜΠ Πέτρος Μαραγκός Καθηγητής ΕΜΠ Χρήστος Σχίζας Καθηγητής Παν. Κύπρου Περίληψη ΠΡΟΗΓΜΕΝΕΣ ΤΕΧΝΙΚΕΣ ΑΝΑΓΝΩΡΙΣΗΣ ΠΡΟΣΩΠΩΝ ΚΑΙ ΑΝΑΛΥΣΗΣ ΕΚΦΡΑΣΕΩΝ του Νικόλα Τσαπατσούλη Η παρούσα διδακτορική διατριβή έχει κεντρικό θέμα την επικοινωνία ανθρώπου μηχανής όπως αυτή εκφράζεται μέσα από δύο ιδιαίτερα σημαντικές διεργασίες που εκτελούνται από τα ανθρώπινα όντα: την αναγνώριση προσώπων και την ανάλυση ανθρωπίνων εκφράσεων. Στόχος της είναι η συνεισφορά προς την κατεύθυνση της ανάπτυξης ενός πλήρως αυτοματοποιημένου υπολογιστικού συστήματος το οποίο να είναι ικανό να προσομοιώνει σε κάποιο αποδεκτό επίπεδο τις παραπάνω ικανότητες των ανθρώπων. Η διατριβή απαρτίζεται από τέσσερα μέρη. Στο πρώτο μέρος γίνεται μια εισαγωγή στην επικοινωνία ανθρώπου μηχανής και στη συνέχεια πραγματοποιείται μια ανασκόπηση των υφιστάμενων τεχνικών για την αναγνώριση προσώπων και την ανάλυση εκφράσεων όπως αυτές εκφράζονται μέσω τεσσάρων υποπροβλημάτων: της ανίχνευσης και εντοπισμού προσώπων, του εντοπισμού των σημαντικών χαρακτηριστικών του προσώπου, της ταυτοποίησης προσώπων και της αναγνώρισης εκφράσεων με χρήση οπτικών στοιχείων. Το δεύτερο μέρος αναφέρεται στον αυτόματο εντοπισμό προσώπων και χαρακτηριστικών τους σε φωτογραφίες ή ακολουθίες βίντεο και σε εφαρμογές πέρα από την αναγνώριση προσώπων στις οποίες η διαδικασία εντοπισμού είναι χρήσιμη. Γίνεται εκτεταμένη αναφορά στις τεχνικές που αναπτύχθηκαν προς την κατεύθυνση αυτή κατά τη διάρκεια της διδακτορικής διατριβής. Στο τρίτο μέρος της διατριβής παρουσιάζονται οι προτεινόμενες τεχνικές για ταυτοποίηση προσώπων και πώς αυτές συνδέονται με προηγούμενες εργασίες καθώς και με τη διαδικασία εντοπισμού προσώπων του δευτέρου μέρους. Η ανάλυση εκφράσεων μέσω της οπτικής πληροφορίας εξετάζεται στο τέταρτο μέρος της διατριβής. Η διατριβή τερματίζεται με έκθεση συμπερασμάτων και προτάσεις για κάποια ζητήματα τα οποία θα μπορούσαν να αποτελέσουν τη βάση για μελλοντική έρευνα. ΕΥΧΑΡΙΣΤΙΕΣ-ΑΦΙΕΡΩΣΗ Η σελίδα στην οποία κάποιος εκφράζει την εκτίμηση του, όσον αφορά τη βοήθεια και τις συμβουλές των οποίων έτυχε, σε τρίτα πρόσωπα είναι από τις δυσκολότερες στη συγγραφή. Εκτός του ότι κινδυνεύεις να ξεχάσεις κάποιους ανθρώπους, ξεκινάς πάντοτε με τη δυσκολία της απόδοσης στα Ελληνικά της λέξης Acknowledgments. Σε αυτό το κομμάτι της διατριβής θα ήθελα να εκφράσω την εκτίμηση μου για πολλούς ανθρώπους. Θα αρχίσω όμως από κάποιο ίδρυμα: Το Ίδρυμα Κρατικών Υποτροφιών -ΙΚΥ, η υποτροφία του οποίου μου έδωσε την ευκαιρία να ξεκινήσω την τρέχουσα διατριβή. Όσον αφορά τους ανθρώπους, θα πρέπει να εκφράσω τις ευχαριστίες μου στον επιβλέποντα της διατριβής, Καθηγητή κ. Κόλλια, η βοήθεια του οποίου ήταν πολύπλευρη. Ξεχωρίζω τις συμβουλές του όσον αφορά το επιστημονικό πεδίο αλλά και την εποικοδομητική (constructive) στάση απέναντι στη ζωή. Θέλω επίσης να ευχαριστήσω την σύζυγο μου Γεωργία για την ανοχή και αντοχή που επέδειξε όλα αυτά τα χρόνια. Τέλος πρέπει να ευχαριστήσω και να συγχαρώ όλους τους συναδέλφους, παλαιότερους και νεότερους, του Εργαστηρίου Ψηφιακής Επεξεργασίας Εικόνας Βίντεο και Πολυμέσων τόσο για τη βοήθεια τους όσο και για τη δημιουργία ενός ιδιαίτερα ευχάριστου εργασιακού και ερευνητικού χώρου. Με τους περισσότερους από αυτούς συνεργαστήκαμε και στον επιστημονικό τομέα και η σχέση μας είναι τουλάχιστον φιλική. Η παρούσα διατριβή αφιερώνεται στη μνήμη του πατέρα μου Ανδρέα και του γαμπρού μου Δημήτρη, ο οποίος ήταν περισσότερο από αδελφός για μένα. ΚΑΤΑΛΟΓΟΣ ΕΙΚΟΝΩΝ ΚΑΙ ΣΧΗΜΑΤΩΝ Σχήμα Α1.1: Μπλοκ διάγραμμα της επικοινωνίας ανθρώπου μηχανής μέσω της οπτικής πληροφορίας Εικόνα A2.1: Παραδείγματα mug shot φωτογραφιών και φωτογραφιών από δημόσια έγγραφα Εικόνα A2.2: Φωτογραφίες προσώπων σε ανομοιόμορφο φόντο Εικόνα A3.1: Ανθρώπινο πρόσωπο σε διάφορες χωρικές αναλύσεις Σχήμα A4.1: Σύστημα συντεταγμένων με βάση τη φωτογραφία Σχήμα A4.2: Ολοκληρωματικές προβολές Σχήμα A4.3: Αναπαράσταση προσώπου ως άθροισμα ιδιοδιανυσμάτων Εικόνα A4.1: Σημεία σε εικόνες προφίλ και εμπρόσθιας όψης Σχήμα Α5.1: Ο μετασχηματισμός Radon Εικόνα Α5.1: Χρονική εξέλιξη της έκφρασης «οργή» Εικόνα Α5.2: Χρονική εξέλιξη της έκφρασης «χαρά» Εικόνα Α5.3: Χρονική εξέλιξη της έκφρασης «έκπληξη» Εικόνα Α5.4: Προβολή αποτελεσμάτων ταξινόμησης στο χώρο ενεργοποίησης - επαλήθευσης Εικόνα B1.1: Υπολογισμός της εικόνας διαφορών Εικόνα B1.2: Κατάτμηση προσώπου με ανίχνευση των pixels που ικανοποιούν την εξίσωση της έλλειψης Εικόνα B1.3: Κατάτμηση προσώπου από ανομοιογενές φόντο και υπό περιστροφή Εικόνα B1.4: Εφαρμογή της ανίχνευσης ματιών Εικόνα Β1.5: Εντοπισμός της οριζόντιας θέσης της μύτης και του στόματος Εικόνα Β1.6: Εντοπισμός χαρακτηριστικών σημείων στο προφίλ Εικόνα Β1.7: Χαρακτηριστικά σημεία στη εμπρόσθια όψη και στο προφίλ Σχήμα Β2.1: Αποτελέσματα εντοπισμού τμημάτων δέρματος για τέσσερις διαφορετικές κατηγορίες εικόνων Εικόνα Β2.1: Εντοπισμός και απομόνωση των πιθανών τμημάτων δέρματος Εικόνα Β2.2: Παραδείγματα ανίχνευσης προσώπου σε μονόχρωμες εικόνες Εικόνα Β2.3: Παραδείγματα εντοπισμού προσώπου σε μονόχρωμες ακολουθίες βίντεο Εικόνα Β2.4: Παραδείγματα εντοπισμού προσώπου σε έγχρωμες φωτογραφίες Εικόνα Β2.5: Εντοπισμός πολλαπλών προσώπων Σχήμα Β3.1: Το μπλοκ διάγραμμα της τεχνικής ανάλυσης τηλεοπτικών δελτίων ειδήσεων Σχήμα Β3.2: Συναρτήσεις συμμετοχής για την κυκλικότητα και την επιμήκυνση προσώπου Εικόνα Β3.1: Εντοπισμός και κατάτμηση προσώπου σε πλάνο του studio Εικόνα Β3.2: Ένα τυπικό απόσπασμα από ακολουθία δελτίου ειδήσεων 1 9 9 16 19 22 23 26 44 48 48 49 49 57 59 59 60 62 64 65 70 72 76 77 78 78 82 85 86 87 ii Εικόνα Β3.3: Χρονική ανάλυση μιας ακολουθίας από δελτίο ειδήσεων Σχήμα Β4.1: Μπλοκ διάγραμμα του σχήματος ανάκλησης εικόνων προσώπου με βάση το περιεχόμενο Εικόνα Β4.1: Ανάκληση με βάση την ομοιότητα χρώματος Εικόνα Β4.2: Ανάκληση με βάση την ομοιότητα στην κλίμακα Εικόνα Β4.3: Ανάκληση με βάση τον αριθμό των τμημάτων δέρματος Εικόνα Β4.4: Ανάκληση με βάση τις κεντρικές ροπές φωτεινότητας Σχήμα Γ1.1: Η αρχιτεκτονική ενός γενικού συστήματος αναγνώρισης προσώπων Εικόνα Γ1.1: Η συνολική διασπορά του πληθυσμού σε σχέση με τη διασπορά των επιμέρους κλάσεων Εικόνα Γ2.1: Εντός κλάσης διακυμάνσεις για τις εικόνες προσώπου Σχήμα Γ2.1: Συγκρίσεις όσον αφορά την μετατόπιση ανάμεσα στους KLT και VKLT Σχήμα Γ2.2: Μέσο σφάλμα ανακατασκευής των μετασχηματισμών KL και VKL Σχήμα Γ2.3: Συγκρίσεις όσον αφορά τις μεταβολές φωτισμού ανάμεσα στους KLT και VKLT Σχήμα Γ3.1: Σχήμα για ταυτοποίηση με τη χρήση του μετασχηματισμού DCT Σχήμα Γ3.2: Δημιουργία του διανύσματος αναπαράστασης από τους συντελεστές DCT των μπλοκ της εικόνας Εικόνα Γ4.1: Πρόσωπα υπό διαφορετικές συνθήκες φωτισμού και τα αντίστοιχα διανύσματα ιδιαζουσών τιμών Εικόνα Γ4.2: Η επίδραση του διανύσματος ιδιαζουσών τιμών στην υφή της εικόνας Εικόνα Γ4.3: Προσαρμογή της φωτεινότητας προσώπων της βάσης σύμφωνα με αυτήν της εικόνας εισόδου Σχήμα Γ4.1: Μέση απόσταση ανάμεσα σε πρόσωπα σε σχέση με τα κριτήρια s και s* Σχήμα Γ5.1: Η αρχιτεκτονική του SOM Σχήμα Γ5.2: Η αρχιτεκτονική του αλγόριθμου ταυτοποίησης Σχήμα Γ5.2: Ταυτοποίηση μέσω του δικτύου SOM Εικόνα Δ2.1: Πρότυπα των εκφράσεων "ουδέτερη", "οργή", "χαρά" και "λύπη" Εικόνα Δ2.2: Τα ιδιοδιανύσματα εικόνων που αναπαριστούν εκφράσεις Σχήμα Δ2.1: Εξαγωγή χαρακτηριστικών για περιγραφή εκφράσεων με συνδυασμό δύο νευρωνικών δικτύων Εικόνα Δ2.3: Απεικόνιση των βαρών που αντιστοιχούν στους 20 νευρώνες του εσωτερικού επιπέδου Εικόνα Δ2.4: Απεικόνιση των βαρών που αντιστοιχούν στους 5 νευρώνες του εσωτερικού επιπέδου Εικόνα Δ3.1: Οπτική αναπαράσταση των συναισθημάτων "delighted" και "eager" Σχήμα Δ3.1: Συνεισφορά των επιμέρους χαρακτηριστικών για την ταξινόμηση των πρωτευουσών εκφράσεων Σχήμα Δ3.2: Συνεισφορά των χαρακτηριστικών για την ταξινόμηση παραλλαγών της έκφρασης "χαρά" Σχήμα Δ3.3: Τα 19 FDP σημεία που χρησιμοποιούνται για την περιγραφή των FAPs του Πίνακας Δ3.3 Σχήμα Δ3.4: Η δομή του ασαφούς συστήματος Σχήμα Δ3.5: Συναρτήσεις συμμετοχής τραπεζοειδούς μορφής Σχήμα Δ4.1: Η αρχιτεκτονική του σχήματος ταξινόμησης με τη χρήση ΗΜΜ 88 91 96 96 97 98 104 107 115 115 116 116 118 118 123 124 125 130 133 134 135 146 148 150 151 152 155 161 161 162 162 163 170 iii Εικόνα Δ4.1: Κατάτμηση προσώπου σε υποπεριοχές Εικόνα Δ4.2: Ενέργεια στις οκτώ κύριες κατευθύνσεις για κάποιες από τις περιοχές του προσώπου Εικόνα Δ4.3: Διανύσματα κίνησης σχετιζόμενα με την έκφραση "χαρά" Σχήμα Δ4.2: Διάγραμμα του ταξινομητή HMM 172 173 174 175 iv ΟΡΟΛΟΓΙΑ Mug shot φωτογραφίες: Φωτογραφίες που λαμβάνονται από αστυνομικές αρχές και απεικονίζουν το πρόσωπο σε κοντινό πλάνο. Αντίστοιχες με τις φωτογραφίες δημόσιων εγγράφων όπως διαβατήρια, ταυτότητες κλπ. False alarm: Ταξινόμηση κάποιου προτύπου σε διαφορετική κατηγορία από αυτήν που ανήκει Dismissal: Αποτυχία ταξινόμησης κάποιου προτύπου στη κατηγορία που πραγματικά ανήκει FACS - Facial Action Coding System: Σύστημα κωδικοποίησης το οποίο περιγράφει όλες τις οπτικά διαχωρίσιμες κινήσεις του προσώπου Facial Definition Parameter set ­ FDP: Σύνολο παραμέτρων για τον ορισμό 3D συνθετικών μοντέλων προσώπου στο πλαίσιο του MPEG-4 Facial Animation Parameter set ­ FAP: Σύνολο παραμέτρων για την απόδοσης κίνησης προσώπου στο πλαίσιο του MPEG-4 Apex: Η κορύφωση της έκφρασης 3-Δ βίντεο: Σύλληψη με πολλαπλές κάμερες και δυνατότητα παρατήρησης μιας σκηνής από τυχαία θέση Πλάνο ­shot: Το σύνολο των καρέ τα οποία έχουν ληφθεί από την ίδια κάμερα Φορμάτ προσώπου- head format: Οριοθέτηση των προσώπων σε μηδενική στροφή, ως προς και στους τρεις άξονες, ομοιόμορφη κλίμακα και με κάποια βασικά χαρακτηριστικά προσώπου ­συνήθως τα μάτια- είναι ευθυγραμμισμένα. v ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ Α ................................................................................ .................................................Error! Bookmark not defined. ΜΕΡΟΣ Β ................................................................................ .................................................Error! Bookmark not defined. ΜΕΡΟΣ Γ............................................................................... ...................................................Error! Bookmark not defined. ΜΕΡΟΣ Δ............................................................................... ...................................................Error! Bookmark not defined. 1. Εισαγωγη........................................................................ ................................................................................ ..................... 6 2. Εφαρμογές της αναγνωρισησ προσώπων ................................................................................ ........................................ 8 3. Προβληματα στατικης ταυτισης........................................................................ ............................................................... 9 4. Προβλήματα δυναμικης ταυτισης ................................................................................ .................................................. 11 5. Τα βασικά υποπροβλήματα στην αναγνώριση προσώπων........................................................................ ................... 12 Αναπαράσταση Προσώπων........................................................................ ................................................................................ ................................ 12 Ανίχνευση και Εντοπισμός Προσώπων ................................................................................ ................................................................................ ..... 12 Ταυτοποίηση Προσώπων ................................................................................ ................................................................................ ........................... 13 Ταξινόμηση με βάση τα φυσικά χαρακτηριστικά.................................................................. ................................................................................ .... 13 1. Αποτελεσματα απο τον τομεα της ψυχοφυσικης και νευροφυσιολογιας ..................................................................... 14 Η αναγνώριση προσώπου είναι μια τυποποιημένη διαδικασία. ................................................................................ ................................................ 14 Η αντίληψη του προσώπου γίνεται ολιστικά ή με βάση μεμονωμένα χαρακτηριστικά; ................................................................................ .......... 14 Η σημαντικότητα των επιμέρους χαρακτηριστικών. ................................................................................ ................................................................. 14 Πρωτοτυπία ................................................................................ ................................................................................ ................................................ 14 Ο ρόλος των χωρικών συχνοτήτων...................................................................... ................................................................................ ...................... 15 Ανάπτυξη του ανθρώπινου συστήματος αναγνώρισης κατά τη διάρκεια της παιδικής ηλικίας......................................................................... ...... 15 Ο ρόλος του φύλου-φυλής..................................................................... ................................................................................ ..................................... 15 Συμπεράσματα.................................................................... ................................................................................ ........................................................ 15 2. Οι δυνατότητες του οπτικού συστήματος των ανθρώπων ................................................................................ ........... 16 Αναπαράσταση ................................................................................ ................................................................................ ........................................... 16 Εντοπισμός και κατάτμηση προσώπου........................................................................ ................................................................................ .............. 16 Ταυτοποίηση..................................................................... ................................................................................ .......................................................... 17 Ταξινόμηση με βάση τα φυσικά χαρακτηριστικά.................................................................. ................................................................................ .... 18 1. Εισαγωγή........................................................................ ................................................................................ ................... 19 2. Αναπαράσταση ................................................................................ ................................................................................ . 21 2.1 Αναπαράσταση προσώπων - Εξαγωγή χαρακτηριστικών................................................................. ........................................21 (β) Στατιστικά Χαρακτηριστικά.................................................................. ................................................................................ ............................... 23 (γ) Χαρακτηριστικά συντελεστών μετασχηματισμού ................................................................................ ............................................................... 23 (δ) Αλγεβρικά Χαρακτηριστικά ................................................................................ ................................................................................ ................. 23 2.2 Αναπαράσταση προσώπων με χρήση των τιμών της κλίμακας του γκρι............................................................................ ....24 Ο ρόλος της χωρικής ανάλυσης σε διαδικασίες ταύτισης με βάση τις gray scale τιμές ................................................................................ ........... 24 2.3 Γεωμετρικά χαρακτηριστικά από εικόνες εμπρόσθιας όψης και προφίλ.......................................................................... ......27 2.4 Υβριδική αναπαράσταση.................................................................... ................................................................................ ...........27 3. Εντοπισμός - Κατάτμηση προσώπου ................................................................................ ............................................. 28 4. Ταυτοποίηση προσώπων ................................................................................ ................................................................. 32 4.1 Επιλογή των χαρακτηριστικών ................................................................................ ....................................................................35 4.2 Σχήματα ταύτισης ................................................................................ ................................................................................ ..........35 1. Εισαγωγη........................................................................ ................................................................................ ................... 37 2. Προσωπα και συναισθηματικες καταστασεις ................................................................................ ............................... 38 2.1 Ένα πλαίσιο περιγραφής της απεικόνισης των συναισθημάτων στα πρόσωπα......................................................................38 3. Απεικονίσεις που σχετίζονται με την συναισθηματική έκφραση ................................................................................ . 39 4. Νευροφυσιολογία και συναισθήματα ................................................................................ .............................................. 40 vi 5. Τεχνικές αναγνώρισης εκφράσεων ................................................................................ ................................................. 41 Παρακολούθηση της κίνησης του προσώπου........................................................................ ................................................................................ .... 41 5.1 Στατικές προσεγγίσεις ................................................................................ ................................................................................ ...42 5.2 Δυναμικές προσεγγίσεις.................................................................... ................................................................................ .............42 (α) Εκτίμηση της κίνησης των σημείων στην επιφάνεια του προσώπου. ................................................................................ ................................. 42 (β) Η ολική κατανομή των διανυσμάτων κίνησης στην επιφάνεια του προσώπου και οι εκφράσεις ...................................................................... 44 (γ) Πλήρως δυναμικές προσεγγίσεις ................................................................................ ................................................................................ .......... 46 (δ) Η χρονική εξέλιξη του ενεργειακού πεδίου των διανυσμάτων κίνησης και οι εκφράσεις....................................................................... ........... 48 1. Εντοπισμός περιγράμματος προσώπου........................................................................ .................................................. 56 2. Εντοπισμός σημείων σε εικόνες εμπρόσθιας οψης ................................................................................ ....................... 59 2.1 Εντοπισμός επιπλέον σημείων με χρήση των φίλτρων Gabor........................................................................... .......................62 3. Εντοπισμός σημείων σε εικόνες προφιλ ................................................................................ ......................................... 63 4. 3-δ αναπαρασταση ................................................................................ ........................................................................... 65 1. Εισαγωγη........................................................................ ................................................................................ ................... 67 2. Εντοπισμοσ των πιθανοτερων τμηματων δερματοσ........................................................................ ............................. 68 3. Απομονωση των τμηματων δερματοσ ................................................................................ ........................................... 71 4. Φιλτραρισμα με βαση το σχημα........................................................................... ........................................................... 73 5. Εντοπισμοσ προσωπων εντος των τμηματων ................................................................................ ............................... 74 6. Πειραματικα αποτελεσματα.................................................................... ........................................................................ 75 6.1 Εντοπισμός προσώπου σε μονόχρωμες εικόνες......................................................................... ..................................................75 6.2 Εντοπισμός προσώπου σε μονόχρωμες ακολουθίες βίντεο.......................................................................... ..............................76 6.3 Εντοπισμός προσώπου σε έγχρωμες φωτογραφίες..................................................................... ................................................77 6.4 Εντοπισμός προσώπου σε έγχρωμες ακολουθίες βίντεο ................................................................................ ............................78 7. Συμπερασματα.................................................................... ................................................................................ .............. 79 1. Εισαγωγη........................................................................ ................................................................................ ................... 80 2. Αναλυση του προτεινομενου συστηματος ................................................................................ ..................................... 82 2.1 Βαθμός μεταβολής ιστογράμματος................................................................... ............................................................................84 2.2 Μεταβολή μεγέθους και μετατόπιση τμημάτων........................................................................ .................................................84 3. Εντοπισμος και περιγραφη προσωπων στα καρέ............................................................................ .............................. 84 4. Πειραματικα αποτελεσματα.................................................................... ........................................................................ 86 1. Εισαγωγη........................................................................ ................................................................................ ................... 90 2. Ενα σεναριο ανακλησης....................................................................... ............................................................................ 91 3. Χαρακτηριστικα περιγραφης τμηματων προσωπου ................................................................................ ..................... 92 4. Ανακληση με βαση το περιεχομενο..................................................................... ............................................................ 93 4.1 Ανάκληση με βάση τις μέσες χρωματικές συνιστώσες...................................................................... ........................................93 4.2 Ανάκληση με βάση τις κανονικοποιημένες κεντρικές ροπές........................................................................... ..........................94 4.3 Ανάκληση με βάση την κλίμακα......................................................................... ..........................................................................95 4.4 Ανάκληση με βάση τον αριθμό των προσώπων........................................................................ ..................................................95 5. Πειραματικα αποτελεσματα.................................................................... ........................................................................ 95 6. Συμπερασματα.................................................................... ................................................................................ .............. 97 1. Εισαγωγή........................................................................ ................................................................................ ................. 101 vii 2. Εντοπισμος των πυρηνων......................................................................... ..................................................................... 102 3. Ταξινομηση κυτταρων ­ συστημα προγνωσησ....................................................................... ..................................... 104 Χαρακτηριστικά για την ταξινόμηση των πυρήνων ................................................................................ ................................................................ 104 Ταξινόμηση των πυρήνων......................................................................... ................................................................................ ............................... 105 Υπολογισμός του δείκτη διάγνωσης ................................................................................ ................................................................................ ........ 105 4. Διαδικασια επαληθευσησ ­ συμπερασματα ................................................................................ ................................. 105 1. Εισαγωγη........................................................................ ................................................................................ ................. 108 2. Συστήματα Αναγνώρισης Προσώπων........................................................................ .................................................. 109 3. Mαθηματικη περιγραφη της αναγνωρισης προσώπων........................................................................ ....................... 109 3.1 Ο μετασχηματισμός Karhunen-Loeve.................................................................. .....................................................................111 3.2 Fisher Linear Discriminant ­FLD............................................................................ ..................................................................114 1. Εισαγωγή........................................................................ ................................................................................ ................. 116 2. Η προσέγγιση του KLT με διανύσματα ................................................................................ ........................................ 117 3. Διαδικασία επαλήθευσης..................................................................... .......................................................................... 118 4. Πειραματικά Αποτελέσματα ................................................................................ ......................................................... 120 1. Εισαγωγή........................................................................ ................................................................................ ................. 122 2. Χονδρική περιγραφή της προτεινόμενης τεχνικής ................................................................................ ...................... 122 3. Δημιουργια του διανυσματος αναπαραστασης................................................................... ......................................... 123 4. Το στάδιο ταυτοποίησης.................................................................... ........................................................................... 124 5. Πειραματικά αποτελέσματα.................................................................... ...................................................................... 124 6. Συμπεράσματα.................................................................... ................................................................................ ............ 125 1. Εισαγωγή........................................................................ ................................................................................ ................. 126 2. Αναλυση Ιδιαζουσών Τιμών........................................................................... ............................................................... 126 2.1 Αναισθησία του διανύσματος ιδιαζουσών τιμών σε αναλογικές μεταβολές στη φωτεινότητα...........................................127 3. Προσαρμογή των εικόνων προσώπου σε άλλες συνθήκες φωτισμού ........................................................................ 130 4. Διαδικασια ταυτοποιησησ.................................................................... ......................................................................... 130 5. Πειραματικά αποτελέσματα.................................................................... ...................................................................... 134 6. Συμπεράσματα.................................................................... ................................................................................ ............ 135 1. Εντοπισμός και κατάτμηση του προσώπου........................................................................ ......................................... 136 2. Συνολα περιγραφης ................................................................................ ........................................................................ 136 2.1 Αναπαράσταση ανεξάρτητη κλίμακας........................................................................ ...............................................................136 2.2 Αναπαράσταση με βάση την υφή και το φωτισμό......................................................................... ..........................................138 2.3 Αναπαράσταση ανεξάρτητη από το γενικό φωτισμό - Luminance Invariant Representation ...........................................139 3. Αλγόριθμος Ταυτοποίησης ................................................................................ ............................................................ 139 3.1 Ταυτοποίηση ανεξάρτητη από κλίμακα ................................................................................ ....................................................139 3.2 Ταυτοποίηση ανεξάρτητη από φωτισμό......................................................................... ...........................................................140 3.3 Ταυτοποίηση βασισμένη στην πληροφορία υφής............................................................................ .........................................141 4. Μηχανή λήψης απόφασης........................................................................ ..................................................................... 141 5. Πειραματικά Αποτελέσματα ................................................................................ ......................................................... 143 6. Συμπεράσματα.................................................................... ................................................................................ ............ 144 viii 1. Εισαγωγή........................................................................ ................................................................................ ................. 148 2. Τα προτυπα μεσησ τιμησ........................................................................... .................................................................... 148 3. Η μεθοδος FLD ................................................................................ .............................................................................. 149 3.1 Ανάλυση PCA για τη δημιουργία συμπαγούς αναπαράστασης ................................................................................ ..............150 3.2 Επιλογή των χαρακτηριστικών με τη μεγαλύτερη ικανότητα διαχωρισμού ........................................................................151 4. Τεχνικες επιβλεπομενης μαθησης......................................................................... ........................................................ 152 4.1 Ταξινόμηση μέσω του MLP δικτύου εφαρμοσμένη άμεσα στα δεδομένα εισόδου..............................................................153 4.2 Συμπίεση και αναπαράσταση.................................................................... ................................................................................ ..154 4.3 Ταξινόμηση των αναπαραστάσεων της PCA ανάλυσης ................................................................................ ..........................155 5. Συμπερασματα.................................................................... ................................................................................ ............ 155 1. Εισαγωγή........................................................................ ................................................................................ ................. 157 2. Συνολα παραμετρων για τον ορισμο προσωπων και της κινησησ σε αυτα............................................................... 159 3. Συσχετιση των FDPs και των προτυπων εκφρασεων....................................................................... .......................... 160 3.1 Ανίχνευση των χαρακτηριστικών σημείων προσώπου ................................................................................ ............................163 3.2 Αξιολόγηση του διανύσματος χαρακτηριστικών................................................................. .....................................................163 4. Το συστημα ασαφους λογικης......................................................................... .............................................................. 164 4.1 Ασαφής διαμέριση των διαστημάτων διακύμανσης των στοιχείων της εισόδου ................................................................165 4.2 Οι κανόνες απόφασης ................................................................................ ........................................................................168 4.3 Υπολογισμός της εξόδου του συστήματος ασαφούς λογικής ................................................................................ ..................169 5. Αναγνωριση παραλλαγων των προτυπων συναισθηματων ................................................................................ ........ 171 6. Πειραματικα αποτελεσματα.................................................................... ...................................................................... 171 7. Συμπερασματα.................................................................... ................................................................................ ............ 172 1. Ο προτεινομενοσ αλγοριθμοσ...................................................................... .................................................................. 175 Ακολουθία βίντεο Κατάτμηση προσώπου και ευθυγράμμιση χαρακτηριστικών Εκτίμηση κίνησης και φιλτράρισμα Έκφραση Ταξινομητής ΗΜΜ Δημιουργία του διανύσματος αναπράστασης ............................................................175 1.1 Εκτίμηση κίνησης ................................................................................ ................................................................................ ........175 1.2 Φιλτράρισμα των διανυσμάτων κίνησης......................................................................... ..........................................................176 2 Δημιουργία του διανύσματος αναπαράστασης................................................................... .......................................... 176 3.Ο ταξινομητής HMM............................................................................. ......................................................................... 179 4. Πειραματικα αποτελεσματα.................................................................... ...................................................................... 181 5. Συμπερασματα.................................................................... ................................................................................ ............ 181 Εισαγωγη........................................................................ ................................................................................ ..................... 190 ix Το mpeg-4 και η αναγνώριση χαρακτηριστικών ................................................................................ ............................. 191 Αναλυτικά για το FAPs ................................................................................ ................................................................................ ............................ 191 Αναλυτικά για το FDPs ................................................................................ ................................................................................ ............................ 192 x 1 Κεφάλαιο A1 ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΚΟΙΝΩΝΙΑ ΑΝΘΡΩΠΟΥ ΜΗΧΑΝΗΣ Η ανάλυση και αναγνώριση προσώπου είχε αρχικά προταθεί ως μια εναλλακτική πρόταση ταυτοποίησης ανθρώπων χωρίς τη χρήση εγγράφων. Η πράξη δείχνει ότι άλλα ανθρωπομετρικά χαρακτηριστικά όπως τα δακτυλικά αποτυπώματα είναι περισσότερο αποδοτικά για το σκοπό αυτό. Από την άλλη πλευρά η συνεχής ανάπτυξη των εφαρμογών πολυμέσων κατέστησε την αναγνώριση προσώπων αλλά και την ανάλυση εκφράσεων εξαιρετικά σημαντικές εφαρμογές στον τομέα της επικοινωνίας ανθρώπου μηχανής αλλά και της πλοήγησης σε πολυμεσικές βάσεις δεδομένων. Σύλληψη ακολουθίας βίντεο Σύλληψη καρέ Επεξεργασία Σήμα ανάδρασης από την εφαρμογή Εντοπισμός προσώπου και χαρακτηριστικών ΕΦΑΡΜΟΓΗ Παρακολούθηση χαρακτηριστικών Είσοδος του σήματος στην εφαρμογή Μετασχηματισμός των συντεταγμένων στο επίπεδο XY Σχήμα Α1.1: Μπλοκ διάγραμμα της επικοινωνίας ανθρώπου μηχανής μέσω της οπτικής πληροφορίας Η επικοινωνία των ανθρώπινων όντων πραγματοποιείται μέσω δύο διαφορετικών καναλιών: Είτε μέσω σαφών λεκτικών μηνυμάτων, τα οποία μπορούν να αφορούν σε οτιδήποτε, είτε μέσω εσωτερικών μηνυμάτων τα οποία εκφράζουν πληροφορία σχετικά με την συναισθηματική κατάσταση των ομιλητών. Παρόλο που το πρώτο κανάλι επικοινωνίας έχει προσελκύσει τεράστιο ενδιαφέρον από ένα ευρύ φάσμα επιστημών, όπως η γλωσσολογία, η επεξεργασία φωνής κοκ, το ίδιο δεν έχει συμβεί με το δεύτερο κανάλι. Η αναγνώριση προσώπων και των μορφοποιήσεων που λαμβάνουν χώρα σε αυτό, η αναγνώριση 2 νοηματικών κινήσεων καθώς και η κατανόηση συναισθημάτων είναι κάποια από τα ουσιαστικότερα θέματα που σχετίζονται με την επικοινωνία μέσω του δεύτερου καναλιού. Η αναγνώριση προσώπου και των νοηματικών κινήσεων σε αυτό είναι ιδιαίτερα σημαντική διαδικασία γιατί παρέχει μεταξύ άλλων και εναλλακτικούς τρόπους επικοινωνίας με τον υπολογιστή σε ανθρώπους με κάποια μορφή αναπηρίας. Ο παραδοσιακός τρόπος επικοινωνίας ανθρώπου και υπολογιστή πραγματοποιείται με τη χρήση πληκτρολογίου και ποντικιού. Εναλλακτικά μπορεί να πραγματοποιηθεί διαβίβαση εντολών με τη χρήση μικροφώνου και με διαδικασίες λεκτικής ανάλυσης. Για ανθρώπους με σοβαρά κινητικά προβλήματα αλλά και με προβλήματα ομιλίας και ακοής η επικοινωνία μέσω κινήσεων του κεφαλιού ή περιοχών του προσώπου όπως τα χείλη, τα μάτια και τα βλέφαρα είναι ιδιαίτερα επιθυμητή. Στο Σχήμα Α1.1 παρουσιάζεται με ποιο τρόπο ένα σύστημα επικοινωνίας ανθρώπου υπολογιστή πραγματοποιείται με τη χρήση μιας απλής ατομικής βιντεοκάμερας. Στο σύστημα αυτό εμφανίζονται κάποια επιμέρους προβλήματα τα οποία απαιτούν αξιόπιστη λύση και αφορούν στο τμήμα σύλληψης και επεξεργασίας της ακολουθίας βίντεο. Η επίλυση συγκεκριμένων θεμάτων όπως ο εντοπισμός της θέσης και η παρακολούθηση της κίνησης του προσώπου, ο εντοπισμός των βασικών χαρακτηριστικών του προσώπου και η παρακολούθηση της κίνησης τους καθώς και η εύρεση της θέσης συγκεκριμένων σημείων στην επιφάνεια του αποτελούν τον κορμό του ανωτέρω σχήματος επικοινωνίας. Με βάση την πληροφορία που εξάγεται στα στάδια αυτά, δίνονται οι εντολές για την κατάλληλη αντίδραση του υπολογιστή στα δεδομένα της εισόδου του. Η κατανόηση των συναισθημάτων είναι επίσης ένα εξαιρετικά σημαντικό θέμα στην επικοινωνία ανθρώπου μηχανής. Δεδομένης της δυσκολίας με την οποία οι άνθρωποι ερμηνεύουν την εσωτερική κατάσταση των συνανθρώπων τους είναι αντιληπτό από όλους ότι η κατανόηση των ανθρωπίνων συναισθημάτων από τον υπολογιστή αποτελεί μια πρόκληση. Η ανάλυση και αναδημιουργία του μη λεκτικού καναλιού επικοινωνίας μπορεί να οδηγήσει σε μια πληθώρα εφαρμογών μερικές από τις οποίες συνοψίζονται στη συνέχεια: Δημιουργία ομιλίας με συναισθηματικό χρωματισμό Η οικειότητα ή συμπάθεια ανάμεσα σε δύο επικοινωνούντα άτομα εκφράζεται κατά το μεγαλύτερο ποσοστό της από μη λεκτικού περιεχομένου πληροφορία. Το ίδιο ισχύει και για την επιφυλακτικότητα και την τήρηση αποστάσεων. Το συναισθηματικό χρώμα στην ομιλία αλλά και οι εκφράσεις του προσώπου είναι οι κλασικοί τρόποι με τους οποίους εκφράζεται η ευαρέσκεια ή δυσαρέσκεια κατά τη διάρκεια της επικοινωνίας. Οι ηλεκτρονικοί ομιλητές χαρακτηρίζονται από την απουσία του συναισθηματικού χρώματος στη φωνή που πολλές φορές λειτουργεί ανασταλτικά στους ανθρώπους που επικοινωνούν μαζί τους. Η κατανόηση της συναισθηματικής κατάστασης του ανθρώπου από τον υπολογιστή μπορεί να οδηγήσει στον κατάλληλο χρωματισμό της ηλεκτρονικής ομιλίας οδηγώντας είτε στην τήρηση αποστάσεων είτε στην έκφραση οικειότητας και συμπάθειας. Αλληλεπίδραση του λεκτικού και μη λεκτικού καναλιού επικοινωνίας Το μη λεκτικό κανάλι επικοινωνίας καθορίζει σε πολλές περιπτώσεις το πως πρέπει να ερμηνευθούν τα λεκτικά δεδομένα. Με απλά λόγια η κατανόηση του αν τα λεγόμενα πρέπει να εκληφθούν κυριολεκτικά ή μεταφορικά είναι κρίσιμος παράγοντας για την αποδοτική συνέχιση της επικοινωνίας. Προφανώς και η 3 αντίδραση του υπολογιστή πρέπει να είναι προσαρμοσμένη στην αλληλεπίδραση του λεκτικού και μη λεκτικού καναλιού επικοινωνίας. Επέκταση της ανθρώπινης κρίσης Η ανίχνευση των συναισθημάτων του συνομιλητή μας είναι πολλές φορές συνυφασμένη με την εξαγωγή συμπερασμάτων σχετικά με τον χαρακτήρα και την προσωπικότητα. Μια κλασσική εφαρμογή που υπάγεται στο πλαίσιο αυτό είναι η ανίχνευση ψεύδους. Η ικανότητα των ανθρώπων όσον αφορά τη διαδικασία αυτή μοιάζει ασύλληπτη για τους υπολογιστές. Υπάρχουν ωστόσο εφαρμογές στις οποίες η επέκταση της ανθρώπινης κρίσης είναι εφικτή για τον υπολογιστή. Χαρακτηριστικό παράδειγμα αποτελεί η διάγνωση στοιχείων που δηλώνουν προχωρημένη σχιζοφρένεια μέσω του συναισθηματικού χρώματος της ομιλίας. Με δεδομένο ότι οι άνθρωποι δεν αντιλαμβάνονται τα στοιχεία αυτά με την ευκολία που θα περίμενε κανείς, η χρησιμότητα του υπολογιστή στο συγκεκριμένο πεδίο είναι τουλάχιστον σημαντική. Δημιουργία συνθετικών μοντέλων Η κατανόηση των συναισθημάτων είναι βασική απαίτηση των σύγχρονων προτύπων κωδικοποίησης στα οποία η δημιουργία συνθετικών μοντέλων αποτελεί δομικό στοιχείο. Ορθή κατανόηση οδηγεί σε ορθή μοντελοποίηση και φυσικά σε ορθή αναπαραγωγή στο δέκτη. Αποτυχία μετάδοσης των συναισθηματικών καταστάσεων μπορεί να έχει καταστροφικές συνέπειες. Εκπαίδευση Μια προφανής εφαρμογή για τους υπολογιστές που μπορούν να κατανοούν τα συναισθήματα είναι η αυτόματη εκπαίδευση. Ένας αποδοτικός εκπαιδευτής πρέπει να μπορεί να αντιλαμβάνεται τις αντιδράσεις του ακροατηρίου και να προσαρμόζει αντίστοιχα τη διδασκαλία του. Η ανάλυση των εκφράσεων και συναισθημάτων δίνει την απαιτούμενη ανατροφοδότηση ώστε να γίνεται έγκαιρα αντιληπτή η κούραση, η αδυναμία παρακολούθησης, η ανησυχία κοκ. Μεταφορά χειρισμού από τον υπολογιστή στο ανθρώπου Η φοβία και η αμηχανία πολλών ανθρώπων όταν αναγκάζονται να επικοινωνήσουν με κάποιο μηχάνημα ­ τόσο απλό όσο ένα τηλεφωνικός πληροφοριοδότης- είναι κάτι το οποίο απαιτείται να ανιχνεύεται ώστε να διαβιβάζεται ο χειρισμός του προβλήματος σε ανθρώπους. Με απλά λόγια ο υπολογιστής πρέπει να μπορεί μέσω της συναισθηματικής κατάστασης του ατόμου που επικοινωνεί με αυτόν να καταλαβαίνει πότε είναι ικανός να χειριστεί την κατάσταση και πότε να διαβιβάσει τον έλεγχο σε άλλους. Προσαρμογή ρυθμίσεων λογισμικού Σε πάρα πολλές περιπτώσεις ο τρόπος με τον οποίο αντιδρά ο υπολογιστής σε κάποιες από τις ενέργειες στις οποίες προβαίνουμε μας απογοητεύει. Ένας υπολογιστής ή λογισμικό το οποίο μπορεί να κατανοήσει τα συναισθήματα του χρήστη μπορεί να προσαρμόσει αντίστοιχα τις αντιδράσεις του. Κλασσικό παράδειγμα των περιπτώσεων αυτών είναι η ταχύτητα με την οποία δίνονται οι οδηγίες κατά την εγκατάσταση κάποιου λογισμικού. Αν ο χρήστης αδυνατεί να τις παρακολουθήσει ο υπολογιστής πρέπει να προχωρήσει σε απλούστερες διαδικασίες ώστε να επιτευχθεί το ζητούμενο αποτέλεσμα. Αντίστοιχο παράδειγμα αποτελεί η αυτόματη ενεργοποίηση κάποιων χαρακτηριστικών σε ορισμένα προγράμματα 4 λογισμικού. Ακόμα και κατά τη συγγραφή της συγκεκριμένης διατριβής ορισμένα χαρακτηριστικά του επεξεργαστή κειμένου προκαλούσαν τη δυσαρέσκεια του συγγραφέα ­για παράδειγμα η μετατροπή πεζών σε κεφαλαία, η αυτόματη αρίθμηση κοκ. Ένα έξυπνο λογισμικό θα πρέπει να μπορεί να αντιλαμβάνεται τη δυσαρέσκεια του χρήστη και να προσαρμόζει αντίστοιχα τις ρυθμίσεις του. Διασκέδαση Ο τομέας της διασκέδασης μέσω υπολογιστών δεν είναι καθόλου αμελητέος. Κανένας δεν μπορεί να αμφισβητήσει την πρόοδο που έχει επιτευχθεί, όσον αφορά στις ικανότητες των υπολογιστών, εξαιτίας της να προσφέρουν ελκυστικά παιχνίδια. Οι συνθετικοί «ηθοποιοί» για να είναι καλοί στο ρόλο τους πρέπει να μπορούν να εκφράζουν σωστά τις κατάλληλες για την περίσταση συναισθηματικές καταστάσεις. Ένας πραγματικά κακός συνθετικός αντιήρωας πρέπει να θυμώνει με πειστικό τρόπο! Η παρούσα διατριβή εξετάζει τα θέματα της αυτόματης ανάλυσης και αναγνώρισης προσώπων και εκφράσεων στο πλαίσιο της επικοινωνίας ανθρώπου μηχανής όπως αυτό καθορίστηκε στις παραγράφους που προηγήθηκαν. Επειδή τόσο η ανάλυση εκφράσεων όσο και -κυρίως- η αναγνώριση προσώπων δεν είναι συσχετισμένες μόνο με την επικοινωνία ανθρώπου και υπολογιστή αλλά και πληθώρα άλλων εφαρμογών γίνεται προσπάθεια μιας όσο το δυνατόν σφαιρικότερης κάλυψης των δύο αυτών θεμάτων. 5 Κεφάλαιο A2 ΤΟ ΠΡΟΒΛΗΜΑ ΤΗΣ ΑΝΑΓΝΩΡΙΣΗΣ ΠΡΟΣΩΠΩΝ Οι άνθρωποι εντοπίζουν και αναγνωρίζουν πρόσωπα σε μια σκηνή με χαρακτηριστική ευκολία. Η ικανότητα αυτή αναπτύσσεται σταδιακά κατά τη διάρκεια της παιδικής ηλικίας και μαζί με τη δυνατότητα εκτίμησης της έκφρασης ενός προσώπου παίζουν ένα πολύ σημαντικό ρόλο στη κοινωνική ζωή των ανθρώπων. Η ευκολία εντούτοις με την οποία εκτελείται η παραπάνω διαδικασία στον άνθρωπο δεν πρέπει να μας παραπλανεί. Τα πρόσωπα αντιπροσωπεύουν σύνθετες, πολυδιάστατες, γεμάτες πληροφορία διεγέρσεις, πράγμα που καθιστά την ανάπτυξη ενός υπολογιστικού συστήματος αναγνώρισης προσώπων εξαιρετικά δύσκολη. 1. ΕΙΣΑΓΩΓΗ Το πρόσωπο είναι ένα μοναδικό χαρακτηριστικό για τα ανθρώπινα όντα. Ακόμα και τα πρόσωπα δύο ομοζυγωτικών διδύμων διαφέρουν. Εντοπίζουμε, αναγνωρίζουμε και διακρίνουμε τα πρόσωπα με χαρακτηριστική ευκολία και απλή παρατήρηση. Η ευκολία αναγνώρισης των προσώπων από τον άνθρωπό ήταν ένας από τους λόγους για την επιλογή γραμματοσήμων το οποία περιλάμβαναν πρόσωπα: ήταν πολύ δυσκολότερο να γίνουν πλαστογραφίες γραμματοσήμων γιατί αυτές γίνονταν εύκολα αντιληπτές. Η μοναδικότητα των προσώπων είναι επίσης ο βασικός λόγος για την ευρεία χρήση του σε εφαρμογές όπου η ταυτοποίηση ανθρώπων είναι ιδιαίτερα σημαντική. Στο σημείο αυτό πρέπει να γίνει διάκριση μεταξύ ταυτοποίησης προσώπων και ταυτοποίησης ανθρώπων με βάση τη συνολική τους συμπεριφορά. Στην ταυτοποίηση προσώπων χρησιμοποιείται αποκλειστικά το οπτικό σύστημα του ανθρώπου. Στην γενικότερη ταυτοποίηση ανθρώπων χρησιμοποιούνται και άλλα στοιχεία, όπως το βάδισμα, η στάση του σώματος, η φωνή ή το ντύσιμο. Παρόλο που το πρόσωπο και τα χαρακτηριστικά του χρησιμοποιούνται ευρύτατα για την αναγνώριση ανθρώπων με κανένα τρόπο δεν αποτελούν τους μοναδικούς τρόπους αναγνώρισης. Στο τέλος του προηγούμενου αιώνα, ένα σύστημα βασισμένο σε μετρήσεις άλλων χαρακτηριστικών του σώματος, όπως το μήκος και εύρος του κεφαλιού, το μήκος του αριστερού πέλματος, το μήκος του μεσαίου δακτύλου του αριστερού χεριού και ποδιού, είχε χρησιμοποιηθεί στη Γαλλία για την ταυτοποίηση φυλακισμένων. Πρόσφατα αναπτύχθηκαν τεχνικές για ταυτοποίηση ανθρώπων βασισμένες στη δομή των γονιδίων. Ένα σύστημα εντοπισμού και ταυτοποίησης προσώπων θα ήταν χρήσιμο σε μια πλειάδα εφαρμογών όπως αναγνώριση εγκληματιών, πρόσβαση σε συστήματα ασφαλείας όπως ταμεία τραπεζών (ΑΤΜ) και γενικά σε κάθε εφαρμογή που απαιτεί πρόσβαση βάση κάποιου αποδεικτικού στοιχείου ταυτότητας. Τέτοια συστήματα στη παρούσα φάση χρησιμοποιούν στοιχεία όπως κάρτες, PINs και κωδικούς πρόσβασης. Πρόσβαση βασισμένη σε αναγνώριση προσώπων θα μπορούσε να είναι περισσότερο αξιόπιστη και πιο απλή. Η αλήθεια πάντως είναι ότι σε εφαρμογές που απαιτούν υψηλή αξιοπιστία όσον αφορά την ταυτοποίηση, η αναγνώριση προσώπου δεν επαρκεί ­τουλάχιστον με τα υπάρχοντα δεδομένα. Αντίθετα σε 6 εφαρμογές όπως τα συστήματα επικοινωνίας ανθρώπου μηχανής, ανάκλησης στοιχείων από βάσεις δεδομένων με βάση το περιεχόμενο, τηλεδιάσκεψη κλπ, η αναγνώριση προσώπου είναι πιο εύκολα υλοποιήσιμη και σε πολλές περιπτώσεις απαραίτητη. Η ανάπτυξη ενός υπολογιστικού μοντέλου αναγνώρισης προσώπων είναι μια πρόκληση για την ανθρώπινη εφευρετικότητα και φιλοδοξία. Οι πιθανές εφαρμογές ενός τέτοιου μοντέλου, ενδεχομένως σε μελλοντικό χρόνο, χρησιμοποιούμενου για ασφάλεια κτιρίων και σταθμών εργασίας, αναγνώριση κακοποιών, επαλήθευση πιστωτικών καρτών, βελτίωσης της επικοινωνίας ανθρώπου - μηχανής κοκ, το καθιστούν ιδιαίτερα σημαντικό. Το πρόβλημα χονδρικά τίθεται ως εξής: Δοθέντων φωτογραφιών ή ακολουθιών βίντεο από μια σκηνή, αναγνώρισε ένα ή περισσότερα άτομα χρησιμοποιώντας μια υπάρχουσα βάση δεδομένων από πρόσωπα. Συμπληρωματικές πληροφορίες, όπως ηλικία, φύλο, φυλή, μπορεί να είναι διαθέσιμες για κάθε αποθηκευμένο στη βάση πρόσωπο, ούτως ώστε να περιορίζεται η έρευνα. Διάφορα υποπροβλήματα πηγάζουν για την αυτοματοποίηση της παραπάνω διαδικασίας: (1) Απομόνωση και κατάτμηση του προσώπου μέσα από ένα ­γενικά- θορυβώδες περιβάλλον. (2) Εξαγωγή ευσταθών χαρακτηριστικών από την περιοχή του προσώπου. Ευσταθή χαρακτηριστικά είναι εκείνα, τα οποία δεν επηρεάζονται από την κλίμακα, τον φωτισμό, την κλίση-στροφή του προσώπου, την αμφίεση και τη γήρανση. (3) Χρήση χαρακτηριστικών ή άλλων παρόμοιων τεχνικών με σκοπό τη μείωση της διάστασης του προβλήματος και τη δημιουργία προτύπων. Το πρόβλημα τελικά ανάγεται στην αναγνώριση προτύπων και τη χρήση κατάλληλων μετρικών για ταυτοποίηση-κατηγοριοποίηση. Επιπλέον το πρόβλημα μπορεί να διαχωριστεί σε δύο κατηγορίες με βάση τη πηγή πληροφορίας, αν δηλαδή αναφέρεται σε σταθερές ή κινούμενες εικόνες. Η αναγνώριση προσώπου από σταθερές εικόνες έχει πλεονεκτήματα και μειονεκτήματα σε σχέση με την αναγνώριση από ακολουθίες βίντεο, ως εκ τούτου οι χρησιμοποιούμενες τεχνικές στις δύο αυτές κατηγορίες ποικίλουν. Ο τρόπος με τον οποίο γίνεται η αναγνώριση προσώπων από τον άνθρωπο έχει απασχολήσει τους τομείς της Ψυχοφυσικής και της Νευροφυσιολογίας για περισσότερα από 20 χρόνια. Η μοναδικότητα των προσώπων, το ερώτημα αν η αναγνώριση γίνεται ολιστικά ή με χρήση επιμέρους χαρακτηριστικών, η ανάλυση των εκφράσεων του προσώπου για σκοπούς αναγνώρισης, η οργάνωση της μνήμης για τα πρόσωπα και διάφορα άλλα θέματα απασχόλησαν τις παραπάνω επιστήμες. Οι μηχανικοί έδειξαν ενδιαφέρον για την έρευνα αυτή με σκοπό την υλοποίηση ενός αποδοτικού συστήματος αναγνώρισης. Μερικά από τα αποτελέσματα είναι πράγματι ενδιαφέροντα αν και τελικά η αναγνώριση προσώπων από μηχανές αναπτύχθηκε ανεξάρτητα από τις μελέτες της Ψυχοφυσικής και Νευροφυσιολογίας. Σημαντική προσπάθεια στον τομέα της αναγνώρισης προσώπων από μηχανές είχε γίνει τα πρώτα χρόνια της δεκαετίας του ΄70. Κατά τη διάρκεια της δεκαετίας του ΄80 υπήρξε μια σχετική στασιμότητα. Από τις αρχές της δεκαετίας του ΄90 παρατηρείται μια σημαντική δραστηριότητα και ανανεωμένο ενδιαφέρον, το οποίο εκφράζεται με τη δημοσίευση σε τακτική βάση άρθρων σε περιοδικά όπως το IEEE Transactions on 7 PAMI, και τη διοργάνωση ειδικών παρουσιάσεων ­sessions- σε μεγάλα διεθνή συνέδρια (IEEE ICIP, IEEE ICASSP, IEEE Multimedia). Έναυσμα για την ανανέωση του ενδιαφέροντος και περαιτέρω δραστηριοποίηση έδωσε η εργασία [1]. Έκτοτε μια μεγάλη ποικιλία προσεγγίσεων έχει εμφανιστεί στη διεθνή βιβλιογραφία. 2. ΕΦΑΡΜΟΓΕΣ ΤΗΣ ΑΝΑΓΝΩΡΙΣΗΣ ΠΡΟΣΩΠΩΝ Εμπορικές και νομικής φύσεως εφαρμογές της αναγνώρισης προσώπου καταγράφονται στον Πίνακα Α2.1. Τα δεδομένα εισόδου των εφαρμογών αυτών ποικίλουν από στατικές φωτογραφίες με ελεγχόμενο φόντο έως ακολουθίες βίντεο με κανένα περιορισμό στη λήψη και την ανάλυση. Δεδομένης της ανομοιογένειας των πηγών εισόδου είναι φυσικό επακόλουθο η ύπαρξη πολλών μεθόδων που έχουν σχέση με πεδία όπως η επεξεργασία, ανάλυση και κατανόηση εικόνας και η αναγνώριση προτύπων, που προσπαθούν να αντιμετωπίσουν επιμέρους ζητήματα. Χονδρικά μπορεί κάποιος να ταξινομήσει τις τεχνικές και τα επιμέρους προβλήματα σε δύο κατηγορίες: στατικής ταύτισης -δεν υπάρχει δυνατότητα παρακολούθησης κίνησης- και δυναμικής ταύτισης -στην οποία υπάρχει δυνατότητα παρακολούθησης της χρονικής μεταβολής των δεδομένων. Ακόμη και στο πλαίσιο των ανωτέρω γενικών κατηγοριών υπάρχουν σημαντικές διαφοροποιήσεις ανάλογα με τη συγκεκριμένη εφαρμογή. Οι διαφορές που αφορούν στην ποιότητα της εικόνας -χωρική ανάλυση, στην πολυπλοκότητα του φόντου η οποία επηρεάζει αποφασιστικά την ευκολία με την οποία μπορεί να εντοπιστεί το πρόσωπο μέσα στην εικόνα, στην ύπαρξη ενός καλά ορισμένου κριτηρίου ταύτισης καθώς και στο ποσοστό, στο είδος και στην υφή της παρέμβασης από τον άνθρωπο -όπως στις εφαρμογές 4 και 5 του Πίνακα Α2.1. Σε μερικές εφαρμογές, όπως στον εντοπισμό των μεταβολών που επήλθαν με την γήρανση απαιτείται η εύρεση των μετασχηματισμών εκείνων που μετά την εφαρμογή τους οι νέες εικόνες θα είναι παρόμοιες με τις αναμενόμενες. Με βάση τα προηγούμενα προκύπτουν τρία διαφορετικά προβλήματα που αφορούν στις εφαρμογές του Πίνακα Α2.1. Συγκεκριμένα η ταύτιση, η ανίχνευση ομοιότητας και η εφαρμογή μετασχηματισμών. Οι εφαρμογές 1, 2, 3, 10 και 11 θέτουν κυρίως προβλήματα ταύτισης μιας εικόνας προσώπου με κάποια άλλη. Οι εφαρμογές 4-7 αναφέρονται στη δημιουργία μιας εικόνας προσώπου όμοιας με αυτήν που θυμούνται ή περιγράφουν αυτόπτες μάρτυρες. Τέλος οι εφαρμογές 8 και 9 εμπλέκουν την εφαρμογή μετασχηματισμών και τροποποιήσεων σε μια εικόνα με βάση στοιχεία που είναι χρήσιμα σε άλλες εφαρμογές. Κάθε μια από της εφαρμογές που αναφέρονται στον Πίνακα Α2.1 θέτει διαφορετικές απαιτήσεις και περιορισμούς στη διαδικασία της αναγνώρισης προσώπου. Η ταύτιση απαιτεί όπως η προς ταυτοποίηση εικόνα ανήκει σε ένα σύνολο από εικόνες οι οποίες έχουν επιλεγεί από το υπολογιστικό σύστημα. Η ανίχνευση ομοιότητας εκτός από την ταύτιση απαιτεί επιπλέον οι επιλεγείσες εικόνες να ομοιάζουν με αυτές που αυτόπτες μάρτυρες ανακαλούν στη μνήμη τους. Η τελευταία απαίτηση θέτει ένα σοβαρό περιορισμό στο κριτήριο ταύτισης το οποίο πρέπει να είναι αντίστοιχο με αυτό που χρησιμοποιούν οι άνθρωποι. Οι εφαρμογές μετασχηματισμού από την άλλη πλευρά πρέπει να προσομοιάζουν τον τρόπο με τον οποίο λειτουργεί η γήρανση -ή τουλάχιστον αυτό που αναμένουν οι άνθρωποι να συμβεί ως συνέπεια της παρόδου του χρόνου. 8 Α/Α 1(α) Εφαρμογές Πιστωτικές κάρτες, ΑΤΜ μηχανήματα, δίπλωμα οδήγησης, διαβατήριο, προσωπική ταυτοποίηση. Mug shots ταύτιση Πλεονεκτήματα Καλή ποιότητα εικόνων, ελεγχόμενες συνθήκες λήψης, εύκολος εντοπισμός του προσώπου Ελεγχόμενες συνθήκες λήψης, περισσότερες από μια φωτογραφίες για κάθε πρόσωπο Υψηλή ζήτηση, γεωγραφικά και τοπικά περιορισμένη αναζήτηση. Υψηλή ζήτηση, μικρό μέγεθος αρχείων, εκμετάλλευση κίνησης Υψηλή ζήτηση, δυνατότητα αναβάθμισης των φωτογραφιών Όρια που τίθενται από τους αυτόπτες μάρτυρες Όρια που τίθενται από την περιγραφή Όρια που τίθενται από την περιγραφή Υψηλή ζήτηση Υψηλή ζήτηση Χρήση χρώματος Χρήση χρώματος Μειονεκτήματα 1(β) Μη υπάρχουσες βάσεις, μεγάλο μέγεθος βάσεων, σπάνια χρησιμοποιούμενη αναζήτηση 2 3 Ασφάλεια τραπεζών / καταστημάτων Επισκόπηση - παρακολούθηση πλήθους Μη ελεγχόμενο φόντο, μικρός αριθμός φωτογραφιών Μη ελεγχόμενο φόντο, χαμηλή ποιότητα εικόνων, εκτέλεση σε πραγματικό χρόνο Χαμηλή ποιότητα εικόνων, απαραίτητη η άδεια από τις αστυνομικές αρχές Αμφίβολη ομοιότητα Κούραση παρατηρητή Κούραση παρατηρητή Απαιτείται η χρήση δεδομένων από τη φυσιολογία Απαιτείται η ύπαρξη συγκεκριμένου παραδείγματος Ετερογενείς βάσεις πολυμέσων Ανομοιογένεια συνθηκών studio και εξωτερικών λήψεων 4 Ταυτοποίηση από ειδικούς 5 6 7 8 9 10 11 Ανακατασκευή προσώπου με βάση μαρτυρίες Ηλεκτρονικό βιβλίο από mug shots Ηλεκτρονική παράταξη υπόπτων Ανακατασκευή προσώπου από υπολειπόμενα στοιχεία Υπολογισμός αλλαγών που επήλθαν με την πάροδο του χρόνου (aging) Αναζήτηση με βάση το περιεχόμενο Υποδιαίρεση ειδήσεων σε θεματικές ενότητες. Πίνακας A2.1: Συνήθεις εφαρμογές της αναγνώρισης προσώπων 3. ΠΡΟΒΛΗΜΑΤΑ ΣΤΑΤΙΚΗΣ ΤΑΥΤΙΣΗΣ Η πιο συνηθισμένη εφαρμογή της κατηγορίας αυτής είναι η ταύτιση «mug shot» φωτογραφιών. Τυπικά στις φωτογραφίες αυτού του είδους, ο φωτισμός είναι ελεγχόμενος και λαμβάνονται δύο φωτογραφίες μια εμπρόσθιας όψης ­ανφάς- και μία πλάγιας όψης -προφίλ. Παρόλο που γενικά οι προδιαγραφές λήψης των φωτογραφιών μπορούν να τεθούν από τις αστυνομικές αρχές, δεν υπάρχει κάποιο συγκεκριμένο πρότυπο και σαν αποτέλεσμα υπάρχει μια ποικιλία ως προς τη μορφή τους ανάλογα με την περιοχή. Οι προδιαγραφές που μπορούν να τεθούν αφορούν στο φόντο, στις συνθήκες φωτισμού, στην χωρική ανάλυση και στην απόσταση του εικονιζόμενου από την κάμερα. Θέτοντας περιορισμούς όπως οι προηγούμενοι, τόσο η διαδικασία εντοπισμού, όσο και η διαδικασία ταύτισης απλοποιούνται σε μεγάλο βαθμό. Παραδείγματα mug shots φωτογραφιών δίνονται στις Εικόνες Α2.1(α) και Α2.1(β) 9 (α) (β) (γ) (δ) Εικόνα A2.1: (α) Mug shot φωτογραφία (front view) (β) Mug shot φωτογραφία (profile) (γ) (δ) Φωτογραφίες σε διπλώματα οδήγησης, διαβατήρια κλπ. Παραλλαγές της ταύτισης mug shot φωτογραφιών είναι η αναγνώριση προσώπων σε διπλώματα οδήγησης, πιστωτικές κάρτες, διαβατήρια και ταυτότητες. Παραδείγματα τέτοιων φωτογραφιών δίνονται στις Εικόνες Α2.1(γ) και Α2.1(δ). Οι συνθήκες λήψης των φωτογραφιών σε τέτοιου είδους έγγραφα είναι σαφώς περισσότερο ελεγχόμενες από τις τυπικές mug shots φωτογραφίες. Τυπικά οι φωτογραφίες σε mug shot εφαρμογές είναι καλής ποιότητας και σύμφωνες με τα πρότυπα που τίθενται από το νόμο. Δεδομένων και των σχετικά ελεγχόμενων συνθηκών σύλληψης, ο εντοπισμός και η κατάτμηση των προσώπων στις φωτογραφίες είναι σχετικά εύκολος. Οι μεγαλύτερες δυσκολίες έγκεινται στο μεγάλο μέγεθος των βάσεων από φωτογραφίες που υπάρχουν σε τέτοιου είδους εφαρμογές και φυσικά στη διαδικασία ταύτισης η οποία επηρεάζεται από μεταβολές στα πρόσωπα οι οποίες προέρχονται από γήρανση, απώλεια ή αλλαγή μαλλιών κλπ. (α) (β) Εικόνα A2.2: (α) (β) Φωτογραφίες με ανομοιόμορφο φόντο Η εφαρμογή 2 είναι περισσότερο σύνθετη από την εφαρμογή 1 κυρίως εξαιτίας της μη ελεγχόμενης διαδικασίας λήψης των φωτογραφιών. Το φόντο δεν είναι υποχρεωτικά ομοιόμορφο και κατά συνέπεια η διαδικασία εντοπισμού και κατάτμησης καθίσταται δυσκολότερη. Επιπλέον η ποιότητα των εικόνων τείνει να είναι χαμηλή. Μια προσέγγιση φωτογραφιών της εφαρμογής αυτής δίνεται στις Εικόνες Α2.2(α) και (β). Πρέπει να τονιστεί ότι ουσιαστικά η εφαρμογή 2 βρίσκεται ανάμεσα στη στατική και τη δυναμική ταύτιση δεδομένου ότι σε πολλές περιπτώσεις εκτός από φωτογραφίες από συνήθεις φωτογραφικές μηχανές λαμβάνονται και εικόνες από βιντεοκάμερα. Όπως και στην εφαρμογή 1, μεταβολές στα πρόσωπα οι οποίες προέρχονται από γήρανση, μεταμφίεση και απώλεια ή αλλαγή μαλλιών πρέπει να λαμβάνονται 10 υπόψη στη διαδικασία ταύτισης και εξαγωγής χαρακτηριστικών. Στις εφαρμογές 1 και 2 το κριτήριο ταύτισης μπορεί να είναι ποσοτικό επιτρέποντας κατάταξη μερικών από τις επιλογές του συστήματος σύμφωνα με τη σειρά επιτυχίας. Οι εφαρμογές 4-7 αφορούν την εύρεση ή δημιουργία ενός προσώπου όμοιου με αυτό που κάποιος αυτόπτης μάρτυρας είδε ή περιέγραψε. Στην εφαρμογή 4 ένας ειδικός καλείται να βεβαιώσει ότι το πρόσωπο στη δοθείσα εικόνα αντιστοιχεί στα αναζητούμενο άτομο. Είναι πιθανό το πρόσωπο της φωτογραφίας να είναι μεταμφιεσμένο ή να καλύπτεται μερικώς από άλλα πρόσωπα ή αντικείμενα. Τυπικά, της εφαρμογής αυτής προηγείται κάποια διαδικασία κατάταξης, η οποία δημιουργεί ένα σύνολο πιθανών προσώπων τα οποία έχουν σημαντικές ομοιότητες και ο ειδικός καλείται με προσεκτική έρευνα να βρει ποια από αυτές αντιστοιχεί στο αναζητούμενο άτομο. Στην εφαρμογή 5 ο αυτόπτης μάρτυρας καλείται να συνθέσει μια προσωπογραφία του αναζητούμενου ατόμου χρησιμοποιώντας μια βιβλιοθήκη από χαρακτηριστικά προσώπου όπως μάτια, μύτες, χείλη κλπ. Για παράδειγμα η βιβλιοθήκη μπορεί να περιέχει μύτες μακριές, κοντές, καμπυλωτές επίπεδες κοκ, κάποια από τις οποίες θα ταιριάζει περισσότερο με αυτήν που ο μάρτυρας έχει στη μνήμη του. Η εφαρμογή 6 αναφέρεται στην ηλεκτρονική πλοήγηση σε συλλογή από φωτογραφίες. Στην εφαρμογή 7 ο μάρτυρας καλείται να αναγνωρίσει τον ύποπτο από ένα σύνολο φωτογραφιών μερικές από τις οποίες περιέχουν και λανθασμένες επιλογές. Τυπικά στις εφαρμογές 4-7 η ποιότητα των εικόνων είναι σχετικά χαμηλή και πέρα από την ταύτιση ζητείται και η εύρεση προσώπων που ομοιάζουν με αυτό που ο μάρτυρας έχει στη μνήμη του. Το κριτήριο ταύτισης είναι δύσκολο να καθοριστεί ποσοτικά, δεδομένου ότι πρέπει να βρεθούν μετρικές οι οποίες προσομοιάζουν την διαδικασία ταύτισης που πραγματοποιεί ο άνθρωπος. Αξίζει να σημειωθεί ότι όταν ο άνθρωπος καλείται να αναγνωρίσει κάποιο πρόσωπο από μια συλλογή από φωτογραφίες, τα λάθη αναγνώρισης αυξάνονται όσο αυξάνεται ο αριθμός των φωτογραφιών. Συμπερασματικά οι εφαρμογές 4-7 απαιτούν ισχυρή αλληλεπίδραση μεταξύ των αλγορίθμων που χρησιμοποιούνται και αποτελεσμάτων από τους τομείς της Ψυχοφυσικής και της Νευροφυσιολογίας. Οι εφαρμογές 8 και 9 εμπλέκουν μετασχηματισμό της τρέχουσας εικόνας έτσι ώστε το εμφανιζόμενο πρόσωπο να μοιάζει με αυτό που αναμένεται μετά από την πάροδο κάποιου χρονικού διαστήματος ή με αυτό που θα έπρεπε να είναι. Οι εφαρμογές αυτές είναι ακόμη δυσκολότερες από τις εφαρμογές 4-6 δεδομένου ότι απαιτούν την ενσωμάτωση μηχανισμών εξομάλυνσης και πρόβλεψης στους αλγορίθμους. 4. ΠΡΟΒΛΗΜΑΤΑ ΔΥΝΑΜΙΚΗΣ ΤΑΥΤΙΣΗΣ Η εφαρμογή 3 καθώς και περιπτώσεις της εφαρμογής 2 υπάγονται στη δυναμική ταύτιση, δεδομένου ότι είναι διαθέσιμη μια ακολουθία βίντεο και όχι μεμονωμένες φωτογραφίες. Εικόνες προερχόμενες από βιντεοκάμερες τείνουν να έχουν χαμηλή ποιότητα. Επιπλέον σε εφαρμογές επισκόπησης πλήθους το φόντο είναι εξαιρετικά ανομοιογενές, πράγμα που καθιστά τη διαδικασία εντοπισμού και κατάτμησης του προσώπου πολύ δύσκολη. Από την άλλη πλευρά, η ύπαρξη κίνησης αποτελεί ένα πολύ χρήσιμο στοιχείο για την κατάτμηση προσώπων από κινούμενα άτομα. Ακόμη, με αλγόριθμους ανακατασκευής 3-Δ αντικείμενων, με βάση τη κίνηση, μπορεί να επιτευχθεί μερική ανακατασκευή του προσώπου και να αντιμετωπιστούν θέματα μεταμφίεσης σχετικά καλύτερα από ότι στη στατική ταύτιση. Ένας από τους 11 ισχυρότερους περιορισμούς στις εφαρμογές δυναμικής ταύτισης είναι η απαίτηση για εκτέλεση σε πραγματικό χρόνο. Πρέπει να τονιστεί ότι οι ευρέως διαφοροποιούμενοι περιορισμοί που τίθενται στις επιμέρους εφαρμογές καθιστούν αναγκαία τη χρήση διαφορετικών μεθόδων βαθμολόγησης για την αξιολόγηση των υπαρχόντων αλγορίθμων και συστημάτων. 5. ΤΑ ΒΑΣΙΚΑ ΥΠΟΠΡΟΒΛΗΜΑΤΑ ΣΤΗΝ ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΣΩΠΩΝ Πριν την ταυτοποίηση ενός προσώπου πρέπει πρώτα αυτό να εντοπιστεί. Η ανίχνευση και ο εντοπισμός προσώπων είναι το πρώτο στάδιο της αναγνώρισης προσώπων. Το επόμενο στάδιο είναι η ανάπτυξη μηχανισμών ταυτοποίησης του προσώπου με βάση γνωστές πληροφορίες. Ένα σχετιζόμενο πρόβλημα είναι η αποτελεσματική αναπαράσταση του προσώπου, π.χ. μέσω ενός δισδιάστατου πίνακα τιμών ή ενός συνόλου από χαρακτηριστικά. Προβλήματα αντίστοιχα με την αναγνώριση προσώπων είναι και αυτά της αναγνώρισης του φύλου ή της φυλής. Αναπαράσταση Προσώπων Η αναπαράσταση των προσώπων είναι ιδιαίτερα σημαντική στην αναγνώριση. Όλα τα γνωστά πρόσωπα πρέπει να αναπαριστώνται σε κάποια μορφή. Τα νεοεντοπισμένα πρόσωπα πρέπει επίσης να αναπαριστώνται σε κατάλληλη μορφή ώστε η διαδικασία ταύτισης να είναι αφενός εφικτή και αφετέρου αποτελεσματική. Ένα πρόσωπο είναι δύσκολο να αναπαρασταθεί πλήρως από τα μεμονωμένα χαρακτηριστικά του, π.χ. από το αν έχει μακριά μύτη, σκούρα μαλλιά και οβάλ σχήμα. Αυτός είναι και ο λόγος για τον οποίο οι αστυνομικές αρχές δημιουργούν σκίτσα με βάση τις περιγραφές των αυτόπτων μαρτύρων που περιγράφουν το πρόσωπο με βάση επιμέρους χαρακτηριστικά. Η αναπαράσταση των προσώπων πρέπει να είναι συμπαγής, αλλά χωρίς την απώλεια σημαντικής πληροφορίας. Για παράδειγμα, αναπαράσταση σε ανάλυση 512x512, με βάθος χρώματος 6 bpp, μπορεί να είναι επαρκής συγκρινόμενη με 8 bpp. Ομοίως φωτογραφίες με ανάλυση μικρότερη από 512x512 μπορεί να είναι ικανοποιητικές τόσο για τον εντοπισμό όσο και για την ταυτοποίηση. Ο τρόπος αναπαράστασης των προσώπων επηρεάζεται αλλά και επηρεάζει το σχήμα ταύτισης το οποίο χρησιμοποιείται για την αναγνώριση. Ανίχνευση και Εντοπισμός Προσώπων Σε πολλές περιπτώσεις οι συνθήκες κάτω από τις οποίες έχει ληφθεί η φωτογραφία είναι ελεγχόμενες, όπως π.χ. σε φωτογραφίσεις που πραγματοποιούνται από τις αστυνομικές αρχές. Ό εντοπισμός της ακριβούς θέσης του προσώπου στις φωτογραφίες αυτές είναι σχετικά εύκολος και σε αρκετές περιπτώσεις δεν είναι καν απαραίτητος. Στις περισσότερες περιπτώσεις εντούτοις, το εάν σε μια φωτογραφία υπάρχουν πρόσωπο, ή πρόσωπα, δεν είναι εκ των προτέρων γνωστό ­πολύ περισσότερο δε, δεν είναι γνωστή η ακριβής θέση του. Διάφοροι παράγοντες, όπως η παρουσία μαλλιών που καλύπτουν μέρος του προσώπου, η ύπαρξη γενειάδας, το βάψιμο, η μερική επικάλυψη από άλλα αντικείμενα κοκ, επηρεάζουν τη διαδικασία εντοπισμού του πρόσωπου σε μια εικόνα γιατί καλύπτουν μερικά από τα βασικά χαρακτηριστικά του. Ένας άλλος ουσιαστικός παράγοντας είναι η κλίμακα και η γωνία κλίσης του προσώπου στις φωτογραφίες. Το πρόβλημα της κλίμακας και του προσανατολισμού αποτρέπει τον εντοπισμό μέσω ενός απλού προτύπου 12 προσώπου. Τυπικά οι φωτογραφίες προσώπων λαμβάνονται, είτε κοιτάζοντας την κάμερα ­εμπρόσθια όψηείτε σε γωνία 90 μοιρών από αυτή ­πλάγια όψη (προφίλ). Ταυτοποίηση Προσώπων Το επόμενο στάδιο μετά τον εντοπισμό είναι η ταυτοποίηση. Τα γνωστά πρόσωπα και ενδεχομένως τα βασικά χαρακτηριστικά τους πρέπει να βρίσκονται αποθηκευμένα σε κάποια βάση δεδομένων. Ό στόχος είναι η ταύτιση του προσώπου της φωτογραφίας με κάποιο από τα αποθηκευμένα στη βάση δεδομένων. Δύο γενικές κατηγορίες ταύτισης υπάρχουν: η ολιστική και η βασισμένη στα χαρακτηριστικά. Σημειώνεται ότι τεχνικές που βασίζονται σε φωτογραφίες προφίλ χρησιμοποιούν εντελώς διαφορετικά χαρακτηριστικά από τις αντίστοιχες που βασίζονται σε εμπρόσθια όψη. Παρόλα αυτά, σε κάθε περίπτωση το κεντρικό πρόβλημα είναι η ταύτιση. Μερικές επιπλέον δυσκολίες πηγάζουν από την αλλαγή των προσώπων και των χαρακτηριστικών τους με την πάροδο του χρόνου (γήρανση). Ταξινόμηση με βάση τα φυσικά χαρακτηριστικά Άλλη μια διαδικασία την οποία οι άνθρωποι πραγματοποιούν χωρίς ιδιαίτερη προσπάθεια είναι ταξινομήσεις με βάση το φύλο, την ηλικία, τη φυλή και το αναμενόμενο επάγγελμα. Το πρόβλημα αυτό είναι ιδιαίτερα πολυσύνθετο και βασίζεται κατά μεγάλο μέρος στην εμπειρία. Η ταξινόμηση φύλου και φυλής έχει μελετηθεί από διάφορους ερευνητές και αποδεικνύεται ότι υπάρχουν χαρακτηριστικά του προσώπου με βάση τα οποία είναι εφικτή μια τέτοια κατηγοριοποίηση. 13 Κεφάλαιο A3 Η ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΣΩΠΟΥ ΑΠΟ ΤΟΝ ΑΝΘΡΩΠΟ Το ανθρώπινο σύστημα αναγνώρισης χρησιμοποιεί ένα ευρύ φάσμα από διεγέρσεις προερχόμενες από όλες σχεδόν τις αισθήσεις. Ένα σύστημα το οποίο μιμείται κάτι τέτοιο πρέπει να θεωρείται ουτοπία -τουλάχιστον σήμερα- επομένως αυτό που επιδιώκεται είναι η κατά το δυνατόν πλησιέστερη προσέγγιση του. Ενδιαφέρον παρουσιάζει και η διαδικασία με την οποία ο άνθρωπος αναγνωρίζει πρόσωπα σε εικόνες ή ακολουθίες βίντεο. Στη τελευταία περίπτωση ένα υπολογιστικό σύστημα μπορεί να πλεονεκτεί σε σχέση με το ανθρώπινο, υπό την έννοια ότι ο άνθρωπος μπορεί να αναγνωρίσει περιορισμένο αριθμό ατόμων και επιπλέον κουράζεται στην προσπάθεια αναγνώρισης προσώπων από μια βάση. 1. ΑΠΟΤΕΛΕΣΜΑΤΑ ΑΠΟ ΤΟΝ ΤΟΜΕΑ ΤΗΣ ΨΥΧΟΦΥΣΙΚΗΣ ΚΑΙ ΝΕΥΡΟΦΥΣΙΟΛΟΓΙΑΣ Η αναγνώριση προσώπου είναι μια τυποποιημένη διαδικασία. Στην άποψη αυτή συνηγορούν τα εξής: (α) Τα πρόσωπα είναι πιο εύκολα αναγνωρίσιμα, όταν παρουσιάζονται ανάποδα, σε σχέση με άλλα αντικείμενα, (β) ασθενείς που πάσχουν από Προσωπαγνωσία, δεν έχουν καμιά άλλη μορφή αμνησίας και μπορούν να αναγνωρίσουν ανθρώπους από τις φωνές, το ντύσιμο και το χρώμα μαλλιών, παρόλο που αντιλαμβάνονται τα μάτια, τη μύτη, το στόμα κοκ, δεν μπορούν να τα συνδυάσουν για σκοπούς αναγνώρισης, (γ) Τα νεογνά φαίνεται να έλκονται περισσότερο από πρόσωπα παρά από άλλα αντικείμενα. Η αντίληψη του προσώπου γίνεται ολιστικά ή με βάση μεμονωμένα χαρακτηριστικά; Οι μελέτες δείχνουν ότι αρχικά γίνεται μια χονδρική εκτίμηση με βάση όλο το πρόσωπο και στη συνέχεια λεπτομερέστερη βασισμένη σε επιμέρους χαρακτηριστικά. Όταν υπάρχουν προεξέχοντα χαρακτηριστικά (μεγάλα ή πετακτά αυτιά, μύτη με παράξενο σχήμα κλπ.) τότε η ανθρώπινη προσοχή επικεντρώνεται πολύ γρήγορα σε αυτά και η χονδρική εκτίμηση παραλείπεται Η σημαντικότητα των επιμέρους χαρακτηριστικών. Τα μαλλιά, τα μάτια, το περίγραμμα του προσώπου και το στόμα -όχι απαραίτητα με την παραπάνω σειράθεωρούνται τα πιο σημαντικά χαρακτηριστικά για σκοπούς αντίληψης και αναγνώρισης ενός προσώπου. Η μύτη παίζει σημαντικό ρόλο μόνο σε εικόνες προφίλ.Γενικότερα το άνω μέρος του προσώπου είναι περισσότερο σημαντικό από το κάτω. Τέλος τα ελκυστικά πρόσωπα παρουσιάζουν μεγαλύτερο βαθμό αναγνώρισης, στη συνέχεια ακολουθούν τα άσχημα, ενώ δυσκολότερα αναγνωρίζονται τα πρόσωπα με κοινά χαρακτηριστικά. Πρωτοτυπία Παράξενα πρόσωπα αναγνωρίζονται ευκολότερα, αν και σε μια απόφαση κατά πόσο ένα αντικείμενο είναι πρόσωπο ή όχι, ένα τυπικό πρόσωπο αναγνωρίζεται γρηγορότερα από κάποιο παράξενο. 14 Ο ρόλος των χωρικών συχνοτήτων Αρχικά είχε προταθεί ότι οι χαμηλές χωρικές συχνότητες παίζουν ένα πολύ σημαντικό ρόλο στην αναγνώριση προσώπου. Στην πραγματικότητα κάθε περιοχή συχνοτήτων έχει ξεχωριστή σημασία, π.χ. για διαχωρισμό φύλου αρκούν οι χαμηλές συχνότητες, ενώ αντίθετα για σκοπούς αναγνώρισης απαιτούνται και οι υψηλές συχνότητες. Ανάπτυξη του ανθρώπινου συστήματος αναγνώρισης κατά τη διάρκεια της παιδικής ηλικίας Παιδιά κάτω των δέκα χρόνων κωδικοποιούν πρόσωπα με βάση μεμονωμένα χαρακτηριστικά. Η αναγνώριση στηρίζεται σε τέτοια χαρακτηριστικά καθώς και σε αντικείμενα που φέρουν μαζί τους οι άνθρωποι όπως γυαλιά, καπέλο κλπ. Μετά την ηλικία των δέκα χρόνων η ανάλυση μεταβάλλεται από μεμονωμένα χαρακτηριστικά σε ολιστική. Ο ρόλος του φύλου-φυλής Άνθρωποι αναγνωρίζουν άτομα που ανήκουν στη δική τους φυλή ευκολότερα από αυτά που ανήκουν σε άλλη. Αυτό μπορεί να οφείλεται στη δημιουργία και κωδικοποίηση ενός «μέσου» προσώπου με «μέσες» ιδιότητες με βάση την καθημερινή εμπειρία. Αποδεικνύεται επίσης ότι τα πρόσωπα γυναικών είναι περισσότερο ετερογενή από τα αντίστοιχα των ανδρών. Συμπεράσματα Για τους μηχανικούς, οι οποίοι ενδιαφέρονται να σχεδιάσουν και να υλοποιήσουν αλγορίθμους για αναγνώριση προσώπων, πληθώρα εργασιών από τους τομείς της Ψυχοφυσικής και Νευροφυσιολογίας μπορούν να χρησιμεύσουν ως οδηγοί. Ένα κλασσικό παράδειγμα το οποίο πρέπει να ληφθεί υπόψη είναι η χρήση τόσο ολιστικών χαρακτηριστικών όσο και χαρακτηριστικών προσώπου για την αναγνώριση. Όσον αφορά στα χαρακτηριστικά προσώπου, μερικά από αυτά όπως τα μαλλιά, τα μάτια και το στόμα είναι σημαντικότερα από άλλα όπως η μύτη. Αυτό βέβαια είναι αληθές μόνο για εικόνες εμπρόσθιας όψης δεδομένου ότι για εικόνες προφίλ η μύτη αποτελεί ένα πολύ σημαντικό χαρακτηριστικό. Επίσης εργασίες σχετικές με την ιδιαιτερότητα των προσώπων με παράξενα χαρακτηριστικά καθώς και αντίστοιχες που αφορούν καρικατούρες μπορούν να φανούν χρήσιμες για την προσθήκη χαρακτηριστικών τα οποία υποβοηθούν τη διαδικασία της αναγνώρισης. Η σημασία της χωρικής ανάλυσης θέτει ένα καλό υπόβαθρο για τη χρήση πολυδιακριτικών μεθόδων (multiresolution) για την αντιμετώπιση επιμέρους προβλημάτων που αφορούν την αναγνώριση προσώπων. Ζητήματα όπως ο ρόλος του γένους και της φυλής, καθώς και πώς τα νήπια αναγνωρίζουν τα πρόσωπα, είναι ιδιαίτερα σημαντικά σε επιμέρους εφαρμογές, όπως η ανακατασκευή προσώπου με βάση μαρτυρίες, η ταυτοποίηση από ειδικούς και η επισκόπηση ηλεκτρονικού βιβλίου από mug shot φωτογραφίες. Τέλος η οργάνωση της μνήμης για την αποθήκευση προσώπων μπορεί να χρησιμεύσει στην αποδοτική αποθήκευση mug shot φωτογραφιών σε βάσεις δεδομένων. Μεγάλο ενδιαφέρον από τους σχεδιαστές συστημάτων αναγνώρισης προσώπων έχει συγκεντρώσει η γνώση της λειτουργίας του ανθρώπινου οπτικού συστήματος και η μεταφορά των μηχανισμών του σε πρακτικά συστήματα. Πρέπει να σημειωθεί πάντως ότι η χρήση των εργασιών από τους τομείς της Ψυχοφυσικής και 15 Νευροφυσιολογίας πρέπει να γίνεται μέχρι τον βαθμό εκείνο που αυτές είναι πρακτικά εφαρμόσιμες, διαφορετικά είναι δυνατό να μας οδηγήσουν σε αποπροσανατολισμό. 2. ΟΙ ΔΥΝΑΤΟΤΗΤΕΣ ΤΟΥ ΟΠΤΙΚΟΥ ΣΥΣΤΗΜΑΤΟΣ ΤΩΝ ΑΝΘΡΩΠΩΝ Οι διεργασίες που πραγματοποιεί το ανθρώπινο οπτικό σύστημα καθώς και οι δυνατότητές του, όσον αφορά στην αναγνώριση προσώπων, καλό είναι να μελετηθούν ώστε να βοηθήσουν, όπου αυτό είναι εφικτό, στη σχεδίαση ενός αυτοματοποιημένου συστήματος. Ούτως ή άλλως το ανθρώπινο οπτικό σύστημα αποτελεί το καλύτερο σύστημα αναγνώρισης προσώπων που γνωρίζουμε. Μπορεί να μην είναι εφικτό να υλοποιηθούν όλες οι δυνατότητές του, και σε μερικές περιπτώσεις μπορεί αυτό να μην είναι καν επιθυμητό, αλλά ως πηγή αναφοράς η αξία του είναι αναμφισβήτητη. Αναπαράσταση Ο τρόπος αναπαράστασης και κωδικοποίησης των προσώπων από τον άνθρωπο δεν είναι αποσαφηνισμένος. Υπάρχουν κάποιες ενδείξεις ότι η κωδικοποίηση γίνεται είτε με τη μορφή πρωτογενούς σκαριφήματος, είτε με πλήρη απομνημόνευση. Αυτό που μοιάζει περισσότερο σίγουρο, είναι ότι η εσωτερική αναπαράσταση οικείων προσώπων γίνεται με διαφορετικό τρόπο από την αντίστοιχη αγνώστων. Δεν υπάρχει καμία τεκμηριωμένη άποψη για την υφή της εσωτερικής αναπαράστασης ούτε για το μέγεθος που αυτή καταλαμβάνει. Εντοπισμός και κατάτμηση προσώπου Οι άνθρωποι ανιχνεύουν, ακόμη και μη οικεία πρόσωπα σε μια σκηνή με τυπική παρατήρηση και χωρίς κάποια ιδιαίτερη προσπάθεια. Το γεγονός αυτό υποδηλώνει, είτε ότι υπάρχουν ειδικές μονάδες στον εγκέφαλο για το σκοπό αυτό, πράγμα για το οποίο πολύ λίγες ενδείξεις υπάρχουν, είτε ότι η ανίχνευση προσώπων πραγματοποιείται πολύ αποτελεσματικά μέσω μαζικής παράλληλης επεξεργασίας. Επίσης το πρόσωπο γίνεται αντιληπτό ως ολότητα και όχι ως ένα σύνολο από χαρακτηριστικά. Για παράδειγμα, οι άνθρωποι αναγνωρίζουν χωρίς δυσκολία μερικώς επικαλυπτόμενα πρόσωπα -το σύστημα αντίληψης μας συμπληρώνει το υπολειπόμενο τμήμα. Επιπλέον το ανθρώπινο οπτικό σύστημα είναι πολύ εύρωστο όσον αφορά στην ανίχνευση προσώπων. Τα πρόσωπα εντοπίζονται με μηδενική προσπάθεια κάτω από ποικίλες συνθήκες, όπως κακός φωτισμός, μεγάλη απόσταση και μερική επικάλυψη. Το ανθρώπινο σύστημα αναγνώρισης προσώπων έχει επίσης τη τάση να αναγνωρίζει αντικείμενα ως πρόσωπα, ενώ αν κάποιο αντικείμενο χαρακτηριστεί ως πρόσωπο, είναι πολύ δύσκολο σε κάποια άλλη στιγμή να θεωρηθεί ως κάτι άλλο. Πολλές φορές η ανίχνευση προσώπων σε μια σκηνή είναι ευκολότερη όταν κοιτάμε από κάποια απόσταση, ή από πλάγια. Η διαδικασία αυτή στην ουσία δημιουργεί θόλωμα στη σκηνή -φιλτράρισμα των υψηλών χωρικών συχνοτήτων- και κάποια βασικά χαρακτηριστικά του προσώπου, όπως οι κόρες των ματιών και οι βλεφαρίδες, γίνονται λιγότερο έντονα. Στον εντοπισμό του προσώπου η παρουσία των βασικών χαρακτηριστικών και η χωροταξική τους διάταξη είναι σημαντικότερη από την λεπτομερή αναπαράσταση τους. Μια βασική παράμετρος στην ανίχνευση προσώπων είναι η ελάχιστη δυνατή ανάλυση που πρέπει να έχει κάποιο αντικείμενο ώστε να αναγνωριστεί ως πρόσωπο. Στην Εικόνα Α3.1 φαίνεται ένα πρόσωπο σε 16 αναλύσεις (α) 64x88 (β) 32x44 (γ) 16x22. Το πρόσωπο είναι εύκολα ανιχνεύσιμο σε ανάλυση 32x44 ενώ στη περίπτωση της ανάλυσης 16x22 είναι ακόμη διακριτό, όταν το κοιτάξουμε από απόσταση. Ανάλυση 16x16 πιστεύεται ότι είναι η ελάχιστη για ανίχνευση προσώπων από το ανθρώπινο οπτικό σύστημα. Σημειώνετε ότι η ανάλυση αυτή αφορά στην ανίχνευση και όχι στην αναγνώριση. (α) (β) (γ) (δ) Εικόνα A3.1: Ανθρώπινο πρόσωπο σε ανάλυση (α) 64x88 (β) 32x44 (γ) 16x22 (δ) 64x88 και κβαντισμό χρώματος 1 bpp Ένα αντίστοιχο θέμα είναι ο απαιτούμενος κβαντισμός χρώματος σε μονόχρωμες εικόνες. Όπως φαίνεται στην Εικόνα Α3.1(δ), ακόμη και με κβαντισμό 1bpp, το πρόσωπο είναι άμεσα ανιχνεύσιμο υπό την προϋπόθεση ότι η χωρική ανάλυση είναι επαρκής. Πειραματικά αποτελέσματα δείχνουν ότι χωρική ανάλυση 32x32 με κβαντισμό σε 4 bpp είναι ικανοποιητική για την ανίχνευση προσώπου από τον άνθρωπο. Ταυτοποίηση Στην καθημερινή μας ζωή ταυτοποίηση ονομάζουμε την αντιστοίχιση ενός προσώπου με κάποιο όνομα. Στο κόσμο των υπολογιστών σωστή ταυτοποίηση σημαίνει ότι διαφορετικές εικόνες του ιδίου προσώπου πρέπει να αναγνωρίζονται ως μία. Υπολογίζεται ότι κάθε άνθρωπος γνωρίζει προσωπικά 700 περίπου πρόσωπα και μερικές χιλιάδες ακόμη εξ όψεως. Κατά τη διάρκεια της ζωής μας ερχόμαστε σε οπτική επαφή με μερικές δεκάδες χιλιάδες πρόσωπα. Η ταυτοποίηση οικείων και διασήμων προσώπων από τον άνθρωπο πραγματοποιείται σε μηδενικό χρόνο. Αντίθετα η ταυτοποίηση μη οικείων προσώπων ή προσώπων τα οποία παρουσιάζονται σε ασυνήθιστες οριοθετήσεις -π.χ. ανάποδα- παίρνει πολύ μεγαλύτερο χρόνο. Το ανθρώπινο σύστημα ταυτοποίησης προσώπων είναι επίσης πολύ εύρωστο. Η διαδικασία ταυτοποίησης πραγματοποιείται αποτελεσματικά κάτω από ποικίλες συνθήκες φωτισμού, μετασχηματισμών και επικάλυψης του προσώπου. Υπάρχουν ενδείξεις ότι για κάθε οικείο πρόσωπο υπάρχει μια μονάδα στην εγκέφαλο η οποία το εγγράφει κάτω από όλες τις συνθήκες. Περισσότερο οικεία πρόσωπα απαιτούν λιγότερη πληροφορία για ταυτοποίηση συγκρινόμενα με λιγότερο οικεία. Κατά συνέπεια οικεία πρόσωπα δυσκολότερα ταυτοποιούνται λανθασμένα. Ο Bartlett [2] θεωρεί ότι όλα τα άγνωστα πρόσωπα έχουν τον ίδιο βαθμό οικειότητας (μηδέν) αλλά νέα πρόσωπα με τυπικά χαρακτηριστικά δίνουν μεγαλύτερη αίσθηση οικειότητας από παράξενα πρόσωπα. Παρόλα αυτά μετά από την πρώτη επαφή με παράξενα πρόσωπα, ο βαθμός αύξησης της οικειότητας για αυτά είναι μεγαλύτερος από τα αντίστοιχα με τυπικά χαρακτηριστικά. Σε αντίθεση με την ικανότητα μας να ανιχνεύουμε και να ταυτοποιούμε πρόσωπα με μεγάλη ευκολία, τα περιγράφουμε πολύ δυσκολότερα. Η συνηθέστερη μέθοδος περιγραφής προσώπων είναι με απαρίθμηση 17 των επιμέρους χαρακτηριστικών: καστανά μαλλιά, πράσινα μάτια, επίπεδη μύτη κλπ. Τα επιμέρους χαρακτηριστικά του προσώπου, καθώς και η χωροταξική τοποθέτηση τους, είναι πολύ σημαντικά στη διαδικασία της ταυτοποίησης. Τα σημαντικότερα από αυτά είναι τα μάτια, η μύτη, τα χείλη, τα αυτιά και τα μαλλιά. Σε καμία πάντως περίπτωση το πρόσωπο δεν ταυτοποιείται ως ένα σύνολο από χαρακτηριστικά. Έχει προταθεί [3] ότι η σημασία των χαρακτηριστικών του προσώπου στη διαδικασία της ταυτοποίησης μειώνεται από πάνω προς τα κάτω. Θα μπορούσε επομένως κάποιος να υποθέσει ότι τα μαλλιά και τα μάτια είναι πιο σημαντικά από το πηγούνι και τα χείλη. Παρόλα αυτά πρόσωπα με παράξενο πηγούνι ή χείλη ταυτοποιούνται πάντοτε ευκολότερα. Δεδομένου ότι τα χαρακτηριστικά είναι πολύ σημαντικά στη διαδικασία της ταυτοποίησης το ερώτημα είναι «Πόσα χαρακτηριστικά απαιτούνται για το διαχωρισμό διαφορετικών προσώπων και την αποτελεσματική ταυτοποίηση τους». Έχει εκτιμηθεί [3] ότι ο αριθμός των απαιτούμενων χαρακτηριστικών αυξάνει λογαριθμικά με τον αριθμό των διαφορετικών προσώπων. Ένας άνθρωπος που μπορεί να ταυτοποιήσει 1000 διαφορετικά πρόσωπα χρειάζεται περίπου 10 χαρακτηριστικά, αριθμός ιδιαίτερα μικρός. Βέβαια, δεδομένου ότι κανείς δεν μπορεί να προσδιορίσει επακριβώς ποια είναι αυτά τα χαρακτηριστικά, ένα αυτόματο σύστημα αναγνώρισης προσώπων θα χρειαζόταν σίγουρα πολύ περισσότερα. Ταξινόμηση με βάση τα φυσικά χαρακτηριστικά Τυπικά όταν βλέπουμε κάποιο πρόσωπο το συσχετίζουμε με ένα γενικό χαρακτηρισμό όπως νέος, άνδρας, παιδί. Οι άνθρωποι επικεντρώνονται σε τρεις κατηγορίες χαρακτηρισμών οι οποίες σχετίζονται με το φύλο: άρρεν ή θήλυ, την ηλικία: παιδί, νέος, μεσήλικας, ηλικιωμένος και τη φυλή: ινδοευρωπαίος, ασιάτης, νέγρος. Από τις τρεις προηγούμενες ταξινομήσεις πραγματοποιούμε την πρώτη με χαρακτηριστική ευκολία ενώ αντίθετα οι άλλες είναι περισσότερο επιρρεπείς σε σφάλματα δεδομένου ότι απαιτούν μεγαλύτερη εμπειρία και γνώση. Η διαδικασία της ταξινόμησης με βάση τα φυσικά χαρακτηριστικά πιστεύεται ότι είναι μια ανωτέρου επιπέδου διαδικασία και πραγματοποιείται μετά τη ταυτοποίηση του προσώπου. Η φύση της διαδικασίας αυτής δεν είναι μέχρι τώρα πλήρως κατανοητή. 18 Κεφάλαιο A4 ΤΕΧΝΙΚΕΣ ΑΥΤΟΜΑΤΗΣ ΑΝΑΓΝΩΡΙΣΗΣ ΠΡΟΣΩΠΩΝ Η διαδικασία της αναγνώρισης μπορεί να διαιρεθεί σε τρία διαδοχικά στάδια. Σε μια δοσμένη εικόνα ερευνάται, αν αυτή απεικονίζει κάποιο πρόσωπο, το οποίο και εξάγεται από τον περιβάλλοντα χώρο. Στη συνέχεια έχουμε αναπαράσταση του προσώπου με την εξαγωγή διαφόρων χαρακτηριστικών ώστε να μειωθεί η διάσταση του προβλήματος. Τέλος ακολουθεί η διαδικασία της ταυτοποίησης του προσώπου με κάποιο υπάρχον στη βάση ή η προσθήκη του σε αυτήν. Στο κεφάλαιο αυτό πραγματοποιείται μια ανασκόπηση των τεχνικών που έχουν εμφανιστεί στη βιβλιογραφία σχετικά με τα τρία επιμέρους προβλήματα της αναγνώρισης προσώπων. Σε κάποιες περιπτώσεις δίνονται και μερικές προσομοιώσεις, οι οποίες πραγματοποιήθηκαν από τον συγγραφέα της διατριβής, για βελτίωση της κατανόησης των αλγορίθμων αλλά και για να δοθεί η ευκαιρία να τονιστούν και να σχολιαστούν κάποια κρίσιμα ζητήματα. 1. ΕΙΣΑΓΩΓΗ Η έρευνα στην αναγνώριση προσώπων ξεκίνησε από τα μέσα του περασμένου αιώνα από τον Francis Galton. Πρέπει να τονιστεί ότι στη γενική περίπτωση κανένα από τα επιμέρους προβλήματα ­βλέπε Κεφάλαιο Α2- που σχετίζονται με την αναγνώριση προσώπων δεν έχει λυθεί και πρακτικά μόνο τα προβλήματα της ανίχνευσης και της ταυτοποίησης έχουν προσελκύσει ουσιαστικό ενδιαφέρον από τους ερευνητές. Στη περίπτωση της ταυτοποίησης η θέση του προσώπου είναι εκ των προτέρων γνωστή ή μπορεί να εκτιμηθεί με ευριστικό τρόπο. Σε πολλές περιπτώσεις ισχυρές παραδοχές τίθενται για να διευκολύνουν το πρόβλημα της ταυτοποίησης: (1). (2). (3). (4). Το απεικονιζόμενο πρόσωπο είναι σε εμπρόσθια όψη ή σε πλάγια όψη (προφίλ). Με την παραδοχή αυτή είναι ευκολότερο να εντοπιστούν τα βασικά χαρακτηριστικά του. Το πρόσωπο έχει μηδενική ή πολύ μικρή κλίση (περί τον άξονα z που περνά από το κέντρο της φωτογραφίας - βλ. Σχήμα A4.1). Δεν υπάρχει επικάλυψη τμήματος του προσώπου. Τα μαλλιά δεν επικαλύπτουν τμήμα του προσώπου, το πρόσωπο δεν φορά σκούρα γυαλιά και δεν υπάρχουν ουλές σε αυτό. Πρέπει να αναφερθεί ότι οι περισσότερες από τις βάσεις δεδομένων που έχουν χρησιμοποιηθεί αποτελούνται από λευκούς άνδρες και περιλαμβάνουν σχετικά μικρό αριθμό φωτογραφιών. 19 y x z Σχήμα A4.1: Σύστημα συντεταγμένων με βάση τη φωτογραφία Αναφορά Baron Buhr Campell Craw et al Goldstein et al Harmon et al Harmon et al Kaufman Nixon Petajan Riccia Wong Wu and Huang Olivetti R.L. Πλήθος Φωτογραφιών 150 100 50 1000 255 124 130 120 6 506 6 18 400 Ανάλυση 512x480 512x512 256x256 128x128 240x356 128x128 244x248 256x256 112x92 Κβαντισμός Χρώματος 6 bpp 8 bpp 6 bpp 1 bpp 8 bpp 8 bpp 8 bpp Σχόλια Η ανάλυση μειώθηκε σε 128x120 _ _ Ο έλεγχος έγινε σε μόνο 20 πρόσωπα Προφίλ τα οποία σχεδιάστηκαν από ζωγράφους 97 άνδρες +27 γυναίκες 81 άνδρες +49 γυναίκες Για εντοπισμό χειλιών μόνο Τα δεδομένα εισάγονται από τον χρήστη 40 πρόσωπα από 10 φωτογραφίες το καθένα Πίνακας A4.1: Δεδομένα που χρησιμοποιήθηκαν σε διάφορες μελέτες αναγνώρισης προσώπων Στον Πίνακα Α4.1 δίνονται κάποια στοιχεία για τις βάσεις εικόνων και τη μορφή των δεδομένων που χρησιμοποιήθηκαν, σε διάφορες εργασίες. Όπου λείπουν στοιχεία αυτά δεν αναφέρονται στη συγκεκριμένη 20 εργασία. Σε πολλές περιπτώσεις τα δεδομένα εισόδου στο σύστημα δημιουργήθηκαν χειρωνακτικά (manually). 2. ΑΝΑΠΑΡΑΣΤΑΣΗ Δύο είδη αναπαραστάσεων χρησιμοποιούνται στη αναγνώριση και ταυτοποίηση προσώπων: Δισδιάστατοι πίνακες τιμών και διανύσματα χαρακτηριστικών (τα χαρακτηριστικά εδώ δεν αναφέρονται στα χαρακτηριστικά του προσώπου αλλά σε κάποιες τιμές οι οποίες περιγράφουν με αποτελεσματικό τρόπο τη δομή του). 2.1 Αναπαράσταση προσώπων - Εξαγωγή χαρακτηριστικών Αποδοτική αναπαράσταση ενός προσώπου θεωρείται κάθε αναπαράσταση η οποία μειώνει τη διάσταση της εικόνας διατηρώντας όσο το δυνατό μεγαλύτερο όγκο πληροφορίας. Σε πολλές από τις αρχικές μελέτες η αναπαράσταση των προσώπων γινόταν με χρήση γεωμετρικών χαρακτηριστικών, όπως αποστάσεων, γωνιών και λόγων αποστάσεων μεταξύ βασικών σημείων του προσώπου. Τέτοια σημεία έπρεπε να μπορούν να εντοπίζονται εύκολα και με ακρίβεια. Μια τέτοια αντιμετώπιση δε λαμβάνει υπόψη πληροφορία από την υφή του προσώπου, γεγονός που οδήγησε στην επέκταση του συνόλου των χρησιμοποιούμενων χαρακτηριστικών συμπεριλαμβάνοντας σε αυτά και πληροφορία υφής, είτε με άμεση μορφή (πίνακες φωτεινότητας διαφόρων περιοχών), είτε με χρήση στατιστικών μεγεθών (moment invariants), είτε με τη βοήθεια κάποιων μετασχηματισμών (Fourier descriptors). Αξίζει να σημειωθεί ότι τελικά με τον όρο χαρακτηριστικά αναφερόμαστε σε κάθε αναπαράσταση του προσώπου σε μικρότερη διάσταση, είτε αυτή γίνεται με γεωμετρικά μεγέθη, είτε με πίνακες, είτε με στατιστικά μεγέθη. Με αυτό υπόψη μπορούμε να διακρίνουμε τέσσερις κατηγορίες [7]: (α) Οπτικά χαρακτηριστικά. Στη κατηγορία αυτή περιλαμβάνονται τα γεωμετρικά μεγέθη, οι πίνακες περιγραφής της υφής περιοχών, οι ακμές κοκ.. Η εξαγωγή τέτοιων χαρακτηριστικών βασίζεται σε παραδοσιακές τεχνικές της επεξεργασίας εικόνας όπως το χωρικό φιλτράρισμα, η ταύτιση με πρότυπο, τα ενεργά περιγράμματα ­active contoursκοκ. Περισσότερα στοιχεία για το θέμα αυτό παρουσιάζονται στο Κεφάλαιο Β1. Στον Πίνακα A4.2 παρουσιάζονται τέτοια χαρακτηριστικά, τα περισσότερα από τα οποία έχουν χρησιμοποιηθεί κατά κόρον σε παλαιότερες μελέτες. Τονίζεται πάντως ότι πολλά από αυτά χρησιμοποιήθηκαν σε μελέτες στις οποίες η ταύτιση πραγματοποιείται από ανθρώπους και όχι από υπολογιστές. 21 Κατηγορία Συνολικά Μάτια Χαρακτηριστικά Ύψος, περίγραμμα, εμβαδόν, κέντρο βάρους Σχήμα, χρώμα, εμβαδόν, άνοιγμα, κέντρο, φωτεινότητα γύρω από την ίριδα, D(άνω βλέφαρο, κάτω βλέφαρο), D(εσωτερική γωνία ματιού, εξωτερική γωνία ματιού), D(κέντρο αριστερού ματιού, κέντρο δεξιού ματιού), D(εξωτερική γωνία αριστερού ματιού, εξωτερική γωνία δεξιού ματιού) Βλέφαρα Φρύδια Χείλη Στόμα Μύτη Αυτιά Μαλλιά Μάγουλα Αποστάσεις Εμβαδόν, απόσταση από την καμπύλη του ματιού Πάχος, D(μάτι, φρύδι) Πάχος, σχήμα, πρότυπο, πλάτος Πρότυπο, πλάτος, μήκος, εμβαδόν, άνοιγμα Πρότυπο, σχήμα, πλάτος, μήκος, εμβαδόν ρουθουνιών Μήκος, σχήμα, εμβαδόν Χρώμα, υφή, περιοχή κάλυψης προσώπου, μήκος Φωτεινότητα, υφή Πλάτος προσώπου στο ύψος των ματιών, D(πηγούνι, γραμμή ματιών), D(πηγούνι, κέντρο χειλιών), D(μάτια, γραμμή μαλλιών), D(μάτια, κέντρο μύτης), D(κορυφή πηγουνιού, κέντρο προσώπου), D(αριστερή ακμή προσώπου, κέντρο μύτης), D(δεξιά ακμή προσώπου, κέντρο μύτης), D(εσωτερική κόχη ματιού, κέντρο προσώπου), D(κέντρο ματιού, κέντρο φρυδιού), D(κέντρο προσώπου, κέντρο φρυδιών), D(εσωτερική κόχη ματιού, κόχη στόματος), D(κέντρου ματιού, κέντρο στόματος), D(κορυφή μύτης, κέντρο στόματος) Εμβαδά Α(εσωτερικές κόχες ματιών, κέντρο στόματος), Α(κέντρα φρυδιών, κέντρο στόματος), Α(κέντρα ματιών, κέντρο προσώπου) Λόγοι D(κέντρο προσώπου, άνοιγμα στόματος)/ D(πηγούνι, άνοιγμα στόματος) D(πηγούνι, άνοιγμα στόματος)/ D(κορυφή μύτης, άνοιγμα στόματος) Άλλα Περίγραμμα πηγουνιού, περίγραμμα μετώπου, μέγεθος μετώπου Πίνακας A4.2: Χαρακτηριστικά που χρησιμοποιήθηκαν για τη διαδικασία σε μελέτες αναγνώρισης προσώπων. D(x,y)= Ευκλείδεια απόσταση των χαρακτηριστικών x και y 22 (β) Στατιστικά Χαρακτηριστικά Τέτοια χαρακτηριστικά είναι το ιστόγραμμα ολόκληρης της εικόνας ή περιοχών αυτής και οι ολοκληρωματικές προβολές εικόνων ακμών στον κάθετο και οριζόντιο άξονα. Έστω για παράδειγμα η υποεικόνα Ι(x,y) ορισμένη στη περιοχή [ x1 , x 2 ] ΄ [ y1 , y 2 ] . Οι ολοκληρωματικές προβολές κατά τον κάθετο και οριζόντιο άξονα δίνονται από τις σχέσεις: V ( x) = y2 x2 y = y1 I ( x, y ) , H ( y ) = x = x1 I ( x, y ) (Α4.1) Σχήμα A4.2: Ολοκληρωματικές προβολές Εξαγωγή στατιστικών χαρακτηριστικών από περιοχές του προσώπου γίνεται επίσης με χρήση κεντρικών ροπών (central moments) και moment invariants. Τα moment invariants είναι γραμμικοί συνδυασμοί κανονικοποιημένων κεντρικών ροπών και έχουν το σημαντικό χαρακτηριστικό της αναισθησίας ως προς τη θέση, προσανατολισμό και αλλαγή κλίμακας [8]. (γ) Χαρακτηριστικά συντελεστών μετασχηματισμού Η χρήση μετασχηματισμών όπως Fourier, Hadamard για περιγραφή ορίων περιοχών είναι αρκετά διαδεδομένη. Οι περιγραφείς Fourier και οι υπογραφές (signatures) είναι επίσης δύο τεχνικές που χρησιμοποιούνται ευρέως. Οι συντελεστές των μετασχηματισμών λαμβάνονται ως χαρακτηριστικά περιγραφής των επιμέρους περιοχών της εικόνας. (δ) Αλγεβρικά Χαρακτηριστικά Τα αλγεβρικά χαρακτηριστικά αναπαριστούν εσωτερικές ιδιότητες της εικόνας η οποία θεωρείται δισδιάστατος πίνακας. Η τεχνική εξαγωγής τέτοιων χαρακτηριστικών βασίζεται στην αποσύνθεση πινάκων. Οι πιο διαδεδομένες τεχνικές είναι ο μετασχηματισμός Karhunen Loeve -KL και η SVD -Singular Value Decomposition. Στο μετασχηματισμό ΚL κάθε εικόνα αναπτύσσεται με βάση τα ιδιοδιανύσματα του πίνακα συμμεταβλητότητας ο οποίος εκτιμάται πάνω σε ένα σύνολο από εικόνες προσώπων ­βλέπε Σχήμα Α4.3. Οι συντελεστές της ανάπτυξης αυτής αποτελούν τα αλγεβρικά χαρακτηριστικά με βάση τα οποία αναπαρίσταται η εικόνα. Περισσότερα για τον μετασχηματισμό ΚL δίνονται στο Κεφάλαιο Γ1. Η τεχνική SVD αναλύεται στα Κεφάλαια Γ4 και Γ5. 23 = 1330΄ + 324΄ + 216΄ .... - 11΄ + 11΄ - 7΄ Σχήμα A4.3: Αναπαράσταση προσώπου ως άθροισμα ιδιοδιανυσμάτων 2.2 Αναπαράσταση προσώπων με χρήση των τιμών της κλίμακας του γκρι Η απλούστερη αναπαράσταση της φωτογραφίας ενός προσώπου είναι ο πίνακας με τις τιμές των στοιχείων της. Προφανώς μια τέτοια αναπαράσταση δεν είναι ιδιαίτερα συμπαγής αλλά είναι επιθυμητή όταν ο βασικός στόχος είναι η ευρωστία του συστήματος. Σε συστήματα τα οποία χρησιμοποιούν άλλα χαρακτηριστικά για τη περιγραφή των προσώπων, αποθηκεύεται επίσης ο πίνακας με τις gray scale τιμές, έστω και αν δεν χρησιμοποιείται. Σε μεγάλες βάσεις δεδομένων με πολλές εικόνες, η αναπαράσταση με gray scale τιμές δεν είναι αποδοτική. Παρόλα αυτά, με δεδομένο ότι αναπαράσταση σε ανάλυση 32x32 και κβαντισμό 4 bpp είναι ικανοποιητική τόσο για την ανίχνευση όσο και την ταυτοποίηση, πολλές φορές οι πίνακες με τις gray scale τιμές υποδειγματοληπτούνται στη παραπάνω ανάλυση, επιτρέποντας με τον τρόπο αυτό αποδοτικότερη εφαρμογή των αλγορίθμων. Ο ρόλος της χωρικής ανάλυσης σε διαδικασίες ταύτισης με βάση τις gray scale τιμές Ο Πίνακας Α4.3 δείχνει πειραματικά αποτελέσματα για τη διαδικασία αναγνώρισης με χρήση διαφόρων αναλύσεων και πέντε διαφορετικών μετρικών. Συγκεκριμένα έστω R1 και R2 δύο δισδιάστατοι πίνακες διάστασης kl που αντιστοιχούν στις gray scale τιμές δύο εικόνων. Ορίζουμε της παρακάτω μετρικές: M 1 = max{SVD{ R1 R2 }} mean( R1) mean( R 2) =>μέγιστη ιδιοτιμή του πίνακα των απόλυτων διαφορών μεταξύ R1 και R2 M2= 1 k l R1 R2 diag{ mean( R1) mean( R 2) T R1 R2 } => η Frobenius νόρμα του mean( R1) mean( R 2) πίνακα των απόλυτων διαφορών μεταξύ R1 και R2 οι οποίοι έχουν διαιρεθεί με τη μέση τιμή τους. M3 = mean(R1) - mean( R2) R1 R2 =>άθροισμα των απόλυτων διαφορών -pixel προς pixel- των πινάκων R1 και R2 24 M4 = diag{ R1 - R2 T R1 - R 2 } => η Frobenius νόρμα του πίνακα των απόλυτων διαφορών μεταξύ R1 και R2 M 5 = corr( R1, R 2) => η συσχέτιση των πινάκων R1 και R2 Η βάση δεδομένων που χρησιμοποιήθηκε είναι της Olivetti Research Laboratory (ORL) η οποία είναι μια από τις πλέον χρησιμοποιούμενες και συχνά χρησιμοποιείται ως βάση σύγκρισης διαφορετικών αλγορίθμων. Οι συγκρίσεις πραγματοποιήθηκαν με βάση τους πίνακες των gray scale τιμών και σε όλες τις περιπτώσεις ο κβαντισμός ήταν 8 bpp. Επιτυχής θεωρείται η αναγνώριση αν η προς έλεγχο φωτογραφία και η πλησιέστερη προς αυτήν αποθηκευμένη ανήκουν στο ίδιο πρόσωπο. Από τα αποτελέσματα προκύπτουν μερικά σημαντικά συμπεράσματα: (1) Ακόμα και σε ανάλυση 28x23 η αναγνώριση είναι αποτελεσματική. Σημειώνεται πολύ μικρή μείωση στο βαθμό επιτυχίας του συστήματος -σε σχέση με τη μέγιστη ανάλυση. (2) Η μέγιστη ανάλυση δεν δίνει υποχρεωτικά και τα καλύτερα αποτελέσματα σε όλες τις μετρικές. Αυτό είναι σύμφωνο και προς την ολοκληρωτική -και όχι διαφορική- συμπεριφορά του ματιού. (3) Ο Μέσος Χρόνος Αναγνώρισης (ΜΧΑ) είναι 1.51, 3.81 και 19.82 sec αντίστοιχα για τις τρεις διαφορετικές αναλύσεις και για τις πέντε μετρικές συνολικά και αναφέρεται σε βάση αποτελούμενη από 200 φωτογραφίες. (4) Σχολιασμός της αποδοτικότητας των μετρικών γίνεται σε επόμενη παράγραφο. Μετρική Αποτυχημένες Αναγνωρίσεις ΜΧΑ (sec) Ανάλυση Μ1 6 Μ2 7 Μ3 5 1.51 28x23 Μ4 7 Μ5 7 Μετρική Αποτυχημένες Αναγνωρίσεις ΜΧΑ (sec) Ανάλυση Μ1 4 Μ2 5 Μ3 3 3.81 56x46 Μ4 5 Μ5 7 Μετρική Αποτυχημένες Αναγνωρίσεις ΜΧΑ (sec) Ανάλυση Μ1 5 Μ2 6 Μ3 3 19.82 Μ4 5 Μ5 5 112x92 Πίνακας A4.3: Αναγνώριση προσώπων σε διάφορες αναλύσεις και με χρήση 5 διαφορετικών μετρικών 25 Μετρική Αποτυχημένες Αναγνωρίσεις Ανάλυση Μ1 5 Μ2 6 Μ3 3 28x23 Μ4 4 Μ5 7 Μετρική Αποτυχημένες Αναγνωρίσεις Ανάλυση Μ1 3 Μ2 3 Μ3 2 56x46 Μ4 5 Μ5 5 Μετρική Αποτυχημένες Αναγνωρίσεις Ανάλυση Μ1 3 Μ2 3 Μ3 1 112x92 Μ4 4 Μ5 5 Πίνακας A4.4: Αναγνώριση προσώπων σε διάφορες αναλύσεις και με χρήση 5 διαφορετικών μετρικών. Επιτυχής θεωρείται η αναγνώριση αν η προς έλεγχο φωτογραφία και κάποια από τις τρεις πλησιέστερες προς αυτήν αποθηκευμένες ανήκουν στο ίδιο πρόσωπο. Μετρική Αποτυχημένες Αναγνωρίσεις Ανάλυση Μ1 3 Μ2 4 Μ3 1 28x23 Μ4 3 Μ5 3 Μετρική Αποτυχημένες Αναγνωρίσεις Ανάλυση Μ1 1 Μ2 3 Μ3 1 56x46 Μ4 3 Μ5 2 Μετρική Αποτυχημένες Αναγνωρίσεις Ανάλυση Μ1 1 Μ2 2 Μ3 1 112x92 Μ4 2 Μ5 2 Πίνακας A4.5: Αναγνώριση προσώπων σε διάφορες αναλύσεις και με χρήση 5 διαφορετικών μετρικών. Επιτυχής θεωρείται η αναγνώριση αν η προς έλεγχο φωτογραφία και κάποια από τις πέντε πλησιέστερες προς αυτήν αποθηκευμένες ανήκουν στο ίδιο πρόσωπο. Ο Πίνακας Α4.4 δείχνει αποτελέσματα από το προηγούμενο πείραμα, μόνο που τώρα επιτυχημένη θεωρείται η αναγνώριση, αν η προς έλεγχο φωτογραφία και κάποια από τις τρεις πλησιέστερες προς αυτήν αποθηκευμένες ανήκουν στο ίδιο πρόσωπο. Αντίστοιχα, ο Πίνακας Α4.5 δείχνει αποτελέσματα στα οποία επιτυχημένη θεωρείται η αναγνώριση, αν η προς έλεγχο φωτογραφία και κάποια από τις πέντε πλησιέστερες προς αυτήν αποθηκευμένες, ανήκουν στο ίδιο πρόσωπο. Τα αποτελέσματα των Πινάκων Α4.4 και Α4.5 δείχνουν την ευρωστία της αναγνώρισης για τις διάφορες μετρικές. 26 2.3 Γεωμετρικά χαρακτηριστικά από εικόνες εμπρόσθιας όψης και προφίλ Η αναπαράσταση προσώπων με κάποιο διάνυσμα γεωμετρικών χαρακτηριστικών είναι η πιο διαδεδομένη πρακτική όταν χρησιμοποιούνται εικόνες προφίλ. Αντίθετα σε εικόνες εμπρόσθιας όψης η αναπαράσταση με τις τιμές της κλίμακας του γκρι είναι πιο διαδεδομένη. Πάντως η χρήση γεωμετρικών χαρακτηριστικών για την αναπαράσταση προσώπων έχει ανακτήσει νέο ενδιαφέρον με την ανάπτυξη του προτύπου MPEG-4. Σε εικόνες προφίλ οι τιμές των χαρακτηριστικών παράγονται με βάση κάποια σημεία στη οριογραμμή του, όπως η εγκοπή ανάμεσα στα φρύδια και τη μύτη, η κορυφή της μύτης, η εγκοπή ανάμεσα στη μύτη και το άνω χείλος και η κορυφή του πηγουνιού. Τα χαρακτηριστικά είναι συνήθως αποστάσεις και γωνίες ανάμεσα στα χαρακτηριστικά αυτά σημεία. Ο Πίνακας Α4.6 παρουσιάζει ένα σύνολο από συχνά χρησιμοποιούμενα γεωμετρικά χαρακτηριστικά και για τις δύο κατηγορίες εικόνων. Εικόνα A4.1: Σημεία σε προφίλ και frontal views. Χαρακτηριστικά σε εικόνες profile Γωνία 1-2-3 Γωνία 7-8-9 Λόγος d(8,10) /d(2,8) Περιγραφή Μέτρηση πηγουνιού Μέτρηση μύτης Μακρύ ­ κοντό πηγούνι Χαρακτηριστικά σε εικόνες frontal view Λόγος d(14,15) /d(4,9) Λόγος d(12,13) /d(14,15) Λόγος d(5a, 5b) /d(14,15) Περιγραφή Μέτρηση πλάτους προσώπου Απόσταση ματιών Μέγεθος στόματος Πίνακας A4.6: Χαρακτηριστικά για την περιγραφή του προσώπου (βλέπε Εικόνα Α4.1). d(i,j) είναι η Ευκλείδεια απόσταση ανάμεσα στα σημεία i και j. 2.4 Υβριδική αναπαράσταση Συχνά για την αναπαράσταση προσώπων χρησιμοποιείται συνδυασμός των gray scale τιμών και αλλά χαρακτηριστικών όπως αυτά των Πινάκων Α4.2 και Α4.6. Για παράδειγμα ο Campell [4] χρησιμοποίησε χαρακτηριστικά όπως η τιμή φωτεινότητας των μαλλιών και των παρειών σε συνδυασμό με ένα πίνακα 32x32 με τις gray scale τιμές της περιοχής των ματιών. 27 Στις πρώτες προσπάθειες για αναγνώριση προσώπων, οι οποίες κατά βάση στηρίζονταν σε εικόνες προφίλ από πορτρέτα, χρησιμοποιήθηκαν ευρέως τεχνικές τμηματικής προσέγγισης καμπυλών. Συγκεκριμένα ο Galton [5][6] δημιούργησε ένα σύστημα, στο οποίο πορτρέτα προφίλ περιγράφονται με χρήση ενός μαθηματικού τύπου. Κάθε τύπος αποτελείται από τέσσερις ομάδες εικόνων οι οποίες περιέχουν πέντε εικόνες η καθεμιά. Τα τμήματα των προφίλ κοντά στα χαρακτηριστικά σημεία, ή οι συνδέσεις των σημείων αυτών, περιγράφονται με τη χρήση απλών αριθμών. Οι αριθμοί αυτοί υπολογίζονται από κάποιο πίνακα στον οποίο διαφορετικά σχήματα καμπυλών περιγράφονται από συγκεκριμένους αριθμούς (δείκτες). 3. ΕΝΤΟΠΙΣΜΟΣ - ΚΑΤΑΤΜΗΣΗ ΠΡΟΣΩΠΟΥ Το πρώτο βήμα στη διαδικασία αναγνώρισης είναι ο εντοπισμός της επακριβούς θέσης του προσώπου στη φωτογραφία. Σε πολλές, παρόλα αυτά εργασίες, που πραγματεύονται την ταυτοποίηση προσώπων η θέση του προσώπου θεωρείται εκ των προτέρων γνωστή, ή μπορεί με ελάχιστη προσπάθεια να εντοπιστεί με βάση τη διαδικασία σύλληψης των φωτογραφιών. Τέτοια παραδείγματα εικόνων αποτελούν οι φωτογραφίες οι οποίες λαμβάνονται από τις αστυνομικές αρχές ­mug shots. Ο εντοπισμός προσώπων έχει προσεγγιστεί με δύο διαφορετικές τακτικές. Στη πρώτη προσέγγιση το πρόσωπο θεωρείται ως μια αυτόνομη μονάδα η οποία μοντελοποιείται με τεχνικές υπολογιστικής όρασης. Στις εργασίες των Govindaraju et al. [7][8], για ανίχνευση προσώπων σε φωτογραφίες από εφημερίδες, το πρόσωπο μοντελοποιείται από δύο ευθείες, που αντιπροσωπεύουν τις πλευρές του προσώπου, και δύο τόξα, για το πηγούνι και το άνω μέρος του κεφαλιού. Για κάθε ένα από τα τέσσερα αυτά τμήματα ορίζονται τέσσερις παράμετροι: το μήκος του τμήματος, η χορδή που σχηματίζεται από τα άκρα του, η επιφάνεια ανάμεσα στη χορδή και το καμπύλο τμήμα, και το κέντρο βάρους της επιφάνειας αυτής. Το μέγεθος των προσώπων δεν είναι γνωστό αλλά εκτιμάται ευριστικά με πληροφορία που λαμβάνεται και από τη λεζάντα της φωτογραφίας. Για παράδειγμα αν η λεζάντα αναφέρει ότι υπάρχουν τρία πρόσωπα στην εικόνα, περιορισμοί μπορούν να τεθούν όσον αφορά το μέγιστο μέγεθος του προσώπου, δεδομένου του μεγέθους της φωτογραφίας. Η πληροφορία της λεζάντας αναπαρίσταται με ένα σημασιολογικό (semantic) δίκτυο στο πλαίσιο μιας συλλογιστικής διαδικασίας. Η ανίχνευση των γραμμών και των τόξων πραγματοποιείται με μια παραλλαγή του μετασχηματισμού Hough. Για την διερεύνηση του κατά πόσο υπάρχει πρόσωπο στην εικόνα το μοντέλο (οι δύο γραμμές και τα δύο τόξα και η χωροταξική συσχέτιση τους) συγκρίνεται με τις γραμμές και τα τόξα της προς εξέταση εικόνας. Το κέντρο βάρους το τεσσάρων τμημάτων λαμβάνεται ως το κέντρο του προσώπου. Οι περιορισμοί που τίθενται είναι: (α) το πρόσωπο κοιτάζει προς τη κάμερα (β) δεν υπάρχει ούτε κλίση ­βλέπε Σχήμα Α4.1, στροφή περί τον άξονα z- ούτε περιστροφή - στροφή περί τον άξονα y. Μειονεκτήματα της μεθόδου είναι η αδυναμία εντοπισμού προσώπων με μικρό μέγεθος, λόγω αποτυχίας αποτελεσματικής ανίχνευσης των ακμών της εικόνας. Η εφαρμογή της τεχνικής πραγματοποιήθηκε σε 10 εικόνες και παρόλο που δεν απέτυχε σε καμία να βρει το πρόσωπο έδωσε αρκετά false alarms (εντόπισε πρόσωπα εκεί που δεν υπήρχαν). Μια από της πρώτες εργασίες οι οποίες ασχολήθηκαν με τη διερεύνηση αν σε κάποια φωτογραφία υπάρχει πρόσωπο είναι η [9]. Στην εργασία αυτή υπολογίζεται η εικόνα ακμών από την αρχική φωτογραφία και στη συνέχεια συγκρίνεται με ένα πρότυπο οβάλ αντικείμενο το οποίο μπορεί να μεταβάλλεται σε μέγεθος και 28 θέση. Σε θέσεις στις οποίες ανιχνεύεται πιθανή ύπαρξη προσώπου αυτή επιβεβαιώνεται με ανίχνευση στις προσδοκώμενες θέσεις ακμών που είναι γνωστό ότι αντιστοιχούν σε χαρακτηριστικά του προσώπου όπως μάτια, στόμα κλπ. Στην εργασία [10] οι αρχικές φωτογραφίες φιλτράρονται και στη συνέχεια δημιουργούνται οι εικόνες ακμών. Σε αυτές ανιχνεύονται οι ακμές, οι οποίες ενδεχομένως αντιστοιχούν στο περίγραμμα του προσώπου, και στη συνέχεια προβάλλονται ξανά στην αρχική εικόνα όπου και πραγματοποιείται λεπτομερέστερη επεξεργασία για τον επακριβή εντοπισμό τους. Διάφορα ευριστικά τεχνάσματα χρησιμοποιούνται για τη συνένωση των ακμών. Μετά τον πλήρη εντοπισμό του περιγράμματος του προσώπου πραγματοποιείται ο εντοπισμός των επιμέρους χαρακτηριστικών στις αναμενόμενες θέσεις με την εφαρμογή και πάλι ευριστικών τεχνικών. Στην εργασία του Craw [11] η ανίχνευση του προσώπου πραγματοποιείται με την τεχνική ταύτισης με πρότυπο -template matching. Ο εντοπισμός του προσώπου με την τεχνική αυτή έχει αποδειχτεί πειραματικά πολύ αποτελεσματικός, ιδιαίτερα αν το πρόσωπο κοιτάζει κατευθείαν στη κάμερα και έχει μικρές γωνίες κλίσης και περιστροφής. Αν δεν υπάρχει κάποια πληροφόρηση σχετικά με το μέγεθος του προσώπου, η ανίχνευση πρέπει να πραγματοποιηθεί χρησιμοποιώντας πρότυπα σε διαφορετικές αναλύσεις, κάτι που επιβαρύνει σε μεγάλο βαθμό την υπολογιστική πολυπλοκότητα του αλγορίθμου. Η τεχνική ταύτισης με πρότυπο είναι επιρρεπής σε σφάλματα στην ανίχνευση προσώπων που φοράνε γυαλιά ή έχουν γενειάδα. Για την αποφυγή τέτοιων προβλημάτων συχνά χρειάζεται η χρήση τροποποιημένων προτύπων που να λαμβάνουν υπόψη τις παραμέτρους αυτές. Τέλος ένα πολύ σημαντικό θέμα είναι η απόφαση κατά πόσο σε μια φωτογραφία υπάρχει πρόσωπο ή όχι. Στη τεχνική ταύτισης με πρότυπο, η θέση του προσώπου επιλέγεται ως η θέση με το καλύτερο ταίριασμα με το πρότυπο. Το γεγονός αυτό δεν εξασφαλίζει και το ότι στη συγκεκριμένη θέση υπάρχει πρόσωπο. Η εφαρμογή κάποιου κατωφλίου είναι αυθαίρετη και δεν μπορεί να στηριχθεί σε τεκμηριωμένα στοιχεία. Τέλος στη τεχνική ταιριάσματος με πρότυπο σημαντικό στοιχείο είναι η επιλογή του μέτρου ταύτισης. Πειραματικά αποδεικνύεται ότι μια παραλλαγή της μετρικής l1 δίνει τα καλύτερα αποτελέσματα. Σε μια νεότερη εργασία του, ο Craw [12] περιγράφει ένα σύστημα για την αναγνώριση και μέτρηση των χαρακτηριστικών του προσώπου. Η εργασία αυτή είχε σχεδιαστεί για δεικτοδότηση (indexing) βάσεων από mug shot φωτογραφίες που χρησιμοποιούσαν οι αστυνομικές αρχές. Ο στόχος ήταν ο εντοπισμός 40 χαρακτηριστικών σημείων σε μια φωτογραφία εμπρόσθιας όψης. Η επιλογή των σημείων αυτών έγινε με βάση την εργασία του Shepherd [13] η οποία και χρησιμοποιήθηκε για την αξιολόγηση των αποτελεσμάτων. Η ανίχνευση του προσώπου πραγματοποιείται με τη χρήση ενός πολυγωνικού προτύπου (polygon template) σε μια διαδικασία coarse to fine. Η πολυγωνική μορφή του προτύπου επιτρέπει το μετασχηματισμό του όσον αφορά τη θέση, κλίμακα, κλίση και περιστροφή. Η θέση του προσώπου βρίσκεται με τεχνικές simulated annealing και διαδοχικούς μετασχηματισμούς του προτύπου. Η γεωμετρία του ανθρωπίνου προσώπου μπορεί να χρησιμοποιηθεί για να τεθούν περιορισμοί στους πιθανούς μετασχηματισμούς. Μετά από ένα χονδρικό εντοπισμό του προσώπου εφαρμόζονται μετασχηματισμοί σε μεμονωμένα πολύγωνα για τον επακριβή εντοπισμό του περιγράμματος. Ο εντοπισμός των χαρακτηριστικών σημείων πραγματοποιείται με βάση μοντέλα των χαρακτηριστικών τα οποία οι 29 συγγραφείς ονομάζουν feature experts. Σύμφωνα με τα αποτελέσματα της εργασίας το περίγραμμα του προσώπου ανιχνεύθηκε και στις 50 φωτογραφίες, σε 43 πλήρως, ενώ στις υπόλοιπες 7 υπήρξε απώλεια του τμήματος που αντιστοιχεί στο πηγούνι εξαιτίας της ύπαρξης μουστακιού και γενειάδας. Δεν εντοπίστηκαν κυρίως τα χαρακτηριστικά σημεία που αντιστοιχούν στα φρύδια, δεδομένου ότι για αυτά οι συγγραφείς δεν είχαν προβλέψει κάποιο συγκεκριμένο μοντέλο. Με δεδομένη τη χρήση των πολυγωνικών μετασχηματισμών και της simulated annealing βελτιστοποίησης το σύστημα είναι αρκετά πολύπλοκο υπολογιστικά. Η εργασία [14] είναι από τις λίγες που ασχολήθηκαν με την κατάτμηση του προσώπου σε μη ομοιογενές φόντο. Μετά από επεξεργασία της αρχικής εικόνας για την δημιουργία της εικόνας ακμών, η τεχνική που προτείνεται ομαδοποιεί εκείνες τις ακμές οι οποίες ανήκουν σε μια έλλειψη με την οποία έχει μοντελοποιηθεί το πρόσωπο. Οι παράμετροι της έλλειψης είναι το κέντρο (x0, y0) και οι ημιάξονες a, b. Όπως φαίνεται και από το σύνολο των παραμέτρων δεν λαμβάνεται πρόνοια για ανίχνευση προσώπων με κλίση -στροφή ως προς τον z άξονα- ενώ αντίθετα μπορούν ανιχνευθούν πρόσωπα με στροφή περί τον άξονα y εφόσον έχει γίνει αποτελεσματική ανίχνευση των ακμών. Μια τεχνική κατάτμησης προσώπου παρόμοια με την ταύτιση με πρότυπο αλλά με καλύτερο θεωρητικό υπόβαθρο στηρίζεται στο μετασχηματισμό Karhunen-Loeve. Κάθε υποεικόνα προβάλλεται στο χώρο των ιδιοδιανυσμάτων του ζητούμενου χαρακτηριστικού και οι συντελεστές της προβολής συγκρίνονται με τις ιδιοτιμές του χαρακτηριστικού. Η διαφορά αυτή ορίζεται ως DFFS (Distance-From-Feature-Space) και προφανώς σε κάθε pixel της εικόνας αντιστοιχεί μια τέτοια απόσταση. Το pixel με τη μικρότερη απόσταση προσδιορίζει τη θέση του χαρακτηριστικού (εφόσον βέβαια η απόσταση αυτή είναι μικρότερη από κάποιο σκαλοπάτι, ώστε να είμαστε βέβαιοι, ότι το ζητούμενο χαρακτηριστικό υπάρχει στην υπό εξέταση εικόνα). Συγκεκριμένα έστω ένα σύνολο από N πρότυπα χαρακτηριστικών προσώπου ­μάτια, μύτη στόμα κοκ{I 1 , I 2 ,.... I N } όπου I i R nxm . Με λεξικογραφική διάταξη των προτύπων I i σχηματίζουμε το σύνολο των διανυσμάτων {v1 , v 2 ,.... v N } με vi R L και L = n m . Οι συναρτήσεις βάσης του μετασχηματισμού KL για το παραπάνω σύνολο των διανυσμάτων προκύπτουν από την επίλυση του προβλήματος ιδιοτιμών: L = F T SF (Α4.2) όπου S είναι ο πίνακας συμμεταβλητότητας, F είναι ο πίνακας των ιδιοδιανυσμάτων του S , και L είναι ο αντίστοιχος διαγώνιος πίνακας των ιδιοτιμών. Ένα διάνυσμα περιγραφής yi κάθε υποεικόνας x i -απεικονιζόμενης μέσω του αντίστοιχου διανύσματος λεξικογραφικής διάταξης- προκύπτει από τη μερική προβολή της στους άξονες του μετασχηματισμού KL: ) yi = F k T xi (Α4.3) N ) όπου xi = xi - m , m = v j και F k είναι ο πίνακας με τα ιδιοδιανύσματα στήλες που αντιστοιχούν στις k j =1 μεγαλύτερες ιδιοτιμές του S . 30 Ορίζοντας το σφάλμα ανακατασκευής: ) ( ) ( e KLT ( k , i ) = ( xi - xi ) T ( xi - xi ) ( όπου xi = F k yi , ) yi = F k T xi (Α4.4) η υποεικόνα με την ελάχιστη DFFS δίνεται από τη σχέση: x opt = arg m i n[e KLT ( k , i )] i (Α4.5) Τεχνικές ανίχνευσης του προσώπου ως αυτόνομης μονάδας με χρήση νευρωνικών δικτύων έχουν επίσης αναπτυχθεί [16]. Η ανίχνευση προσώπων με χρήση νευρωνικών δικτύων μοιάζει ίσως περισσότερο από κάθε άλλη τεχνική με τη λειτουργία του ανθρώπινου εγκεφάλου. Δυστυχώς όμως παρουσιάζει όλα τα μειονεκτήματα των νευρωνικών δικτύων όπως η δυσκολία μάθησης και γενίκευσης. Επιπλέον υπάρχει σχετική δυσκολία υλοποίησης των αλγορίθμων που περιγράφονται στις διάφορες εργασίες. Η δεύτερη προσέγγιση στην ανίχνευση προσώπου απαιτεί την ανίχνευση πρώτα κάποιων επιμέρους χαρακτηριστικών του προσώπου και στη συνέχεια με βάση τη χωροταξική τους διάταξη τον εντοπισμό όλου του προσώπου. Παρόλο που οποιοδήποτε από τα χαρακτηριστικά του προσώπου μπορεί να εντοπιστεί πρώτα τυπική επιλογή είναι τα μάτια. Στην εργασία του Yulie [17] δίνεται μια τεχνική εντοπισμού των ματιών με χρήση deformable templates (παραμορφώσιμων προτύπων). Μια συνάρτηση ενέργειας με παραμέτρους τις ακμές, τις κορυφές και τις κοιλάδες της gray scale εικόνας χρησιμοποιείται για την ταύτιση. Το πρότυπο εφαρμόζεται στα επιμέρους τμήματα της εικόνας και οι παράμετροί του μεταβάλλονται για να επιτύχουν την ελαχιστοποίηση της συνάρτησης ενέργειας, δηλαδή τη βέλτιστη ταύτιση. Η ελαστικότητα του προτύπου επιτρέπει αλλαγές στην κλίμακα και στην οριοθέτηση των ματιών. Με τον τρόπο αυτό μπορούν να εντοπιστούν τα μάτια ανεξάρτητα από μεταβολές στη κλίμακα, κλίση και στις συνθήκες φωτεινότητας. Εκτός από τα μάτια, με την ίδια τεχνική εντοπίζονται και τα χείλη. Το πρότυπο για τα μάτια αποτελείται από ένα κύκλο ο οποίος αντιστοιχεί στη κόρη, δύο παραβολικά τμήματα, που αντιστοιχούν στις οριογραμμές ματιών και βλεφάρων, και δύο σημεία τα οποία αντιστοιχούν στα κέντρα των δύο λευκών περιοχών του ματιού. Η τεχνική αυτή είναι αρκετά αποτελεσματική αλλά αντιμετωπίζει δύο βασικά προβλήματα: οι συντελεστές της συνάρτησης ενέργειας υπολογίζονται ευριστικά, με αποτέλεσμα το πρότυπο να αντιμετωπίζει προβλήματα γενίκευσης και ο υπολογιστικός φόρτος είναι ιδιαίτερα υψηλός. Συγκεκριμένα η ανίχνευση των ματιών απαιτεί χρόνους της τάξης των πέντε λεπτών. O Nixon στην εργασία του [18] προτείνει μια τεχνική στην οποία ανιχνεύει τα μάτια χρησιμοποιώντας το μετασχηματισμό Hough. Η ίριδα μοντελοποιείται ως κύκλος και η οριογραμμή ματιών και βλεφάρων προσεγγίζεται με τη χρήση μιας τροποποιημένης εκθετικής συνάρτησης. Στην εργασία του Craw [11] τα κέντρα των ματιών εντοπίζονται ως ένα ζεύγος από ελάχιστα της φωτεινότητας της εικόνας, με αναζήτηση τους κάτω από τα φρύδια. Είναι προφανές ότι της ανίχνευσης των ματιών προηγείται η ανίχνευση των φρυδιών. 31 Ως τελικό συμπέρασμα αναφέρεται ότι η ανίχνευση του προσώπου με χρήση πρώτα των επιμέρους χαρακτηριστικών μπορεί να εφαρμοστεί με επιτυχία μόνο σε περιπτώσεις στις οποίες το πρόσωπο στη φωτογραφία βρίσκεται σε αρκετά μεγάλη ανάλυση -ώστε να υπάρχει επαρκής πληροφορία για την μοντελοποίηση των επιμέρους χαρακτηριστικών- και τα χαρακτηριστικά δεν έχουν επικαλύψεις. Από την άλλη πλευρά, στις περιπτώσεις όπου ο εξαιρετικά ακριβής εντοπισμός του προσώπου είναι πολύ σημαντικός, η χρήση των επιμέρους χαρακτηριστικών ίσως είναι αναπόφευκτη. Ένα επιπλέον στοιχείο είναι η εκ των προτέρων γνώση που έχουμε για τις θέσεις των χαρακτηριστικών στο πρόσωπο. Αν για κάποιο λόγο η ανίχνευση ενός χαρακτηριστικού αποτύχει, αυτό μπορεί να γίνει αντιληπτό μετά την ανίχνευση κάποιου άλλου, εφόσον η γεωμετρική διάταξη των δύο χαρακτηριστικών δεν συμφωνεί με την ανατομία του προσώπου. 4. ΤΑΥΤΟΠΟΙΗΣΗ ΠΡΟΣΩΠΩΝ Η ταυτοποίηση είναι το επόμενο και πιο σημαντικό στάδιο στην αναγνώριση προσώπου. Υπάρχουν δύο απόψεις σχετικές με την ταυτοποίηση: (α) Το πρόσωπο πρέπει να συσχετιστεί με κάποιο όνομα και (β) πολλές εμφανίσεις του ιδίου προσώπου πιθανόν με διαφορετικές αναλύσεις, συνθήκες φωτισμού και οριοθέτησης πρέπει να αναγνωρίζονται ως μία. Η πρώτη άποψη αναφέρεται περισσότερο στην λογική των ανθρώπων και για την υλοποίηση της σε περιβάλλον υπολογιστή χρειάζεται πρώτα η υιοθέτηση της δεύτερης άποψης. Ο πρώτος που ασχολήθηκε εκτεταμένα με τη διαδικασία ταυτοποίησης προσώπων ήταν ο Galton [5][6] στο τέλος του 19ου αιώνα. Με βάση τα δεδομένα εισόδου -διαθέσιμες φωτογραφίες- η ταυτοποίηση γίνεται με χρήση εικόνων προφίλ ή με φωτογραφίες εμπρόσθιας όψης. Στα πρώτα χρόνια της ερευνητικής δραστηριότητας για την ταυτοποίηση προσώπων οι περισσότερες τεχνικές χρησιμοποιούσαν εικόνες προφίλ. Αντίθετα στην σύγχρονη βιβλιογραφία αναφέρονται τεχνικές που χρησιμοποιούν εικόνες εμπρόσθιας όψης. Παρόλο που η αφετηρία των δύο προσεγγίσεων διαφέρει, οι αρχές στις οποίες στηρίζονται είναι παρόμοιες. Μια τυπική ακολουθία βημάτων που ακολουθούνται στην ταυτοποίηση προσώπων και στις δύο προσεγγίσεις δίνεται στη συνέχεια: (1) Προσδιόρισε ένα σύνολο από ανεξάρτητα χαρακτηριστικά για την αναπαράσταση του προσώπου. (2) Αναπαράστησε όλα τα γνωστά πρόσωπα με βάση τα χαρακτηριστικά του βήματος 1 και αποθήκευσέ τα σε μία βάση δεδομένων (3) Υπολόγισε τα χαρακτηριστικά του προς ταυτοποίηση προσώπου (4) Χρησιμοποίησε μια διαδικασία ταύτισης συνδυασμένη με κατάλληλη μετρική για να βρεις την βέλτιστη ταύτιση με τα γνωστά πρόσωπα. Η διαφοροποίηση των τεχνικών που έχουν προταθεί για την ταυτοποίηση προσώπου έγκειται στην επιλογή των χαρακτηριστικών και της διαδικασίας ταύτισης. Στις περισσότερες περιπτώσεις ο αριθμός των γνωστών προσώπων στη βάση δεδομένων είναι σχετικά μικρός -λιγότερος από 100 πρόσωπα (βλέπε Πίνακα Α4.1). Ο αριθμός των χαρακτηριστικών ποικίλει από 10-40. 32 Η πρώτη εργασία στην ταυτοποίηση προσώπων από τον Galton [5][6] στηρίχθηκε σε εικόνες προφίλ. Ένα σύνολο από πέντε πρωτεύοντα σημεία που αντιστοιχούν στην εγκοπή ανάμεσα στη μύτη και τα φρύδια σημείο 9 στην Εικόνα Α4.1, στη κορυφή της μύτης, στην εγκοπή ανάμεσα στη μύτη και το άνω χείλος, στο τμήμα διαχωρισμού των χειλιών, και στη κορυφή του πηγουνιού ορίζονται στην οριογραμμή του προφίλ.Με βάση τα σημεία αυτά παράγονται τα χαρακτηριστικά τα οποία χρησιμοποιούνται για την ταύτιση των προσώπων. Η διαδικασία ταύτισης που ακολούθησε ο Galton ήταν η έξης: Έστω Χ τα σύνολα των χαρακτηριστικών που αντιστοιχούν στα αποθηκευμένα στη βάση γνωστά πρόσωπα. Αν Υ είναι το σύνολο των χαρακτηριστικών του προς ταυτοποίηση προσώπου τότε αναζητείται το σύνολο των χαρακτηριστικών ZΧ το οποίο προσομοιάζει το σύνολο Υ με ένα προκαθορισμένο βαθμό ομοιότητας. Η ιδιαιτερότητα στη διαδικασία ταύτισης έγκειται στο γεγονός ότι δύο αντίστοιχα χαρακτηριστικά yiY και ziZ δεν μπορούν να διαφέρουν περισσότερο από κάποιο προκαθορισμένο όριο. Η τεχνική αυτή ταύτισης είναι συνηθισμένη σε προσεγγίσεις που χρησιμοποιούν γεωμετρικά χαρακτηριστικά τα οποία είναι λίγα στον αριθμό. Ο Harmon [20] χρησιμοποίησε μια παρόμοια με τον Galton τεχνική για την ταυτοποίηση προσώπων από προφίλ.Χρησιμοποίησε εννέα θεμελιώδη σημεία διατηρώντας τα πέντε σημεία του Galton και άλλα τέσσερα που αντιστοιχούν στο μέτωπο, στις κορυφές των δύο χειλιών και το λαιμό - Εικόνα Α4.1. Με βάση τα θεμελιώδη σημεία δημιουργείται το σύνολο των χαρακτηριστικών που περιλαμβάνει αποστάσεις και γωνίες μεταξύ των σημείων, καθώς και το εμβαδόν κάποιων τριγώνων που αυτά σχηματίζουν. Ο βαθμός ομοιότητας μεταξύ των συνόλων από χαρακτηριστικά Y και Z υπολογίζεται με μια παραλλαγή της Ευκλείδιας απόστασης: d 2 (Y , Z ) = i =1 n y i2 - z i2 s i2 (Α4.6) όπου n είναι ο αριθμός των χαρακτηριστικών και σ2 είναι η διασπορά τους. Τα προφίλ από 256 πρόσωπα εισήχθησαν στον υπολογιστή, στη συνέχεια δε τα θεμελιώδη σημεία εντοπίζονται αυτόματα. Για παράδειγμα για τον εντοπισμό των σημείων που αντιστοιχούν στις κορυφές των χειλιών και την εγκοπή του στόματος ακολουθείται η παρακάτω διαδικασία: (1) Ξεκίνα από το σημείο εγκοπής της μύτης και του άνω χείλους και προχώρα προς τα κάτω (2) Υπολόγισε τη καμπυλότητα κάθε σημείου που ανήκει στην οριογραμμή του προφίλ και (3) Επέλεξε τα τρία σημεία που αντιστοιχούν στις μέγιστες καμπυλότητες που έχουν τα κοίλα προς τα μέσα, προς τα έξω και πάλι προς τα μέσα. Τα σημεία αυτά αντιστοιχούν στα ζητούμενα θεμελιώδη σημεία. Σε μια νεότερη εργασία του [21] προσέθεσε περισσότερα πρόσωπα, μερικά από τα οποία ανήκαν σε γυναίκες. Χρησιμοποιώντας τα ίδια θεμελιώδη σημεία κατασκεύασε ένα 11-Δ διάνυσμα χαρακτηριστικών, αποτελούμενο από την προεξοχή της μύτης, το εμβαδόν και την διακύμανση του προφίλ καθώς και αρκετές αποστάσεις όπως οι D12, D14, D15, D16, D18 και D79 όπου Dij είναι η απόσταση μεταξύ των θεμελιωδών 33 σημείων i και j. Για τη διαδικασία ταύτισης χρησιμοποιήθηκε μια τεχνική διαμέρισης συνόλων η οποία στηρίζεται στο γεγονός ότι, αν έστω και ένα χαρακτηριστικό από δύο συγκρινόμενα προφίλ διαφέρει σε μεγάλο βαθμό, τότε τα προφίλ ανήκουν σε διαφορετικά πρόσωπα. Μετά τη διαδικασία διαμέρισης, η ταύτιση επιτυγχάνεται με βάση την μικρότερη Ευκλείδια απόσταση ανάμεσα στα διανύσματα χαρακτηριστικών που ανήκουν στην ίδια διαμέριση (υποσύνολο). Οι συγγραφείς της εργασίας κατέληξαν στο συμπέρασμα ότι ένα 10-Δ διάνυσμα χαρακτηριστικών είναι επαρκές για εύρωστη και αποτελεσματική ταυτοποίηση. Στη εργασία [22] τα θεμελιώδη σημεία αυξήθηκαν σε έντεκα και προστέθηκαν κάποια επιπλέον χαρακτηριστικά. Επίσης για πρώτη φορά η σύλληψη των εικόνων προφίλ έγινε αυτόματα με χρήση κάμερας και με ομογενές και με μεγάλη αντίθεση (contrast) φόντο. Οι Kaufman και Breeding [23] σχεδίασαν επίσης ένα σύστημα ταυτοποίησης προσώπων με χρήση προφίλ.Τα χαρακτηριστικά τα οποία χρησιμοποίησαν ήταν συντελεστές υπολογισμένοι από την πολική μορφή της συνάρτησης αυτοσυσχέτισης. Χρησιμοποίησαν επίσης συναρτήσεις moment invariants. Διάφορες άλλες τεχνικές έχουν επίσης χρησιμοποιηθεί για ταυτοποίηση με βάση τα προφίλ.Μια σημαντική παράμετρος είναι ο τρόπος εισαγωγής των προφίλ στον υπολογιστή. Πολλές προσεγγίσεις χρησιμοποίησαν για το σκοπό αυτό συστήματα τηλεμετρίας - range finders. Οι σύγχρονες τεχνικές ταυτοποίησης χρησιμοποιούν κυρίως εικόνες εμπρόσθιας όψης, οι οποίες μεταξύ άλλων εισάγονται ευκολότερα στον υπολογιστή. Μια από τις πρώτες τεχνικές τις κατηγορίας αυτής προτάθηκε από τον Goldstein [24]. Τα πρόσωπα σχεδιάζονταν από ζωγράφους, και οι τιμές των χαρακτηριστικών υπολογίζονταν από διάφορους κριτές. Αρχικά χρησιμοποιήθηκαν 34 χαρακτηριστικά τα οποία όμως περιορίστηκαν τελικά στα 22, δεδομένου ότι δεν ήταν όλα μεταξύ τους ανεξάρτητα (π.χ. το πάχος του άνω και κάτω χείλους). Κάθε χαρακτηριστικό μπορούσε να πάρει μια τιμή στη κλίμακα 1-5 (χαμηλό ­ ενδιάμεσες τιμές - υψηλό). Το σύνολο μάθησης αποτελείτο από 255 πρόσωπα. Τα χαρακτηριστικά περιελάμβαναν διάφορες μετρήσεις χαρακτηριστικών προσώπου όπως την απόχρωση και υφή των μαλλιών, τα φρύδια, τα μάτια, τη μύτη, το στόμα, τα αυτιά, τα μάγουλα και το μέτωπο. Μετά την εισαγωγή των δεδομένων το σύστημα υπολόγιζε την Ευκλείδεια απόσταση ανάμεσα στο προς ταυτοποίηση πρόσωπο και όλα τα πρόσωπα της βάσης δεδομένων. Το αποθηκευμένο πρόσωπο με τη μικρότερη απόσταση εθεωρείτο το ζητούμενο. Από τα συμπεράσματα των συγγραφέων προέκυψε ότι μόνο 6-7 χαρακτηριστικά είχαν ουσιαστική συμμετοχή στη διαδικασία ταύτισης. Οι Kaya και Kobayashi [25] πρότειναν ένα αντίστοιχο σύστημα, αλλά χρησιμοποίησαν τις αποστάσεις ανάμεσα στα χαρακτηριστικά του προσώπου για την κατασκευή του διανύσματος χαρακτηριστικών. O Buhr [19] χρησιμοποίησε 33 πρωτεύοντα και 12 δευτερεύοντα χαρακτηριστικά για τη διαδικασία της ταυτοποίησης. Ανάμεσα στα πρωτεύοντα χαρακτηριστικά ήταν 21 αποστάσεις -π.χ. αποστάσεις ανάμεσα στα κέντρα των ματιών και του στόματος- 4 διαφορές τεταγμένων, 4 εμβαδά τριγώνων, 2 λόγοι αποστάσεων και δύο ειδικά χαρακτηριστικά που αφορούσαν το εμβαδόν της περιοχής των ματιών. Το σχήμα ταύτισης αποτελείτο από ένα γραμμικό δέντρο αποφάσεων. Ο Wong [26] χρησιμοποίησε μια παρόμοια τεχνική με σχήμα ταύτισης ένα συνδυασμό Ευκλείδιας απόστασης και της διαφοράς του αθροίσματος των 34 χαρακτηριστικών. Διάφορες άλλες τεχνικές χρησιμοποιούν ταύτιση με βάση τα ελάχιστα τετράγωνα ή την ομαδοποίηση (clustering). Ο Baron [27] χρησιμοποίησε τις gray scale τιμές της εικόνας ως χαρακτηριστικά. Συγκεκριμένα μετά από την ανίχνευση των ματιών, με χρήση ενός 20x23 πίνακα ταύτισης και εφαρμογή της συσχέτισης, οι εικόνες κανονικοποποιούνται, διατηρώντας την απόσταση ανάμεσα στα μάτια σταθερή. Στη συνέχεια, μετά από υποδειγματοληψία, η ανάλυση των εικόνων μειώνεται σε 15x16 pixels. Για τη διαδικασία ταύτισης, η κανονικοποιημένη προς ταυτοποίηση εικόνα συγκρίνεται με κάθε εικόνα της βάσης δεδομένων και οι εικόνες για τις οποίες η τιμή συσχέτισης είναι υψηλή περνάνε στο δεύτερο στάδιο ελέγχου. Στο στάδιο αυτό ελέγχεται η συσχέτιση των επιμέρους χαρακτηριστικών του προσώπου τα οποία είναι αποθηκευμένα σε ξεχωριστούς πίνακες ταύτισης. Ταύτιση θεωρείται ότι επιτυγχάνεται όταν τα τρία τέταρτα των χαρακτηριστικών των δύο πρόσωπων παρουσιάζουν υψηλό βαθμό συσχέτισης. Υπάρχουν προσεγγίσεις της ταυτοποίησης προσώπων οι οποίες χρησιμοποιούν εξειδικευμένο λογισμικό. Συγκεκριμένα οι Preston [28] και Taylor [29] χρησιμοποίησαν ένα οπτικό σύστημα αναγνώρισης και ένα δίκτυο φωτοπολλαπλασιαστών αντίστοιχα για το σκοπό αυτό. Βέβαια, ο αριθμός των προσώπων που χρησιμοποιήθηκαν ήταν εξαιρετικά περιορισμένος -6 και 10 πρόσωπα αντίστοιχα. Συμπερασματικά για τη διαδικασία ταύτισης πρέπει να έχουμε υπόψη μας μερικά βασικά σημεία: 4.1 Επιλογή των χαρακτηριστικών Συστήματα τα οποία χρησιμοποιούν χαρακτηριστικά και όχι τις gray scale τιμές της εικόνας θα πρέπει να επιλέξουν ένα κατάλληλο και αποτελεσματικό σύνολο από χαρακτηριστικά για την ταυτοποίηση. Έχουν προταθεί πολλά χαρακτηριστικά στις διάφορες ερευνητικές εργασίες. Στους Πίνακες Α4.2 και Α4.6 παρουσιάζονται αρκετά από αυτά τα οποία διαφέρουν ανάλογα με το αν χρησιμοποιούνται εικόνες εμπρόσθιας όψης ή προφίλ. 4.2 Σχήματα ταύτισης Πολλές τεχνικές έχουν χρησιμοποιηθεί για τη διαδικασία ταύτισης. Στην πλειοψηφία τους είναι κλασσικές τεχνικές ή παραλλαγές τους. Συνοπτικά οι πιο δημοφιλείς φαίνεται ότι είναι οι: (1) Ευκλείδια απόσταση. Αποτελεί την πρώτη επιλογή στη διαδικασία ταύτισης. Ο στόχος είναι να ευρεθεί το πρόσωπο εκείνο στη βάση δεδομένων του οποίου το διάνυσμα χαρακτηριστικών παρουσιάζει την ελάχιστη Ευκλείδια απόσταση με το αντίστοιχο διάνυσμα του προς ταυτοποίηση προσώπου. Η χρήση της Ευκλείδιας απόστασης είναι αποτελεσματική ανάλογα με τα χαρακτηριστικά που χρησιμοποιούνται. (2) Ομαδοποίηση. Τεχνικές ομαδοποίησης χρησιμοποιούνται σχεδόν αποκλειστικά όταν τα πρόσωπα αναπαριστώνται από διανύσματα χαρακτηριστικών. Διακρίνονται για την ευστάθεια τους αλλά όχι για τη τέλεια διαχωριστική τους ικανότητα. Τυπικά παραδείγματα αποτελούν οι αλγόριθμοι k-means και τα νευρωνικά δίκτυα SOM. 35 (3) Διαμερισμός συνόλων. Εφαρμόστηκε σε πολλές περιπτώσεις σε τεχνικές που χρησιμοποιούν διανύσματα γεωμετρικών χαρακτηριστικών όπως αποστάσεις, γωνίες κλπ. Η διαδικασία στηρίζεται στην σταδιακή απόρριψη διανυσμάτων τα οποία διαφέρουν σημαντικά έστω και σε ένα επιμέρους χαρακτηριστικό. Η τελική επιλογή πραγματοποιείται από ένα πολύ μικρό υποσύνολο των προσώπων της βάσης δεδομένων και συχνά απαιτεί τη χρήση μια άλλης μετρικής όπως η Ευκλέιδια απόσταση. (4) Συσχέτιση. Δημοφιλής διαδικασία ταύτισης για τεχνικές που χρησιμοποιούν τις gray scale τιμές της εικόνας ως χαρακτηριστικά. Πάντως πειραματικά αποδεικνύεται ότι δεν είναι η βέλτιστη επιλογή για την ταύτιση. (5) Συνδυασμός των ανωτέρω. Ο συνδυασμός των ανωτέρω τεχνικών ταύτισης τις περισσότερες φορές είναι επιβεβλημένος από την ίδια τη μορφή τους. Δεν αποτελεί έκπληξη επομένως το γεγονός ότι πολλοί ερευνητές ακολούθησαν την τακτική αυτή. Άλλες προσεγγίσεις όπως τα γραμμικά δέντρα απόφασης και τα ελάχιστα τετράγωνα έχουν επίσης χρησιμοποιηθεί αλλά δεν είναι τόσο διαδεδομένες. Στους Πίνακες Α4.3 - Α4.5 πραγματοποιήσαμε μια σύγκριση πέντε διαφορετικών μετρικών οι οποίες χρησιμοποιούνται για ταύτιση πινάκων. Από τα αποτελέσματα της σύγκριση προκύπτει ότι οι μετρικές Μ1 και Μ3 όχι μόνο επιτυγχάνουν υψηλότερο βαθμό επιτυχούς ταυτοποίησης αλλά είναι λιγότερο επιρρεπείς στη χωρική ανάλυση των εικόνων. Επίσης παρουσιάζουν σημαντική ευρωστία, δεδομένου ότι ακόμα και οι αποτυχημένες ταυτοποιήσεις δεν είναι ιδιαίτερα απομακρυσμένες από τα σωστά πρότυπα που βρίσκονται αποθηκευμένα στη βάση δεδομένων. Σημειώνεται ότι οι εικόνες που χρησιμοποιήθηκαν στο πείραμα δεν είχαν κανονικοποιηθεί ως προς την απόσταση των ματιών, μια τακτική η οποία είναι σχεδόν επιβεβλημένη στις τεχνικές που χρησιμοποιούν για την ταυτοποίηση τους πίνακες των gray scale τιμών. 36 Κεφάλαιο A5 ΤΕΧΝΙΚΕΣ ΑΝΑΛΥΣΗΣ ΕΚΦΡΑΣΕΩΝ ΜΕ ΒΑΣΗ ΤΗΝ ΜΟΡΦΟΠΟΙΗΣΗ ΤΟΥ ΠΡΟΣΩΠΟΥ Οι προσεγγίσεις σχετικά με την ανάλυση εκφράσεων διακρίνονται χονδρικά σε τρεις κατηγορίες ανάλογα με την πηγή της πληροφορίας που χρησιμοποιείται: (α) στατικές ­ χρήση εικόνων προσώπων που απεικονίζουν κάποια έκφραση, (β) ημιστατικές ­ χρήση δύο εικόνων μια με το πρόσωπο σε ουδέτερη κατάσταση και μία με το πρόσωπο στη κορύφωση της έκφρασης και (γ) δυναμικές ­χρήση ακολουθίας βίντεο στην οποία απεικονίζεται η εξέλιξη της έκφρασης. Στο κεφάλαιο αυτό πραγματοποιείται μια ανασκόπηση των τεχνικών που έχουν εμφανιστεί στη βιβλιογραφία σχετικά με την ανάλυση εκφράσεων και την εξαγωγή συμπεράσματος σχετικά με τα συναισθήματα με βάση τις διαμορφώσεις των ιστών του προσώπου ­οπτική πληροφορία. Σε κάποιες περιπτώσεις δίνονται και μερικές προσομοιώσεις, οι οποίες πραγματοποιήθηκαν από τον συγγραφέα της διατριβής, για βελτίωση της κατανόησης των αλγορίθμων αλλά και για να δοθεί η ευκαιρία να τονιστούν και να σχολιαστούν κάποια σημαντικά ζητήματα. 1. ΕΙΣΑΓΩΓΗ Η έρευνα στην ανάλυση εκφράσεων έχει έλθει ξανά στο προσκήνιο τα τελευταία χρόνια. Ο Shlosberg [30] σε μια από τις πρώτες προσεγγίσεις χρησιμοποίησε τρεις άξονες για την περιγραφή των συναισθημάτων: αποδοχής-απόρριψης A-R (attention-rejection), ευαρέσκειας-δυσαρέσκειας P-U (pleasantnessunpleasantness), και βαθμού ενεργοποίησης (level of activation). Για παράδειγμα συναισθήματα όπως η περιφρόνηση και η απέχθεια χαρακτηρίζονται από υψηλή τιμή απόρριψης ενώ συναισθήματα όπως η οργή χαρακτηρίζονται από υψηλή τιμή απαρέσκειας. Οι Ekman και Friesen [31] θεωρούν έξι πρωτεύουσες εκφράσεις οι οποίες συνδέονται με αντίστοιχα συναισθήματα και οι οποίες μπορούν να αναγνωριστούν από τις μορφοποιήσεις του προσώπου. Οι εκφράσεις αυτές είναι χαρά, λύπη, έκπληξη, απέχθεια, οργή και φόβος. Πέρα από τις πρωτεύουσες εκφράσεις κατέγραψαν πολλές άλλες οι οποίες όμως δεν είναι τόσο εύκολα ανιχνεύσιμες. Στο πεδίο των γραφικών για υπολογιστές και ιδιαίτερα στο animation έχουν εμφανιστεί πολλές εργασίες οι οποίες μοντελοποιούν τις εκφράσεις με βάση την κίνηση των μυών του προσώπου Πρωτοποριακή στον τομέα αυτό θεωρείται η εργασία των Terzopoulos και Waters [43] οι οποίοι μεταξύ άλλων πρότειναν και ένα μοντέλο για τους ιστούς και το δέρμα του προσώπου. Πέρα από την μοντελοποίηση χρησιμοποίησαν την αντίστροφη διαδικασία για την ανάλυση των εκφράσεων (analysis by synthesis). Στην ανάλυση εκφράσεων τα χαρακτηριστικά του προσώπου είναι ιδιαίτερα σημαντικά και η αποτελεσματική ανίχνευση τους καθίσταται επιτακτική. Για το σκοπό αυτό οι εικόνες των προσώπων πρέπει να αρκετά υψηλής ανάλυσης και τα χαρακτηριστικά ευδιάκριτα. 37 2. ΠΡΟΣΩΠΑ ΚΑΙ ΣΥΝΑΙΣΘΗΜΑΤΙΚΕΣ ΚΑΤΑΣΤΑΣΕΙΣ Η έρευνα σχετικά με την αναγνώριση συναισθημάτων μέσα από τις εκφράσεις του προσώπου [31], εμπνεύστηκε από την πρωτοποριακή εργασία του Darwin [32] και από τις μελέτες σχετικά με την αναγνώριση προσώπων που εμφανίστηκαν στην διεθνή βιβλιογραφία τελευταίες δεκαετίες [33]-[35]. Συμπληρωματικές, ως προς τις παραδοσιακές υπολογιστικές τεχνικές, είναι οι μελέτες οι οποίες προσεγγίζουν τον τρόπο λειτουργίας των νευρολογικών μηχανισμών οι οποίοι εμπλέκονται στη διαμόρφωση της διαδικασίας αναγνώρισης συναισθημάτων από τον άνθρωπο [36]. 2.1 Ένα πλαίσιο περιγραφής της απεικόνισης των συναισθημάτων στα πρόσωπα Η παραδοσιακή τακτική αναγνώρισης των συναισθημάτων μέσα από την έκφρασή τους στο πρόσωπο είναι όμοια με αυτήν της αναγνώρισης τους μέσω της ομιλίας: Τα δεδομένα εισόδου είναι στατικά και επιδεικνύουν απλά την κορύφωση του συναισθήματος ­ `apex’. Στην περίπτωση της οπτικής πληροφορίας η απεικόνιση είναι απλά μια φωτογραφία στην οποία το υποκείμενο εικονίζεται στο υψηλότερο εκφραστικό επίπεδο. Οι σύγχρονες τεχνικές πάντως τείνουν να εμπλέκουν πληροφορία δυναμικής υφής για την κατανόηση των συναισθημάτων μέσα από τις εκφράσεις του προσώπου. Η αλήθεια είναι ότι η αναγνώριση συναισθημάτων από την οπτική πληροφορία έχει ένα ισχυρότερο υπόβαθρο, προερχόμενο από μελέτες στο τομέα της Νευροφυσιολογίας, από ότι η αναγνώριση τους από ηχητικά δεδομένα. Αυτό οφείλεται σε μεγάλο βαθμό στο γεγονός ότι πολλές μελέτες σχετικές με την αναγνώριση προσώπων διερεύνησαν και τον τρόπο με τον οποίο οι άνθρωποι ερμηνεύουν τα συναισθήματα των συνανθρώπων τους με βάση τις αντιλαμβανόμενες εκφράσεις [36][37]. Από την άλλη πλευρά η συντριπτική πλειοψηφία των μελετών σχετικά με την κατανόηση συναισθημάτων μέσω των εκφράσεων επικεντρώθηκαν απλά στην ταξινόμηση τους σε έξι πρωτεύουσες κατηγορίες. Η τάση αυτή θα πρέπει να αποδοθεί στον Ekman και τους συνεργάτες του οι οποίοι αποφάνθηκαν ότι πρακτικά μόνο τα έξι πρωτεύοντα συναισθήματα ­ή καλύτερα κατηγορίες συναισθημάτων- μπορούν να απεικονιστούν μέσα από συγκεκριμένες μορφοποιήσεις του προσώπου. Το παράδοξο είναι ότι οι Ekman και Friesen [38] είναι από τους ελάχιστους ερευνητές οι οποίοι εξέτασαν τον τρόπο μορφοποίησης και σύνθεσης και μη πρωτευουσών εκφράσεων ­με αλλαγή για παράδειγμα του αριθμού των περιοχών του προσώπου που εμπλέκονται στις εκφράσεις, της χρονικής εξέλιξης τους και της έντασης της δράσης των μυών. Στην ίδια μελέτη εξετάστηκε και πώς η ανάμιξη συναισθημάτων μπορεί να οδηγήσει σε ουδετεροποίηση των εκφράσεων και φυσικά απώλεια της αντίληψης τους. Για παράδειγμα η ανάμιξη της οργής με τη λύπη μπορεί είτε να οδηγήσει σε μια μη αναγνωρίσιμη έκφραση του προσώπου είτε στην επικάλυψη της λιγότερη ισχυρής εκ των δύο από την άλλη. Σχετικά πρόσφατα ξεκίνησε κάποια πρώιμη έρευνα σχετικά με τη σύνθεση ενδιάμεσων εκφράσεων με προβολή των παραμέτρων μορφοποίησης των εκφράσεων ­ουσιαστικά δράση μυών- στο χώρο ενεργοποίησης­επαλήθευσης [39]. Η επέκταση πάντως των τεχνικών αυτών και στην ανάλυση μη πρωτευουσών εκφράσεων συναντά σημαντικές δυσκολίες με βασικότερη τη δυσκολία αντίληψης της δράσης των μυών χωρίς τη χρήση ηλεκτροδυναμικών διατάξεων. 38 Βέβαια παρά την επικέντρωση στην ανάλυση των εκφράσεων που σχετίζονται με τα πρωτεύοντα συναισθήματα, η οποία δείχνει πρακτικά προσέγγιση της αναγνώρισης συναισθημάτων μέσα από ένα στενό πρίσμα, ουδείς μπορεί να αμφισβητήσει την αξία της υλοποίησης ενός τέτοιου συστήματος σε περιβάλλοντα επικοινωνίας ανθρώπου μηχανής. Στη πράξη ακόμα και ένας υπολογιστής που αναγνωρίζει τις πρωτεύουσες εκφράσεις είναι σημαντικά πιο έξυπνος από αυτόν που δεν το καταφέρνει. 3. ΑΠΕΙΚΟΝΙΣΕΙΣ ΠΟΥ ΣΧΕΤΙΖΟΝΤΑΙ ΜΕ ΤΗΝ ΣΥΝΑΙΣΘΗΜΑΤΙΚΗ ΕΚΦΡΑΣΗ Τα χαρακτηριστικά του προσώπου [38] μπορούν να θεωρηθούν είτε στατικά ­όπως για παράδειγμα το χρώμα του δέρματος- είτε αργά μεταβαλλόμενα ­όπως υφή η οποία μεταβάλλεται με την ανάπτυξη ρυτίδων- είτε κινούμενα ­όπως οι βλεφαρίδες, τα φρύδια κοκ. Η ανίχνευση της θέση των χαρακτηριστικών αυτών από χρονικά σταθερές απεικονίσεις ­φωτογραφίες- είναι ο στόχος των στατικών προσεγγίσεων της ανάλυσης εκφράσεων. Παρόλα αυτά υπάρχει ισχυρή ένδειξη ότι η αναγνώριση εκφράσεων από τον άνθρωπο στηρίζεται περισσότερο σε πληροφορία δυναμικής υφής παρά σε στατικές απεικονίσεις. Ο Bassili [40] πραγματοποίησε μια μελέτη στην οποία μια ομάδα ανθρώπων κλήθηκε να αναγνωρίσει εκφράσεις σε ακολουθίες βίντεο στις οποίες υπήρχαν φωτεινές κουκκίδες μόνο στις θέσεις των χαρακτηριστικών του προσώπου και οι υπόλοιπες περιοχές ήταν σκοτεινές. Από την συγκεκριμένη μελέτη προέκυψε ότι αναγνώριση πάνω από το επίπεδο τυχαιότητας ήταν εφικτή για όλες τις εκφράσεις, όταν χρησιμοποιούνταν ακολουθίες βίντεο ως πηγή πληροφορίας, ενώ με βάση τις στατικές εικόνες μόνο οι εκφράσεις "χαρά" και "λύπη"ness αναγνωρίστηκαν σε ποσοστό υψηλότερο από το επίπεδο τυχαιότητας. Δυστυχώς το συμπέρασμα του Bassili έχει ουσιαστική αξία μόνο όσον αφορά την αντίληψη των εκφράσεων από τον άνθρωπο γιατί και η αναγνώριση εκφράσεων από τον υπολογιστή με βάση ακολουθίες βίντεο αντιμετωπίζει πολλά προβλήματα. Η ειδοποιός διαφορά μεταξύ ανθρώπου και υπολογιστή είναι η ακρίβεια εντοπισμού των προσώπων και των χαρακτηριστικών τους στο χώρο. Το ανθρώπινο οπτικό σύστημα είναι εξαιρετικά αποτελεσματικό στον τομέα αυτό. Αντίθετα στους υπολογιστές τα σφάλματα εντοπισμού του προσώπου και των χαρακτηριστικών του, λειτουργούν προσθετικά και σε πολλές περιπτώσεις καλύπτουν την ουσιαστική πληροφορία κίνησης που διατίθεται από τις ακολουθίες. Το τελικό συμπέρασμα είναι ότι οι στατικές προσεγγίσεις οι οποίες είναι λιγότερο επιρρεπείς στον εντοπισμό των χαρακτηριστικών του προσώπου διατηρούν την αξία τους όσον αφορά την αναγνώριση των εκφράσεων. Από την άλλη πλευρά τα στάδια προεπεξεργασίας τα οποία αφορούν στον εντοπισμό του προσώπου, των βασικών χαρακτηριστικών του ­ όπως τα μάτια, μύτη, το στόμα κοκ- και σημείων στη περιοχή των χαρακτηριστικών αυτών είναι εξαιρετικά σημαντικά σε όλες τις περιπτώσεις. Οι δυναμικές προσεγγίσεις αντιμετωπίζουν επιπλέον και την πρόκληση της παρακολούθησης της κίνησης των χαρακτηριστικών με τεχνικές εκτίμησης κίνησης και μοντελοποίησης των μυών και των δράσεων τους. Τη βάση για τα περισσότερα από τα συστήματα αναγνώρισης εκφράσεων αποτέλεσε η εργασία των Ekman και Friesen[31], οι οποίοι δημιούργησαν ένα σύστημα κωδικοποίησης το οποίο περιγράφει όλες τις οπτικά διαχωρίσιμες κινήσεις του προσώπου το οποίο ονόμασαν FACS - Facial Action Coding System. Το FACS είναι ένα σύστημα ανατομικής περιγραφής το οποίο στηρίζεται στον ορισμό των «μονάδων δράσης» ­AU action units. Κάθε AU αντιστοιχεί στην ταυτόχρονη δράση μιας ομάδας μυών οι οποίοι διαμορφώνουν 39 μια συγκεκριμένη δράση στο πρόσωπο. Δεδομένου ότι αρκετοί μύες συμμετέχουν σε περισσότερες από μία AU δεν υπάρχει σαφής αντιστοιχία μυών και AU. Ένα σύνολο από 46 AU καλύπτει πλήρως τον έλεγχο των εκφράσεων ενώ άλλες 12 είναι υπεύθυνες για την θέση και κίνηση της ίριδας των ματιών. Το μοντέλο FACS χρησιμοποιήθηκε αποδοτικά για την σύνθεση εκφράσεων ενώ η χρήση του για ανάλυση εκφράσεων εξακολουθεί να ερευνάται [41]-[47]. Ο Ekman και οι συνεργάτες του δημιούργησαν επίσης και ένα λεξικό το EMFACS στο οποίο δηλώνονται οι AU οι οποίες περιγράφουν τις πρωτεύουσες εκφράσεις. Στη συνέχεια δημιούργησαν τη βάση FACSAID η οποία χρησιμοποιείται για τον υπολογισμό των συναισθηματικών εκφράσεων με βάση τις μετρήσεις των παραμέτρων του FACS [48]. Το μοντέλο FACS ενέπνευσε και τη δημιουργία των παραμέτρων περιγραφής προσώπου και απόδοσης κίνησης προσώπου στο πλαίσιο του προτύπου ISO MPEG-4 [49]. Το σύνολο παραμέτρων για τον ορισμό προσώπου (Facial Definition Parameter set, FDP) και το σύνολο παραμέτρων απόδοσης κίνησης προσώπου (Facial Animation Parameter set, FAP) έχουν σχεδιαστεί για να επιτρέπουν τον ορισμό του σχήματος και της υφής ενός προσώπου καθώς και την αναπαράσταση εκφράσεων, συναισθημάτων καθώς και προφοράς ομιλίας. Το σύνολο FDP αποτελείται από ένα τρισδιάστατο πλέγμα, ένα σύνολο από σημεία στο τρισδιάστατο χώρο και ένα σύνολο από εναλλακτικά χαρακτηριστικά όπως μαλλιά, γυαλιά, ρυτίδες κοκ, τα οποία επιτρέπουν τον ορισμό του ακριβούς σχήματος προσώπου καθώς και της υφής του στην φάση του setup. Εάν αυτά τα στοιχεία χρησιμοποιηθούν στην φάση της αρχικής ρύθμισης ενός συνθετικού μοντέλου, είναι πιθανόν να παράγουμε με ακόμα μεγαλύτερη ακρίβεια τις κινήσεις του συγκεκριμένου προσώπου. Το σύνολο παραμέτρων απόδοσης κίνησης προσώπου (FAPs) είναι βασισμένο στην μελέτη των ελάχιστων δράσεων του προσώπου και είναι στενά συνδεδεμένο με τις δράσεις των μυών. Οι δράσεις, όπως για παράδειγμα η σύμπτυξη των φρυδιών και το άνοιγμα του στόματος, επιτρέπουν την αναπαράσταση των πιο φυσικών μορφοποιήσεων του προσώπου. Όλες οι παράμετροι που αφορούν την απόδοση κίνησης προσώπου εκφράζονται σύμφωνα με τις μονάδες παραμέτρων αναπαράστασης προσώπου (Facial Animation Parameters Units). Οι μονάδες αυτές έχουν σχεδιαστεί έτσι ώστε να επιτρέπουν την απεικόνιση των παραμέτρων απόδοσης κίνησης σε κάθε μοντέλο προσώπου με έναν συνεχή τρόπο παράγοντας λογικά αποτελέσματα σε ότι αφορά τις εκφράσεις και την ανθρώπινη προφορά. Ανταποκρίνονται στον τεμαχισμό των αποστάσεων ανάμεσα σε κάποια χαρακτηριστικά κλειδιά του ανθρώπινου προσώπου. Το μέγεθος του τεμαχισμού που εφαρμόζεται επιλέγεται ανάλογα με την επιθυμητή ακρίβεια. Για λεπτομερέστερη ανάλυση ο αναγνώστης παραπέμπεται στο Κεφάλαιο Δ3. 4. ΝΕΥΡΟΦΥΣΙΟΛΟΓΙΑ ΚΑΙ ΣΥΝΑΙΣΘΗΜΑΤΑ Όπως και στις περιπτώσεις αναγνώρισης προσώπου, υποστηρίζεται ότι υπάρχουν συγκεκριμένες περιοχές του εγκεφάλου οι οποίες είναι υπεύθυνες για την αντίληψη εκφράσεων από εικόνες. Συγκεκριμένα η απώλεια του αμυγδάλου (amygdala) προκαλεί την αδυναμία αναγνώρισης των εκφράσεων «οργή» και «φόβος» σε φωτογραφίες προσώπων [51]. Επίσης εμφανίζεται αυξημένη δραστηριότητα του αμυγδάλου κατά την παρακολούθηση παραλλαγών της έκφρασης «απέχθεια» ακόμα και αν το πρόσωπο στο οποίο απεικονίζεται η έκφραση είναι άγνωστο [52]. Πάντως δεν υπάρχει σαφής ένδειξη για την περιοχή του εγκεφάλου που είναι υπεύθυνη για την κατανόηση ευχάριστων συναισθημάτων όπως η «χαρά», η «ικανοποίηση» κοκ [53]. 40 Το πιο αξιοσημείωτο συμπέρασμα πάντως είναι ότι η επεξεργασία της πληροφορίας που σχετίζεται με την αναγνώριση συναισθημάτων πραγματοποιείται σε διαφορετικές περιοχές του εγκεφάλου από ότι η αναγνώριση προσώπων και επιπλέον είναι πιθανόν να εμπλέκει και διαφορετικά είδη διεγέρσεων. 5. ΤΕΧΝΙΚΕΣ ΑΝΑΓΝΩΡΙΣΗΣ ΕΚΦΡΑΣΕΩΝ Στην παράγραφο αυτή παρουσιάζονται μερικές από τις τεχνικές οι οποίες έχουν εμφανιστεί στη βιβλιογραφία και πραγματεύονται τους τρόπους με τους οποίους ο υπολογιστής μπορεί να ανακτήσει πληροφορίες σχετικά με τη συναισθηματική κατάσταση κάποιου ατόμου μέσα από τις εκφράσεις του προσώπου του. Οι προσεγγίσεις του ανωτέρω ζητήματος διακρίνονται σε δύο κατηγορίες: (α) στατικές, στις οποίες η αναγνώριση της έκφρασης βασίζεται σε μια απλή φωτογραφία στην οποία εικονίζεται η έκφραση στην κορύφωση της, και (β) δυναμικές, στις οποίες η αναγνώριση πραγματοποιείται με τη χρήση μιας ακολουθίας από καρέ τα οποία επιδεικνύουν την χρονική εξέλιξη της έκφρασης. Η διάρκεια μιας ακολουθίας που απεικονίζει κάποια έκφραση κυμαίνεται από 0.5 έως 4 δευτερόλεπτα [35]. Μια ενδιάμεση κατηγορία αποτελούν οι τεχνικές οι οποίες χρησιμοποιούν δύο καρέ, ένα με το πρόσωπο σε ουδέτερη κατάσταση και ένα με το πρόσωπο στη κορύφωση της έκφρασης. Παρόλο που τεχνικές αυτές πλησιάζουν την περισσότερο τη δυναμική προσέγγιση θα μπορούσε καταχρηστικά κάποιος να τις χαρακτηρίσει ημιστατικές. Παρακολούθηση της κίνησης του προσώπου Όπως αναφέρθηκε στη προηγούμενη παράγραφο οι άνθρωποι οφείλουν ένα μεγάλο ποσοστό της ικανότητας τους να αναγνωρίζουν εκφράσεις στον εξαιρετικά ακριβή εντοπισμό του προσώπου και των χαρακτηριστικών του. Σε κάθε αλγόριθμο αναγνώρισης εκφράσεων ο εντοπισμός του προσώπου και η παρακολούθηση της κίνησης του είναι ζητήματα πολύ σημαντικά. Στο δεύτερο μέρος της διατριβής προτείνονται διάφορα σχήματα εντοπισμού προσώπων. Στη παράγραφο αυτή συνοψίζονται μερικές από τις τεχνικές που χρησιμοποιούνται για την παρακολούθηση της κίνησης του προσώπου [54]-[59]. Στις εργασίες [54]-[59] το πρόσωπο ανιχνεύεται με βάση την χρωματική κατανομή του δέρματος [60]-[62], σε κάθε καρέ ξεχωριστά, και στη συνέχεια υπολογίζεται η συνολική μετατόπιση του ανάμεσα στα δύο καρέ. Η προσέγγιση αυτή είναι αξιόπιστη όταν εφαρμόζεται σε ακολουθίες βίντεο με ελεγχόμενες συνθήκες φωτισμού και όταν το πρόσωπο κοιτάζει ευθεία στη κάμερα ­εφαρμογές τηλεδιάσκεψης. Σε κάθε άλλη περίπτωση η ακρίβεια υπολογισμού της κίνησης είναι χαμηλή και επηρεάζεται από την κλίση και στροφή του προσώπου. Ως τελικό αποτέλεσμα το σφάλμα, όσον αφορά στην εκτίμηση της κίνησης του προσώπου, είναι μεγαλύτερο από την ίδια την κίνηση των χαρακτηριστικών που διαμορφώνουν την έκφραση. Οι τεχνικές παρακολούθησης της κίνησης του προσώπου με χρήση προτύπων, active contours, γράφων [63], wavelets [64] και RBF συναρτήσεων [65], είναι σε γενικές γραμμές αναίσθητες ως προς affine διακυμάνσεις και μετασχηματισμούς αλλά έχουν υψηλή υπολογιστική πολυπλοκότητα η οποία τις καθιστά ακατάλληλες σε εφαρμογές πραγματικού χρόνου. Εκτός από τις τεχνικές παρακολούθησης της κίνησης του προσώπου σημαντικές είναι και οι τεχνικές οι οποίες προσπαθούν να εκτιμήσουν την θέση του στο τρισδιάστατο χώρο -pose estimation- και να αντισταθμίσουν τις αλλαγές που εμφανίζονται στα χαρακτηριστικά του προσώπου εξαιτίας της οριοθέτησης του[66][67]. 41 5.1 Στατικές προσεγγίσεις Οι περισσότερες από τις μελέτες όσον αφορά την ανάλυση εκφράσεων πραγματοποιήθηκαν σε «mug shot» φωτογραφίες στις οποίες απεικονίζονται οι εκφράσεις στην κορύφωση τους [68]. Οι φωτογραφίες αυτές επιτρέπουν την ανίχνευση κάποιων στατικών στοιχείων όπως οι ρυτίδες στο μέτωπο, στα μάγουλα και ανάμεσα στα φρύδια, με βάση τα οποία πραγματοποιείται η ταξινόμηση τους σε συγκεκριμένες κατηγορίες. Η εξαγωγή των στοιχείων αυτών δεν είναι ούτε εύκολη αλλά ούτε ικανή για το διαχωρισμό εκφράσεων. Η λογική της ταξινόμησης είναι μάλλον «το μη χείρον βέλτιστο» παρά η ουσιαστική περιγραφή των εκφράσεων. Πολύ λίγες από τις στατικές προσεγγίσεις εμφανίζουν αξιοσημείωτα αποτελέσματα [69]. Μια σχετικά επιτυχημένη τεχνική παρουσιάζεται στην εργασία [70], στην οποία ένα σύνολο από νευρωνικά δίκτυα, τα οποία λειτουργούν παράλληλα, πραγματοποιούν προβολή των μπλοκ της εικόνας στους PCA άξονες των περιοχών ενδιαφέροντος ­μάτια και στόμα. Μετά τη διαδικασία εκπαίδευσης το νευρωνικό δίκτυο με την μεγαλύτερη ικανότητα ανάκλησης χρησιμοποιείται ως ταξινομητής. Οι συγγραφείς της εργασίας αναφέρουν ποσοστό γενίκευσης 86% -στα ίδια δεδομένα οι άνθρωποι είχαν ποσοστό επιτυχίας 92%- αλλά για την εφαρμογή της τεχνικής απαιτείται επακριβής κανονικοποίηση των εικόνων εισόδου ως προς την κλίμακα και την διάταξη των χαρακτηριστικών. Επίσης η αυτόματη εξαγωγή των μπλοκ που περιέχουν τα μάτια και το στόμα με αρκετά μεγάλη ακρίβεια είναι αμφίβολη. Το γεγονός ότι οι στατικές προσεγγίσεις, παρά την αμφίβολη αποτελεσματικότητα τους, είναι αρκετά δημοφιλείς στη βιβλιογραφία μπορεί να αποδοθεί σε δύο παράγοντες: (α) στην ύπαρξη αρκετών βάσεων με στατικές εικόνες σε αντίθεση με τις λίγες, στον αριθμό αλλά και πλήθος ακολουθιών, δυναμικές βάσεις, και (β) στα επίπονα στάδια προεπεξεργασίας που απαιτούνται στις δυναμικές προσεγγίσεις. 5.2 Δυναμικές προσεγγίσεις (α) Εκτίμηση της κίνησης των σημείων στην επιφάνεια του προσώπου. Ένα κρίσιμο θέμα στις δυναμικές προσεγγίσεις είναι η εκτίμηση της κίνησης των χαρακτηριστικών και γενικότερα των σημείων του προσώπου από ένα καρέ στο επόμενο. Οι πιο διαδεδομένες προσεγγίσεις στο πρόβλημα αυτό χρησιμοποιούν εκτίμηση των χωρικών και χρονικών παραγώγων των καρέ, φιλτράρισμα ή απλά συσχέτιση στο χώρο των εικόνων. Η εκτίμηση των χωρικών και χρονικών παραγώγων βασίζεται στην προσέγγιση των Horn και Schunck [71], οι οποίοι υποθέτουν ότι το δέρμα του προσώπου είναι τοπικά ομοιογενές και τα βασικά χαρακτηριστικά του διακρίνονται από σχετικά υψηλό βαθμό ανομοιογένειας. Η υπόθεση αυτή είναι ορθή όταν το πρόσωπο έχει απομονωθεί από το φόντο, σε διαφορετική περίπτωση αν το φόντο είναι ανομοιογενές και υψίσυχνο, η τεχνική οδηγείται σε αποτυχία [45]. Η εκτίμηση της κίνησης με φιλτράρισμα [72] απαιτεί την εφαρμογή φίλτρων τόσο στο πεδίο του χρόνου όσο και στο χώρο. Με τον τρόπο αυτό εκτιμάται η χωροχρονική συχνοτική κατανομή, ανάμεσα σε μια σειρά από καρέ, η εξέλιξη της οποίας οδηγεί στη κατασκευή του πεδίου των διανυσμάτων κίνησης. Το μειονέκτημα της μεθόδου είναι ότι απαιτεί ένα αρκετά μεγάλο αριθμό από καρέ για τη σωστή εκτίμηση του πεδίου κίνησης. Οι τεχνικές συσχέτισης [73][74] στηρίζονται στην κλασική ιδέα της πρόβλεψης κίνησης η οποία χρησιμοποιείται στο πρότυπο MPEG. Ο υπολογισμός της κίνησης ενός pixel σε δύο διαδοχικά καρέ βασίζεται στην υπόθεση 42 ότι κίνηση αυτή είναι μικρή και υπολογίζεται με απευθείας σύγκριση της γραμμικά φιλτραρισμένης τιμής του pixel στο τρέχον καρέ με τις αντίστοιχες γειτονικές του pixel θέσεις στο επόμενο καρέ. Ο υπολογισμός της κίνησης των pixels με τον τρόπο αυτό μοιάζει απλοϊκός και επιρρεπής σε σφάλματα, κάτω όμως από ένα μακροσκοπικό πρίσμα μπορούν να εξαχθούν ορθά συμπεράσματα. Για παράδειγμα η συνέχεια η οποία παρουσιάζει το δέρμα του προσώπου υποχρεώνει ομοιόμορφη ομαδική κίνηση των σημείων σε αυτό. Επομένως ακόμα και αν για κάποια από αυτά η κίνηση έχει εκτιμηθεί εσφαλμένα η μέση κίνηση θα έχει εκτιμηθεί ορθά. Από την άλλη πλευρά πάντως, με την ανωτέρω τεχνική, αξιοπιστία μπορεί να αποδοθεί στην εκτίμηση της διεύθυνσης της κίνησης παρά στο μέτρο της. Σε όλες τις περιπτώσεις η σωστή εκτίμηση της κίνησης των σημείων του προσώπου απαιτεί αποτελεσματική αντιστάθμιση της ολικής κίνησης του προσώπου. Όπως αναφέρθηκε στην προηγούμενη παράγραφο σε πολλές περιπτώσεις το σφάλμα στην εκτίμηση της ολικής κίνησης του προσώπου είναι μεγαλύτερο από την ίδια την κίνηση των σημείων σε αυτό. Ημιστατικές προσεγγίσεις Οι ημιστατικές προσεγγίσεις ταξινομούν τις εκφράσεις βασιζόμενες σε χαρακτηριστικά τα οποία πηγάζουν από τον υπολογισμό της κίνησης, είτε των μυών του προσώπου είτε των χαρακτηριστικών του, ανάμεσα σε δύο καρέ τα οποία απεικονίζουν το πρόσωπο στην ουδέτερη κατάσταση και στην κορύφωση της έκφρασης. Είναι προφανές ότι στηρίζονται σε δυναμικά στοιχεία και έχουν δύο πλεονεκτήματα: (α) Η κίνηση των επιμέρους σημείων του προσώπου ανάμεσα στα δύο αυτά καρέ είναι αρκετά μεγάλη, και (β) υπάρχει αρκετό υλικό για τον αποτελεσματικό έλεγχο των αλγορίθμων. Από την άλλη πλευρά ουδείς αμφισβητεί ότι η χρονική εξέλιξη της έκφρασης αποτελεί σημαντικό χαρακτηριστικά της και προφανώς η χρήση δύο μόνο καρέ αδυνατεί να καταγράψει την χρονική αυτή εξέλιξη. Ο Mase [45] προσπάθησε να υπολογίσει την κίνηση κάποιων ομάδων μυών οι οποίοι αντιστοιχούν στις AUs όπως αυτές ορίζονται στο FACS. Η κίνηση των μυών προσεγγίζεται με την εκτίμηση της κίνησης κάποιων ορθογωνίων της επιφάνειας του προσώπου και στη συνέχεια χρησιμοποιείται για τον χαρακτηρισμό των εκφράσεων. Το πρόβλημα στην προσέγγιση αυτή είναι ότι ο αυτόματος εντοπισμός των ορθογωνίων που περικλείουν τους μύες είναι πολύ δύσκολος, δεδομένου ότι στην πλειοψηφία τους τα ορθογώνια αντιστοιχούν σε ομοιόμορφες περιοχές δέρματος οι οποίες δεν προσδιορίζονται από κάποιο συγκεκριμένο χαρακτηριστικό. Επιπλέον τίθεται και το ερώτημα κατά πόσον η τρισδιάστατη κίνηση των μυών μπορεί να απεικονιστεί από την κίνηση των σημείων της επιφάνειας του προσώπου. Βέβαια ούτε και ο άνθρωπος υπολογίζει την πραγματική κίνηση των μυών, απλά παρατηρεί τις μορφοποιήσεις του προσώπου. Ο ίδιος συγγραφέας σε μια πιο ρεαλιστική προσέγγιση θεωρεί το πρόσωπο ως ένα ψηφιδωτό απαρτιζόμενο από επιμέρους περιοχές για κάθε μια από τις οποίες υπολογίζεται το μέσο διάνυσμα κίνησης και η διασπορά του. Η ταξινόμηση των εκφράσεων πραγματοποιείται με τον κανόνα k-means. Τα αποτελέσματα της προσέγγισης αυτής αποδεικνύουν ότι μοντελοποίηση της φυσικής δομής των μυών, για σκοπούς ανάλυσης, προσθέτει υπολογιστική πολυπλοκότητα χωρίς αντίστοιχο κέρδος όσον αφορά την απόδοση. Στο Κεφάλαιο Δ4 της διατριβής παρουσιάζεται μια επέκταση της τεχνικής του Mase σε πλήρως δυναμικό περιβάλλον και με κατευθυντική ομαδοποίηση των διανυσμάτων κίνησης σε κάθε περιοχή του προσώπου. 43 Οι Yacoob και Davis [75] επικεντρώθηκαν στις ακμές αντί στους μύες του προσώπου, θεωρώντας ότι οι ακμές και η κίνηση τους υπολογίζονται ευκολότερα και είναι περισσότερο ευσταθή χαρακτηριστικά, όσον αφορά τις συνθήκες φωτισμού και τις αλλαγές της θέσης του προσώπου στον τρισδιάστατο χώρο. Ενοποιώντας τις περιγραφές των Ekman και Friesen [38] και τα πρότυπα κίνησης των επιμέρους εκφράσεων του Bassili [40], κατέληξαν στη δημιουργία μιας γλωσσικής και ενδιάμεσου επιπέδου περιγραφής η οποία μοντελοποιεί την χωροχρονική δραστηριότητα του προσώπου. Η τελική ταξινόμηση πραγματοποιείται με τη χρήση κανόνων απόφασης [38][40]. Η προσέγγιση των Yacoob και Davis, ανεξάρτητα από τα προβλήματα στον υπολογισμό της κίνησης των ακμών και της αμφιβολίας του κατά πόσον η κίνηση αυτή δίνει όλη την απαιτούμενη πληροφορία της μορφοποίησης του προσώπου κατά τη διάρκεια μιας έκφρασης, έχει υψηλό λογικό υπόβαθρο: Η ερμηνεία των εκφράσεων από τις κινήσεις των σημείων της επιφάνειας του προσώπου δεν μπορεί να είναι ούτε ομοιόμορφη σε όλο το πλάτους του ανθρώπινου πληθυσμού αλλά ούτε και ντετερμινιστική. Η χρήση κανόνων για την ταξινόμηση εκφράσεων υιοθετήθηκε και από τον συγγραφέα της διατριβής και αναλύεται στο Κεφάλαιο Δ3. Η θεώρηση των Li, Roivainen και Forchheimer [44] κλίνει περισσότερο προς τη σύνθεση εκφράσεων παρά προς την ανάλυση. Χρησιμοποίησαν ως βάση το FACS για την ανάλυση εικόνων με εκφράσεις με τελικό σκοπό την συνθετική αναπαράσταση τους. Η αξία της εργασίας τους επικεντρώνεται κυρίως στο διαχωρισμό της κίνησης «δύσκαμπτων» -rigid- και μη περιοχών του προσώπου η οποία υπολογίζεται με τη χρήση τουλάχιστον δύο καρέ. Χρησιμοποίησαν επίσης μόλις 6 AUs για να αναπαραστήσουν τις πιθανές εκφράσεις. (β) Η ολική κατανομή των διανυσμάτων κίνησης στην επιφάνεια του προσώπου και οι εκφράσεις Σε μια προσπάθεια να διευκρινίσουμε την φιλολογία σχετικά με την αξία των διανυσμάτων κίνησης που σχετίζονται με τα σημεία της επιφάνειας του προσώπου, όσον αφορά τον χαρακτηρισμό των εκφράσεων, πραγματοποιήσαμε το πείραμα που περιγράφεται στη συνέχεια: Έστω ότι όλες οι εικόνες που απεικονίζουν τις επιμέρους εκφράσεις του ιδίου προσώπου είναι κανονικοποιημένες ως προς την κλίμακα και ευθυγραμμισμένες ως προς τη θέση κάποιων σταθερών σημείων του προσώπου ­κόχες ματιών και βάση της μύτης. Η υπόθεση αυτή εξαλείφει την ολική κίνηση του κεφαλιού και το zoom της κάμερας. Υπολογίζουμε το πεδίο των διανυσμάτων κίνησης απευθείας από τις τιμές των pixels και για εκείνες μόνο τις περιοχές του προσώπου για τις οποίες έχει λάβει χώρα ουσιαστική δράση [76]. Έστω Fk και Fk +1 δύο καρέ τα οποία απεικονίζουν το ίδιο πρόσωπο στην ουδέτερη κατάσταση και την κορύφωση κάποιας συγκεκριμένης έκφρασης. Κάθε pixel p k ( x, y) του k-στου καρέ περιγράφεται μέσω του 2nx2n μπλοκ bk ( x, y ) που το περικλείει και αντιστοιχίζεται με το επόμενο σφάλμα (MAD-Mean Absolute Difference): e k ( x, y) = bk ( x, y ) - bk +1 ( x, y ) = n n l = -n m= -n p k ( x + l , y + m) - p k +1 ( x + l , y + m) (Α5.1) 44 Τα διανύσματα μετατόπισης υπολογίζονται μόνο για εκείνα τα μπλοκ του καρέ τα οποία αντιστοιχούν σε μεγάλο σφάλμα ek ( x, y ) -βλέπε Κεφάλαιο Δ4. ^ Το διάνυσμα μετατόπισης v k ( x, y ) του block bk ( x, y ) υπολογίζεται με τη διαδικασία ταύτισης μπλοκ σε μια γειτονιά του μπλοκ bk +1 ( x, y ) σύμφωνα με την εξίσωση: ^ ^ ^ v k ( x, y ) = (v x , v y ) = arg min ( v x , v y )Q l = - n m = - n p n n k ( x + l , y + m) - p k +1 ( x + l - v x , y + m - v y ) (Α5.2) όπου Q = {-q,..., q} ΄ {-q,..., q} ένα τετραγωνικό πλέγμα που αντιπροσωπεύει την περιοχή έρευνας. Για την μείωση του χρόνου εκτέλεσης πραγματοποιείται λογαριθμική αντί για εξαντλητική έρευνα, δηλαδή μόνο ^ ^ ένα υποσύνολο των συνδυασμών (v x , v y ) Q ελέγχεται στη διαδικασία ταύτισης. «Θορυβώδη» -λάθος εκτιμημένα- διανύσματα κίνησης απομακρύνονται με φιλτράρισμα ενδιάμεσης τιμής, αρχικά ως προς τη φάση και στη συνέχεια ως προς το μέτρο. ^ Το διάνυσμα κίνησης στη θέση (x,y) μπορεί να εκφραστεί ως v k ( x, y ) = a k ( x, y)e jfk ( x , y ) . Ο διακριτός μετασχηματισμός Radon του μέτρου των διανυσμάτων κίνησης σε γωνία θ, δίνεται από τη σχέση: R(q ) = u = - a k ( x, y ) x =t cos q -u sin q , y =t sin q + u cos q (Α5.3) όπου t και u αντιστοιχούν στους άξονες x και y μετά από στροφή του συστήματος συντεταγμένων κατά γωνία θ ­βλέπε Σχήμα Α5.1. y u t a(x,y) θ x t θ Σχήμα Α5.1: Ο μετασχηματισμός Radon Ο υπολογισμός του μετασχηματισμού Radon, όπως ορίστηκε στην παραπάνω σχέση, για τις γωνίες 00 και 900 δημιουργεί τις λεγόμενες «υπογραφές» οι οποίες μπορούν να χρησιμοποιηθούν για τον χαρακτηρισμό των επιμέρους εκφράσεων. Στην προσομοίωση που πραγματοποιήσαμε, χρησιμοποιήθηκε η βάση εικόνων του Yale και πήραμε σχετικά ικανοποιητικά αποτελέσματα όσον αφορά την ταξινόμηση -82% έως 87.5% ανάλογα με το σχήμα ταύτισης [76]. Δεν πρέπει πάντως να μας διαφεύγει το γεγονός ότι τα καρέ που 45 αντιστοιχούν στην ουδέτερη κατάσταση και την κορύφωση ουσιαστικά ευθυγραμμίστηκαν χειρονακτικά έτσι ώστε να αντισταθμιστεί αποτελεσματικά η ολική κίνηση του προσώπου. (γ) Πλήρως δυναμικές προσεγγίσεις Οι τεχνικές ανάλυσης εκφράσεων από ακολουθίες βίντεο ­ακολουθίες σε μορφή τηλεδιάσκεψης- μπορούν να υποδιαιρεθούν σε τρεις κατηγορίες. Ενδιαφέρον παρουσιάζει και η προσέγγιση που ορίζεται στο πρότυπο MPEG-4 για την οποία γίνεται εκτεταμένη αναφορά στο Κεφάλαιο Δ3. Τεχνικές βασισμένες στο πεδίο των διανυσμάτων κίνησης Στις τεχνικές αυτές υπολογίζεται το πεδίο των διανυσμάτων κίνησης είτε σε όλο το καρέ είτε σε επιλεγμένες περιοχές του προσώπου. Η ταξινόμηση των εκφράσεων πραγματοποιείται χρησιμοποιώντας παράγωγα χαρακτηριστικά των διανυσμάτων κίνησης και η ταύτιση υλοποιείται με κάποιο δυναμικό σχήμα ­Ηidden Markov Μodels (HMM), recurrent neural networks κοκ. Τυπικά χαρακτηριστικά είναι η ενεργειακή κατανομή των διανυσμάτων κίνησης σε επιμέρους περιοχές του προσώπου [76][77] και ο συνολικός προσανατολισμός τους. Δεδομένου ότι η διαδικασία υπολογισμού του πεδίου των διανυσμάτων είναι υπολογιστικά επίπονη, πολλές προσεγγίσεις υιοθετούν τη στρατηγική coarse-to-fine χρησιμοποιώντας wavelets [78]. Ένα άλλο πρόβλημα με τις τεχνικές αυτές είναι αναπόφευκτη παρουσία θορύβου στα εκτιμούμενα διανύσματα κίνησης η οποία μπορεί να επηρεάσει σημαντικά τη διαδικασία ανάλυσης. Ο Ohya και οι συνεργάτες του [79]-[81] εφάρμοσαν Hidden Markov Models για τη μοντελοποίηση της χρονικής εξέλιξης των εκφράσεων. Η κατάσταση των μυών σε κάθε χρονική στιγμή προσεγγίζεται από τους εσωτερικούς κόμβους των HMMs ­ένας για κάθε έκφραση. Στην εργασία [79] χρησιμοποίησαν wavelets για την εξαγωγή του διανύσματος χαρακτηριστικών ­ισχύς του πεδίου κίνησης για διάφορες συχνοτικές περιοχές υπολογισμένες με τη βοήθεια του μετασχηματισμού wavelet- ενώ στη μελέτη [81] χρησιμοποίησαν το μετασχηματισμό Fourier. Στην περίπτωση του μετασχηματισμού Fourier εκτός από τη μέση ισχύ το διάνυσμα χαρακτηριστικών εμπλουτίστηκε με τη μέση γωνία φάσης σε κάθε πεδίο, ενώ και στις δύο περιπτώσεις τα πεδία κίνησης υπολογίστηκαν μόνο στις περιοχές των ματιών και του στόματος. Στην εργασία [80] χρησιμοποιήθηκαν HMM με συνεχή κατανομή πυκνότητας πιθανότητας για να αποφευχθεί το μειονέκτημα του αναποτελεσματικού διανυσματικού κβαντισμού εξαιτίας του μικρού αριθμού δειγμάτων [79]. Παρακολούθηση των χαρακτηριστικών του προσώπου Η παρακολούθηση της κίνησης των σημαντικότερων χαρακτηριστικών του προσώπου κατά τη διάρκεια των εκφράσεων είναι ίσως η πιο προφανής αντιμετώπιση της ανάλυσης εκφράσεων από ακολουθίες βίντεο. Το πεδίο των διανυσμάτων κίνησης εκτιμάται μόνο στις περιοχές του προσώπου που περιλαμβάνουν τα χαρακτηριστικά αυτά. Η διαδικασία διαιρείται σε δύο στάδια: Για κάθε καρέ της ακολουθίας πραγματοποιείται εντοπισμός των χαρακτηριστικών χαμηλού επιπέδου, όπως ακμών και γωνιών που αυτές σχηματίζουν, ή υψηλότερου επιπέδου όπως τα μάτια, τα φρύδια, το στόμα κοκ [82],[84]-[87], και στη συνέχεια ελέγχεται η κίνησή τους ανάμεσα σε διαδοχικά καρέ [88]. Πολύ διαδεδομένος αλγόριθμος παρακολούθησης της κίνησης των χαρακτηριστικών είναι ο αλγόριθμος των Lucas-Kanade [83], ο οποίος εμφανίζει σχετικά υψηλή ακρίβεια όσον αφορά στην εκτίμηση της κίνησης. Η παρακολούθηση της κίνησης 46 χαρακτηριστικών περιορίζει την υπολογιστική πολυπλοκότητα αλλά υποθέτει μεγάλη ακρίβεια στον εντοπισμό τους. Επιπλέον δεν είναι προφανές ότι όλη η πληροφορία σχετικά με τη διαμόρφωση των εκφράσεων εκφράζεται μόνο από τη μεταβολή των βασικών χαρακτηριστικών του προσώπου. Για παράδειγμα σε πολλές εκφράσεις η εμφάνιση ρυτίδων σε ομοιόμορφες περιοχές του προσώπου ­μέτωπο, μάγουλα- είναι μια σημαντική πληροφορία. Ο Yacoob στις εργασίες [89][90], επέκτεινε την προηγούμενη μελέτη του χρησιμοποιώντας ακολουθίες με δειγματοληψία έως και 30 καρέ το δευτερόλεπτο. Υπολόγισε τη κίνηση σε ακολουθίες με το πρόσωπο σε εμπρόσθια όψη και μόνο για τις περιοχές των ακμών ­περιοχές των καρέ με υψηλή τιμή στη χωρική παράγωγο [73]. Με δεδομένο ότι οι περιοχές των ματιών, των φρυδιών, του στόματος και της μύτης χαρακτηρίζονται από υψηλή πυκνότητα ακμών, η τεχνική παρακολουθεί την κίνηση των χαρακτηριστικών αυτών σε χαμηλό επίπεδο και χρειάζεται τη βοήθεια κάποιων κανόνων υψηλότερου επιπέδου για την εξαγωγή συμπερασμάτων. Οι Rosenblum και Yacoob [91] χρησιμοποίησαν τα ίδια χαρακτηριστικά όπως στη μελέτη [69], για την ταξινόμηση εκφράσεων σε ένα πλήρως δυναμικό περιβάλλον. Παρόμοια με την τεχνική τους είναι η τεχνική του Thalmann [92] ο οποίος όμως χρησιμοποίησε μια δομή νευρωνικού δικτύου για την ταξινόμηση των εκφράσεων. Χρήση τρισδιάστατων μοντέλων για το κεφάλι Η τρίτη κατηγορία δυναμικών προσεγγίσεων κάνει χρήση της τρισδιάσταστης υφής του κεφαλιού και προσαρμόζει ένα τέτοιο μοντέλο με βάση τα δεδομένα που προέρχονται από τα καρέ της ακολουθίας βίντεο. Η χρήση των τρισδιάσταστων μοντέλων αποσκοπεί στην καλύτερη εκτίμηση της θέσης του προσώπου στο χώρο και στην εκτίμηση της κίνησης σε τρισδιάστατο επίπεδο και όχι απλά σε επίπεδο μετατόπισης. Οι Essa και Pentland σε μια σειρά μελετών [93]-[95] ασχολούνται με την παρακολούθηση των εκφράσεων στο χρόνο χρησιμοποιώντας μια εκτεταμένη αναπαράσταση η οποία βασίζεται στο FACS. Το πεδίο των διανυσμάτων κίνησης αντισταθμίζεται με τη χρήση του 3-Δ μοντέλου και η εξέλιξη της ενεργειακής κατανομής του χρησιμοποιείται για τον χαρακτηρισμό των εκφράσεων. Η ύπαρξη 3-Δ μοντέλων δεν φαίνεται να συνεισφέρει στην αποτελεσματικότερη ανάλυση εκφράσεων, αλλά για σκοπούς σύνθεσης και αναπαραγωγής εκφράσεων είναι μείζονος σημασίας. Η εργασία των Terzopoulos και Waters [43] βασίστηκε στη μελέτη των Platt και Badler [96], οι οποίοι μοντελοποίησαν το κεφάλι με ένα πλέγμα ­mesh- από ισόπλευρα τρίγωνα, το μέγεθος και η πυκνότητα των οποίων σχετίζονται με την τοπική ανομοιογένεια του κεφαλιού. Η ιδιαιτερότητα της εργασίας [43] έγκειται στην μοντελοποίηση των μυών και των ιστών του δέρματος του προσώπου, η ελαστική υφή του οποίου αναπαρίσταται αρκετά αποτελεσματικά. Οι μετασχηματισμοί και οι παράμετροι ελέγχου της μοντελοποίησης αποτελούν τα χαρακτηριστικά περιγραφής των εκφράσεων. Κάθε έκφραση θεωρείται ότι περιλαμβάνει τρεις φάσεις: εφαρμογή, απελευθέρωση και χαλάρωση. Κάθε μια από τις φάσεις αυτές χαρακτηρίζεται από τον τρόπο δράσης των μυών και τις μορφοποιήσεις που προκαλούν στο δέρμα. Από την πλευρά της σύνθεσης εκφράσεων η εργασία των Terzopoulos και Waters θεωρείται πρωτοποριακή και δημιουργεί αρκετά φυσικές αναπαραστάσεις. Η εφαρμογή της στην ανάλυση εκφράσεων απαιτεί τη 47 διαίρεση της έκφρασης στις τρεις φάσεις που αναφέρθηκαν νωρίτερα και την εξαγωγή επιμέρους χαρακτηριστικών για κάθε φάση. Παρόλο που οι συγγραφείς αναφέρουν ποσοστό επιτυχούς ταξινόμησης εκφράσεων 98% -η επαλήθευση της τεχνικής πραγματοποιήθηκε σε μια μικρή βάση από 52 ακολουθίεςστη πράξη υπάρχουν σοβαρές δυσκολίες στην εφαρμογή της σε δισδιάστατες ακολουθίες. Η εκμετάλλευση της μοντελοποίησης τους θα είναι όμως χρήσιμη σε εφαρμογές 3-Δ βίντεο. (δ) Η χρονική εξέλιξη του ενεργειακού πεδίου των διανυσμάτων κίνησης και οι εκφράσεις Όπως και στην Παράγραφο Α5.1(β) σε μια προσπάθεια να διερευνήσουμε την αξία της παρακολούθησης της χρονικής εξέλιξης των εκφράσεων υλοποιήσαμε ένα σύστημα που ταξινομεί τις εκφράσεις με βάση την χρονική εξέλιξη του ενεργειακού πεδίου των διανυσμάτων κίνησης που αντιστοιχούν σε περιοχές του προσώπου. Τα διανύσματα κίνησης υπολογίζονται με τον αλγόριθμο που περιγράφηκε στην παράγραφο Παράγραφο Α5.1(β) και η ενέργειά τους συσσωρεύεται αθροιστικά με την πάροδο του χρόνου. Στις Εικόνες Α5.1(α), Α5.2(α) και Α5.3(α) επιδεικνύονται τα «ισχυρότερα» διανύσματα κίνησης σε τρεις διαδοχικές χρονικές στιγμές και για τις εκφράσεις «οργή», «χαρά» και «έκπληξη» αντίστοιχα. Οι Εικόνες Α5.1(β), 5.2(β) και Α5.3(β) επιδεικνύουν τις «υπογραφές» που προκύπτουν από τον υπολογισμό του μετασχηματισμού Radon σε γωνία 900 για τις παραπάνω περιπτώσεις. Παρατηρώντας τις Εικόνες Α5.1 (β), Α5.2(β) και Α5.3(β) διακρίνουμε κάποια σημαντικά στοιχεία που τεκμηριώνουν την αξία της χρονικής εξέλιξης όσον αφορά τον χαρακτηρισμό των εκφράσεων. Η έκφραση «χαρά» έχει μια σχετικά συμμετρική χρονική εξέλιξη και εμφανίζει δραστηριότητα γύρω από την περιοχή του στόματος. Η έκφραση «έκπληξη» είναι πιο κοφτή, το μεγαλύτερο ποσοστό της δραστηριότητας εκφράζεται στα πρώτα στάδια της έκφρασης. Εμφανίζει επίσης κατανεμημένη ως προς το χώρο του προσώπου δραστηριότητα ­περιοχές γύρω από τα μάτια, τα φρύδια και το στόμα. Η έκφραση «οργή» εκφράζεται μέσα από δύο ουσιαστικά περιοχές: γύρω από το στόμα και στη περιοχή των φρυδιών και ανάμεσα σε αυτά. Το αξιοσημείωτο είναι ότι η δραστηριότητα στις περιοχές αυτές εμφανίζεται σε διαφορετικές χρονικές στιγμές: Προηγείται ενεργοποίηση των μυών που βρίσκονται στη περιοχή των φρυδιών και ακολουθεί αυτή των μυών που βρίσκονται γύρω από το στόμα. Οι «υπογραφές» σε συνδυασμό με την ενεργειακή κατανομή των διανυσμάτων κίνησης σε οκτώ διαφορετικές κατευθύνσεις -βλέπε Κεφάλαιο Δ4, Σχήμα Δ4.1- τροφοδοτούν ένα ταξινομητή HMM απαρτιζόμενο από έξι κλάδους ­ένα για κάθε πρωτεύουσα έκφραση- ο οποίος πραγματοποιεί την απαιτούμενη χρονική ανάλυση λαμβάνοντας υπόψη και τις μεταβολές στην κλίμακα του χρόνου [97]. Τα αποτελέσματα της ταξινόμησης που προέκυψαν από το δικτύωμα HMMs προβάλλονται στο χώρο ενεργοποίησης ­ επαλήθευσης ­βλέπε Κεφάλαιο Δ3. Το κρίσιμο ερώτημα είναι κατά πόσο οι μεταβλητές που χρησιμοποιεί ο ταξινομητής HMM σχετίζονται με κάποιο χώρο χαμηλότερης διάστασης, όπως αυτός των αξόνων ενεργοποίησης ­ επαλήθευσης, παρά με συγκεκριμένες κατηγορίες. Η Εικόνα Α5.4 συνηγορεί στη, μέχρι ενός σημείου, καταφατική απάντηση στο προηγούμενο ερώτημα: Η πλειοψηφία των αποτυχημένων ταξινομήσεων παραμένει στο ίδιο τεταρτημόριο με την πραγματική έκφραση ­εξαίρεση αποτελούν οι αποτυχημένες ταξινομήσεις της έκφρασης «χαρά». Το συμπέρασμα είναι ότι ακόμη και οι αποτυχημένες ταξινομήσεις διατηρούν μέρος της πληροφορίας σχετικά με την πραγματική συναισθηματική κατάσταση, η οποία άλλωστε με αφαιρετικό τρόπο προσδιορίζεται με μία και μόνη λεκτική έννοια. 48 Εικόνα Α5.1: Έκφραση "ΟΡΓΉ" (α) Καρέ 01, κίνηση ανάμεσα στα καρέ 01 και 03, 03 και `apex’, `apex’ και `release’, (β) Ο μετασχηματισμός Radon, του μέτρου των διανυσμάτων κίνησης, σε γωνία 900 ανάμεσα στα καρέ 01 και 03, 01 και `apex’ (dotted line), `apex’ και `release’. Εικόνα Α5.2: Έκφραση "ΧΑΡΆ" (α) Καρέ 01, κίνηση ανάμεσα στα καρέ 01 και 05, 05 και 09, 09 και `apex’, `apex’ και `release’, (β) Ο μετασχηματισμός Radon, του μέτρου των διανυσμάτων κίνησης, σε γωνία 900 ανάμεσα στα καρέ 01 και 05 (dashed line), 01 και 09, 01 και `apex’ (dotted line). 49 Εικόνα Α5.3: Έκφραση "ΈΚΠΛΗΞΗ" (α) Καρέ 01, κίνηση ανάμεσα στα καρέ 01 και 04, 04 και `apex’, `apex’ και `release’, (β) Ο μετασχηματισμός Radon, του μέτρου των διανυσμάτων κίνησης, σε γωνία 900 ανάμεσα στα καρέ 01 και 04, 01 και `apex’ (dotted line), `apex’ και `release’. Εικόνα Α5.4: (α) Αποτελέσματα ορθής και (β) λανθασμένης ταξινόμησης με χρήση HMM, μετά από προβολή στο χώρο activation - evaluation. 50 ΒΙΒΛΙΟΓΡΑΦΙΑ [1]. [2]. [3]. [4]. [5]. [6]. [7]. [8]. [9]. [10]. [11]. [12]. [13]. [14]. [15]. [16]. [17]. [18]. [19]. [20]. [21]. [22]. [23]. [24]. P. Chellapa, C. Wilson and S. Sirohey, "Human and Machine Recognition of Faces: A Survey," Proc. IEEE, vol. 83, no. 5, pp. 705-740, 1995. J.C. Bartlett, S. Hurry and W. Thorley, "Typicality and familiarity of faces," Memory Cognition 12, pp. 219228, 1984. L.D.Harmon, "The recognition of faces," Scientific America. 229, pp.71-82, Oct. 1973 R.A.Campell, S. Cannon, G. Jones and N. Morgan, "Individual face identification by computer vision," Proc. Conf. Modeling Simulation Microcomputer, pp. 62-63, 1987. Sir F. Galton, "Personal identification and description - I," Nature, pp.173-177, June 1888. Sir F. Galton, "Numeralized profile for classification and recognition," Nature 83, pp.127-130, March 1910. V. Govindaraju, D.B.Sher, R.K.Srihari and S.N.Srihari, "Locating of human faces in newspapers photographs," Proc. of CVBR, pp. 549-554, 1989. V. Govindaraju, S.N.Srihari and D.B.Sher, "A computational model for face location," Proc. of 3rd Int. Conf. on Computer Vision, pp. 718-721, 1990. T. Sakai, M. Nagao and S. Fujibayshi, "Line extraction and pattern recognition in a photograph," Pattern Recognition 1, pp. 233-248, 1969. M. Kelly, "Visual identification of people by computer," Technical Report AI-130, Stanford, CA, 1970 I. Craw, H . Ellis and J.R.Lishman, "Automatic extraction of face-features," Pattern Recognition Letters 5, pp.183-187, 1987. I. Craw, D. Tock and A. Benett, "Finding face features," Proc. of 2nd European Conference on Computer Vision, pp.92-96, 1992. J. Sepherd, "An interactive computer system for retrieving faces," Ellis (Eds), Dordrecht: Nijhoff, pp. 398409, 1985. S. Sirohey, "Human face segmentation and identification," Technical Report CAR-TR-695, University of Maryland, MD, 1993. Sir F. Galton, "Personal identification and description - ΙI," Nature, pp.201-203, June 1888. J.L.Perry and J.M.Carney, "Human face recognition using a multilayer perceptron," Proc. of Int. Conf. on Neural Networks II, pp. 413, January 1990. Α.L.Yulie, D.S.Cohen and P.W.Hallinan, "Feature extraction of faces using deformable templates," Proc. of CVBR, pp. 104-109, 1989. M. Nixon, "Eye spacing measurements for facial recognition," SPIE Proc. 575, Applications of Digital Image Processing VIII, pp. 279-285, 1985. R. Buhr, "Analyse und klassifikation von gesichtsbildern," ntzArchiv 8, pp. 245-256, 1986. L.D.Harmon, "Automatic recognition of human face profiles," Proc. of 3rd Int. Joint Conf. on Pattern Recognition, pp. 183-188, 1976. L.D.Harmon, S.C.Kuo, P.F.Ramig and U. Raudkivi, "Identification of human face profile by computers," Pattern Recognition 10, pp. 301-312, 1978. L.D.Harmon, M.K.Khan, R. Lasch and P.F.Ramig, "Machine identification of human faces," Pattern Recognition 13, pp. 97-110, 1981. G.J.Kaufman K.J.Breeding, "The automatic recognition of human faces from profile silhouettes," IEEE Trans. on System Man and Cybernetics 6, pp. 113-121, 1976. A.J.Goldstein, L.D.Harmon and A.B.Lesk, "A basic study on human face recognition," Proc. of IEEE 59, pp. 748-760, May 1971. 51 [25]. Y. Kaya and K. Kobayashi, "Identification of human faces," Frontiers of Pattern Recognition, pp. 265-289, Academic Press, New York 1971. [26]. K.H.Wong, H.M.Law and P.W.M.Tsang, "A system for recognizing human faces," Proc. of ICASSP, pp. 1638-1642, 1989. [27]. R.J.Baron, "Mechanisms of human facial recognition," Int. Journal of Man Machine Studies 15, pp. 137-178, January 1990. [28]. K. Preston Jr, "Computing at the speed of light," Electronics 38, pp. 72-83, 1965. [29]. W.K.Taylor, "Machine learning and recognition of faces," Electronic Letters 3, pp. 436-437, 1967. [30]. H. Shlosberg, "Three dimensions of emotion," Psychol. Rev 61, pp. 81-88, 1954. [31]. P. Ekman and W.V.Friesen, "Manual for the Facial Action Coding System," Consulting Psychologists Press, Palo Alto, 1978. [32]. C. Darwin, The Expression of Emotions in Man and Animals, John Murray, 1872, reprinted by University of Chicago Press, 1965. [33]. P. Ekman, Darwin and Facial Expressions, Academic Press, 1973. [34]. M. Davis and H. College, Recognition of Facial Expressions, Arno Press, New York, 1975. [35]. K. Scherer and P. Ekman, Approaches to Emotion, Lawrence Erlbaum Associates, 1984. [36]. P. Ekman, T. Huang, T. Sejnowski and J. Hager, NSF Planning Workshop on Facial Expression Understanding, Technical report, National Science Foundation, Human Interaction Lab, 1992. [37]. W. E. Rinn, `The Neuropsychology of Facial Expression: A Review of Neurological and Psychological Mechanisms for Producing Facial Expressions’, Psychological Bulletin, vol. 95, pp. 52-77, 1984. [38]. P. Ekman and W. Friesen, Unmasking the Face, Prentice-Hall, 1975. [39]. S. Shibui, H. Yamada, T. Sato and K. Shigemasu, "Categorical Perception and Semantic Information Processing of Facial Expressions," Perception, vol. 28 S, p. 114, 1999. [40]. J. N. Bassili, "Emotion recognition: The role of facial movement and the relative importance of upper and lower areas of the face," Journal of Personality and Social Psychology, 37, 2049-2059, 1979. [41]. M. Bartlett, J. Hager, P. Ekman and T. Sejnowski, "Measuring Facial Expressions by Computer Image Analysis," Psychophysiology, vol. 36, pp. 253-263, 1999. [42]. I. Essa and A. Pentland, "A Vision System for Observing and Extracting Facial Action Parameters," Proc. Intern. Conf. on CVPR, pp. 76-83, 1994. [43]. D. Terzopoulos and K. Waters, "Analysis and Synthesis of Facial Image Sequences using Physical and Anatomical Models," IEEE Trans. on PAMI, Vol. 15, No. 6, 569-579, 1993. [44]. Li, Roivainen and Forcheimer, "3-D motion estimation in model-based facial image coding," IEEE Trans. on PAMI, Vol. 15, 545-555, 1993. [45]. K. Mase, "Recognition of facial expression from optical flow," IEICE Trans., vol. E74, pp. 3474-3483, 1991. [46]. C. Pelachaud, N. Badler and M. Viaud, "Final Report to NSF of the Standards for Facial Animation Workshop," Technical report, NSF, University of Pennsylvania, Philadelphia, PA 19104-6389, 1994. [47]. P. Ekman, T. Huang, T. Sejnowski and J. Hager (Eds), Final Report to NSF of the Planning Workshop on Facial Expression Understanding, Technical report, NSF, Human Interaction Lab., UCSF, CA 94143, 1993. [48]. P. Ekman, J. Hager and E. Rosenberg, "ACSAID: A Computer DataBase for Predicting Affective Phenomena from Facial Movement," http:/www.nirc.com/facsaid.html. [49]. ISO/IEC JTC1/SC29/WG11 MPEG96/N1365, "MPEG4 SNHC: Face and Body Definition and Animation Parameters," 1996. [50]. R. Cabeza and J. Nyburg, Cognitive Neuroscience 9, 1-26, 1997. [51]. V. Bruce and A. Young, In the Eye of the Beholder: The science of face perception, Oxford Univ. Press, 1998. 52 [52]. Phillips et al., Nature 389, 495-8, 1997. [53]. S. Scalaidhe et al., Science 278, 1135-08, 1997. [54]. S. McKenna and S. Gong, "Tracking Faces," Proc. of the 2nd Intl. Conf. on Automatic Face and Gesture Recognition, pp. 271-276, 1996. [55]. J. Crowley and F. Berard, "Multi-Modal Tracking of Faces for Video Communications," Proc. of IEEE CVPR, pp. 640-645, Puerto Rico, 17-19 June 1997. [56]. H. Graf, E. Cosatto, D. Gibbon, M. Kocheisen, and E. Petajan, "Multi-modal System for Locating Heads & Faces," Proc. Int. Conf. on Automatic Face & Gesture Recognition, pp. 88-93, Vermont, USA, Oct. 1996. [57]. M. Collobert et al, "Listen: A System for Locating and Tracking Individual Speakers," Proc. of the Intl. Conf. on Automatic Face and Gesture Recognition, pp. 283-288, Vermont, October 1996. [58]. M. Hunke and A. Waibel, "Face Locating and Tracking for Human Computer Interaction," IEEE Computers, pp. 1277-1281, November 1994. [59]. S. Basu, I. Essa and A. Pentland, "Motion Regulization for Model-based Head Tracking," Proc. 13th Intern. Confer. On Pattern Recognition, August 1996. [60]. P. Fieguth and D. Terzopoulos, "Color-based Tracking of Image Regions with Changes in Geometry and Illumination," Proc. of IEEE CVPR, pp. 403-410, 1996. [61]. J. Terillon, M. David and S. Akamatsu, "Automatic Face Detection in Natural Scene Images Using a Skin Color Model & Moments," Proc. Int. Conf. Automatic Face & Gesture Recognition, Nara, Japan, April 1998. [62]. Y. Raja, S. Mckenna and S. Gong, "Tracking and Segmenting People in Varying Lighting Conditions Using Color," Proc. Int. Conf. Automatic Face and Gesture Recognition, pp. 228-233, Nara, Japan, April 1998. [63]. T. Maurer and C.V.D. Malsburg, "Tracking and Learning Graphs on Image Sequences of Faces," Proc. of the Intl. Conf. on Automatic Face and Gesture Recognition, pp. 176-181, Vermont, USA, Oct. 1996. [64]. V. Kruger and G. Sommer, "Affine Face Tracking Using a Wavelet Network," Proc. Intl. Workshop on Recognition, Analysis and Tracking of Faces and Gestures in Real-time Systems, Corfu, Greece, Sept. 1999. [65]. N. Arad and D. Reisfeld, "Image Warping using few Anchor Points and Radial Functions," Computer Graphics Forum, vol 14 (1), 35-46, 1994. [66]. S. Gong, S. McKenna and S. Collins, "An Investigation into Face Pose Distributions," Proc. of the Intl. Conf. on Automatic Face and Gesture Recognition, pp. 265-270, Vermont, 1996. [67]. A. Zelinsky and J. Heinzmaan, "Real-time Visual Recognition of Facial Gestures for HCI’," Proc. of the Intl. Conf. on Automatic Face and Gesture Recognition, pp. 351-356, October 1996. [68]. A. Young and H. Ellis, Handbook of Research on Face Processing, Elsevier Science Publishers, 1989. [69]. C. Padgett and G. W. Cottrell, "Representing Face Images for Emotion Classification," Advances in Neural Information Processing Systems, Vol. 9, p. 894, The MIT Press, 1997. [70]. C. Padgett, G. Cottrell and B. Adolps, "Categorical Perception in Facial Emotion Classification," Proc. of the Cognitive Science Conference, vol. 18, pp. 249-253, 1996. [71]. B. Horn and B. Schunk, "Determining optical flow," Artificial Intelligence, Vol.17, 185-203, 1981. [72]. D. Heeger, "Optical flow using spatiotemporal filters," Intern. Journal of Computer Vision 1, 279-302, 1988. [73]. M. Abdel-Mottaleb, R. Chellappa and A. Rosenfeld, "Binocular motion stereo using MAP estimation," IEEE Conference on Computer Vision and Pattern Recognition, 321-327, 1993. [74]. P. Anandan, "A computational καρέwork and an algorithm for the measurement of visual motion," International Journal of Computer Vision 2, 283-310, 1989. [75]. Y. Yacoob and L. Davis, "Computing spatio-temporal representations of human faces," Proc. of the Computer Vision and Pattern Recognition Conference, 70-75, 1994. [76]. N. Tsapatsoulis, I. Avrithis and S. Kollias, "On the use of Radon Transform for Facial Expression Recognition," Proc. of the 5th Intl. Conf. on Information Systems Analysis and Synthesis, Orlando, U.S.A, July 1999. [77]. M. Black and P. Anandan, "The Robust Estimation of optical flow," Proc. Int. Conf. on Computer Vision, Berlin, Germany, 231-236, 1993. 53 [78]. Y. T. Wu, T. Kanade, J. Cohn and C-C. Li, "Optical Flow Estimation Using Wavlet Motion Model," 1997. [79]. T. Sakaguchi, J. Ohya and F. Kishino, "Facial expression recognition from image sequence using Hidden Markov Model," VLBV 95, A-5, 1995. [80]. T. Otsuka and J. Ohya, "Recognition of facial expressions using HMM with continuous output probabilities," Proc. of 5th IEEE International Workshop on Robot and Human Communication RO-MAN, 323328, 1996. [81]. T. Otsuka and J. Ohya, "Recognizing Multiple Persons’ Facial Expressions using HMM based on Automatic Extraction of Καρέs from Image Sequences," Proc. IEEE Int. Conf. on Image Proc., vol. 2, 546549, 1997. [82]. J. Lien, T. Kanade, J. Cohn and C-C. Li, `Subtly Different Facial Expression Recognition and Emotion Expression Intensity Estimation’, Proc. of IEEE CVPRpp. 853-859, Santa Barbara, CA, 1998. [83]. B. Lucas and T. Kanade, "An Iterative Image Registration technique with an Application to Stereo Vision," Proc. of the 7th Intl. Joint Conf. on AI, 1981. [84]. J. Cohn, A. Zlochower, J. Lien and T. Kanade, "Automated Face Analysis by Feature Point Tracking Has High Concurrent Validity with Manual FACS Coding," Psychophysiology, vol. 26, pp. 35-43, 1999. [85]. H. Wu et al, `Face and Facial Feature Extraction from Color Images’, Proc. of the Intl. Conf. on Automatic Face and Gesture Recognition, pp. 345-350, October 1996. [86]. R. Herpes et al, `Edge and Keypoint Detection in Facial Regions’, Proc. of the Intl. Conf. on Automatic Face and Gesture Recognition, pp. 212-217, Vermont, USA, October 1996. [87]. R. Herpes et al, "An Attentional Processing Strategy to Detect and Analyse the Prominent Facial Regions," Proc. of the Intl. Conf. on Automatic Face and Gesture Recognition, Zurich, Switzeland, pp. 214-220, 1995. [88]. M. Black, Y. Yacoob, A. Jepson and D. Fleet, "Learning Parameterized Models of Image Motion," Proc. of IEEE CVPR, pp. 561-567, 1997. [89]. Y. Yacoob and L. Davis, "Recognizing human facial expressions," The Second Workshop on Visual Form, Capri, 584-593, 1994. [90]. Y. Yacoob and L. Davis, "Recognizing human facial expressions from long image sequences using optical flow," IEEE Transactions on Pattern Analysis and Machine Intelligence 18(6), 636-642, 1996. [91]. M. Rosenblum, Y. Yacoob and L. Davis, "Human Emotion Recognition from Motion Using a Radial Basis Function Network Architecture," IEEE Trans. On NNs vol. 7, no 5, 1996. [92]. N. Thalmann, P. Kalra and M. Escher, "Face to Virtual Face," Proc. of the IEEE, vol.86, pp.870-883, 1998. [93]. I. Essa and A. Pentland, "Coding, Analysis, Interpretation and Recognition of Facial Expressions," Technical Report No. 325, M.I.T. Media Laboratory, 1995. [94]. I. Essa, T. Darrell and A. Pentland, "Tracking facial motion," Proceedings of the Workshop on Motion of Nonrigid and Articulated Objects, 36-42, IEEE Computer Society, 1994. [95]. I. Essa, S. Sclaroff and A. Pentland, "Physically-based modeling for graphics and vision," in R. Martin (Ed) Directions in Geometric Computing. Information Geometers, U.K., 1993. [96]. S. Platt and N. Badler, "Animating facial expression," Proc. of ACM SIGGRAPH Conference 15(3):245-252, 1981. [97]. N. Tsapatsoulis, M. Leonidou and S. Kollias, "Facial Expression Recognition Using HMM with Observation Dependent Transition Matrix," Proc. of MMSP’98, Portofino CA, December 1998. 54 55 Κεφάλαιο B1 ΕΝΤΟΠΙΣΜΟΣ ΠΡΟΣΩΠΟΥ ΚΑΙ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΣΗΜΕΙΩΝ ΤΟΥ ΣΕ ΜΟΝΟΧΡΩΜΕΣ ΕΙΚΟΝΕΣ Η παρούσα διατριβή έχει σκοπό να προτείνει λύσεις σε κάποια από τα βασικά θέματα της αναγνώρισης προσώπων και της ανάλυσης εκφράσεων στο πλαίσιο της επικοινωνίας ανθρώπου μηχανής. Όπως θα έχει γίνει αντιληπτό από το πρώτο μέρος της διατριβής ο εντοπισμός του προσώπου και κάποιων χαρακτηριστικών σημείων σε αυτό είναι ένα κυρίαρχο θέμα και στις δύο εφαρμογές. Στο τρέχον κεφάλαιο περιγράφεται μια διαδικασία εντοπισμού προσώπων από μονόχρωμες εικόνες. Οι περιορισμοί που τίθενται συνάδουν με τις συνθήκες υπό τις οποίες πραγματοποιείται η επικοινωνία ανθρώπου μηχανής: το πρόσωπο θεωρείται ότι βρίσκεται σε κοντινή απόσταση από την κάμερα και δεν εμφανίζει υπερβολική στροφή ως προς τον διαμήκη άξονα του σώματος ­ άξονας y στο Σχήμα Α4.1. Πέρα από τον εντοπισμό του προσώπου παρουσιάζεται μια μεθοδολογία που αφορά στον εντοπισμό της ίριδας των ματιών, των ρουθουνιών και του κέντρου του στόματος. Επιπλέον δίνονται κάποιες κατευθύνσεις όσον αφορά τον εντοπισμό και άλλων σημείων όπως οι κόγχες των ματιών και οι γωνίες του στόματος. Τέλος παρουσιάζεται μια διαδικασία για τον εντοπισμό των σημείων στην οριογραμμή εικόνων προφίλ. Παρόλο που η αξία των σημείων του προφίλ όσον αφορά στην επικοινωνία ανθρώπου μηχανής είναι μάλλον περιορισμένη, η εν λόγω τεχνική χρησιμοποιήθηκε για την εξαγωγή πληροφορίας σχετικής με την ανατομία του κεφαλιού η οποία μπορεί να ενταχθεί στη διαδικασία σύνθεσης τρισδιάστατων μοντέλων για το πρόσωπο. 1. ΕΝΤΟΠΙΣΜΟΣ ΠΕΡΙΓΡΑΜΜΑΤΟΣ ΠΡΟΣΩΠΟΥ Για τον εντοπισμό του προσώπου στην εικόνα κλίμακας του γκρι υιοθετήθηκε η τεχνική της ανίχνευσης του περιγράμματός του. Η επιλογή αυτή εμφανίζει υψηλό βαθμό επιτυχίας και αξιοπιστίας όταν το απεικονιζόμενο πρόσωπο βρίσκεται κοντά στην κάμερα, υπόθεση που δεν είναι ιδιαίτερα περιοριστική σε περιβάλλοντα επικοινωνίας ανθρώπου μηχανής. Εναλλακτικές τεχνικές εντοπισμού του προσώπου, όπως η ταύτιση με πρότυπο θα μπορούσαν επίσης να χρησιμοποιηθούν, αλλά εμφανίζουν μικρότερη ακρίβεια όσον αφορά στον εντοπισμό και θέτουν επιπλέον περιορισμούς. Αντίστοιχα, τεχνικές ενεργών περιγραμμάτων (active contours) έχουν την απαιτούμενη ακρίβεια, αλλά χρειάζονται μια καμπύλη αρχικοποίησης. Υπό αυτό το πρίσμα, η τεχνική που παρουσιάζεται στις επόμενες παραγράφους, θα μπορούσε να χρησιμοποιηθεί για την αρχικοποίηση του ενεργού περιγράμματος το οποίο στη συνέχεια μπορεί να προσαρμοστεί τέλεια στην οριογραμμή του προσώπου. Έστω Ι η εικόνα προσώπου αποχρώσεων του γκρι και χωρικής ανάλυσης r΄c. Με βάση την εικόνα Ι υπολογίζουμε τις εικόνες Η και L οι οποίες αντιστοιχούν στις εικόνες τοπικών μεγίστων και ελαχίστων της Ι σε ένα παράθυρο (2n+1)΄(2n+1), όπου n φυσικός αριθμός (τυπική επιλογή n=1). Έστω: N (t ij ) = {t i - k , j -l | k , l = -n,..., n} (Β1.1) 56 η (2n+1)΄(2n+1) γειτονιά του pixel tij=(i,j). Η εικόνα Η των τοπικών μεγίστων υπολογίζεται από την σχέση: H (i, j ) = max [I ( N )] p ij N (Β1.2) Ομοίως η εικόνα L(i,j) των τοπικών ελαχίστων υπολογίζεται από την σχέση: L (i , j ) = min [I ( N ) ] p ij N (Β1.3) (α) (β) (γ) (δ) Εικόνα B1.1: (α) Αρχική Εικόνα (β) Εικόνα τοπικών μεγίστων (γ) Εικόνα τοπικών ελαχίστων (δ) Εικόνα διαφορών (τοπικά μέγιστα ­ τοπικά ελάχιστα) Η εικόνα της διαφοράς D=H-L τονίζει τα σημεία εκείνα της εικόνας στα οποία έχουμε απότομες εναλλαγές στις τιμές φωτεινότητας της εικόνας. Οι περιοχές των ματιών, του στόματος, της μύτης και του περιγράμματος αντιστοιχούν σε σημεία της εικόνας D με υψηλή τιμή. Η Εικόνα Β1.1 δίνει ένα χαρακτηριστικό παράδειγμα της διαδικασίας. Υπολογίζοντας τις διαφορές ανάμεσα στα μέγιστα και στα ελάχιστα οι οποίες υπερβαίνουν ένα συγκεκριμένο κατώφλι, μπορούμε να εντοπίσουμε τις ακμές της εικόνας. Στην συνέχεια, από τα pixels που έχουμε εντοπίσει πως ανήκουν σε ακμή, αναζητάμε αυτά που βρίσκονται πάνω σε έλλειψη προσπαθώντας με αυτόν τον τρόπο να διαμορφώσουμε το περίγραμμα του προσώπου (έχοντας κάνει την υπόθεση πως το περίγραμμα του προσώπου ανήκει σε έλλειψη). Στην πράξη η περιοχή στην οποία ψάχνουμε τα pixels δεν είναι απλά η περιφέρεια μιας έλλειψης αλλά ουσιαστικά μια ελλειψοειδής σαμπρέλα. Συγκεκριμένα, έστω Β είναι η εικόνα των ακμών η οποία προήλθε από κατωφλίωση της εικόνας D με κάποιο στατιστικό κατώφλι. Τυπική επιλογή κατωφλίου c=m+σ με: m= 1 M N 1 M N D(i, j) i =1 j =1 M N M N (Β1.4) s= D(i, j) - m i =1 j =1 (Β1.5) Τότε η επιλογή της έλλειψης η οποία προσεγγίζει το περίγραμμα του προσώπου δίνεται από την σχέση: [X 0 , Y0 , A, B, Q] = arg max E[x 0, y 0, a, b,q ] x0 , y0 ,a ,b,q (Β1.6) 57 όπου X0,Y0 το κέντρο της έλλειψης, Α, Β οι ημιάξονές της και Θ η κλίση της ­στροφή ως προς τον άξονα z του Σχήματος Α4.1, και E [x 0 , y 0, a, b, q ] = pij S B(t ) ij (Β1.7) όπου (i - x 0 )2 ( j - y 0 )2 + £ 1.05 S [x0 , y 0 , a, b, q ] = t ij : 0.95 £ 2 2 a b (Β1.8) εκφράζει την επιφάνεια της ελλειψοειδούς σαμπρέλας με κέντρο (x0, y0) κλίση θ και ημιάξονες a, b. i cos q j = - sin q sin q x cos q y (Β1.9) Η ελλειψοειδής σαμπρέλα πρέπει να έχει κάποιο μετρήσιμο εμβαδόν έτσι ώστε να αποφύγουμε την επιλογή μιας έλλειψης με άκρα τα μάτια και το στόμα, περιοχές που και αυτές αντιστοιχούν σε πολύ έντονες ακμές Εναλλακτικά η ίδια τεχνική μπορεί να εφαρμοστεί άμεσα στην εικόνα D ­χωρίς κατωφλίωσηχρησιμοποιώντας τη σχέση: E x 0 , y 0, a, b, q = [ ] D (t ) ij pij S (Β1.10) Το μειονέκτημα στην περίπτωση αυτή είναι ότι πρέπει να εξεταστούν όλα τα pixels της εικόνας και όχι μόνο αυτά που ανήκουν σε ακμές, γεγονός που οδηγεί σε πολλαπλασιασμό της υπολογιστικής πολυπλοκότητας. Η τεχνική είναι περισσότερο αποτελεσματική όταν οι ακμές έχουν κάποιο πάχος, σημαντικό. Το μειονέκτημα της διαδικασίας εντοπισμού του περιγράμματος όπως δόθηκε ανωτέρω, είναι η μεγάλη υπολογιστική πολυπλοκότητα η οποία προκύπτει από τον 5-Δ χώρο των παραμέτρων. Βέβαια, δεδομένης της ανατομίας του προσώπου μπορούν να τεθούν περιορισμοί όσον αφορά τη σχέση των ημιαξόνων. Μια λογική επιλογή είναι η θεώρηση μόνο εκείνων των ελλείψεων με λόγο ημιαξόνων a/b που κυμαίνεται στο διάστημα [1.1 1.6]. Επιπλέον εφαρμόζοντας τον διακριτό μετασχηματισμό KL στις συντεταγμένες των pixels που αντιστοιχούν σε ακμές ­βλέπε Κεφάλαιο Β2- μπορούμε να εκτιμήσουμε τους βασικούς άξονες της κατανομής τους και στη συνέχεια να υπολογίσουμε χονδρικά τη γωνία θ. Η μοντελοποίηση του περιγράμματος του προσώπου με έλλειψη παρουσιάζει υψηλή ευρωστία ως προς τις διακυμάνσεις στροφής του προσώπου περί τους άξονες x και y. Στροφή περί τον άξονα x μεταβάλλει τις αποστάσεις ανάμεσα στα χαρακτηριστικά του προσώπου αλλά δεν περιστρέφει την έλλειψη, το αποτέλεσμα 58 είναι απλά μείωση του λόγου a/b. Στροφή περί τον άξονα y αυξάνει το λόγο a/b χωρίς όμως να αλλάζει το σχήμα του προσώπου το οποίο παραμένει ελλειψοειδές. Στην Εικόνα Β1.3 επιδεικνύεται η αποτελεσματική κατάτμηση του προσώπου σε μη ομοιογενές φόντο και υπό σημαντική στροφή περί τον άξονα y. Η στροφή ως προς τον άξονα z λαμβάνεται υπόψη μέσω της γωνίας θ. Πρέπει επίσης να τονιστεί ότι μερική επικάλυψη του περιγράμματος δεν οδηγεί σε αποτυχία την τεχνική δεδομένου ότι αρκεί ένα μέρος του για να διαμορφώσει κάποια επιμέρους τόξα που την απαρτίζουν. Το ίδιο ισχύει και για μη οβάλ πρόσωπα όπως αυτό της Εικόνας Β1.2. Στην ίδια εικόνα φαίνεται και η αποτυχία σχηματισμού του περιγράμματος στη περιοχή του πηγουνιού. Παρόλα αυτά ο εντοπισμός του προσώπου είναι σχεδόν τέλειος. (α) (β) Εικόνα Β1.2: Εντοπισμός και κατάτμηση προσώπου με ανίχνευση των pixels που ικανοποιούν την εξίσωση της έλλειψης. (γ) (α) (β) Εικόνα Β1.3: Κατάτμηση από ανομοιογενές φόντο και υπό περιστροφή (γ) 2. ΕΝΤΟΠΙΣΜΟΣ ΣΗΜΕΙΩΝ ΣΕ ΕΙΚΟΝΕΣ ΕΜΠΡΟΣΘΙΑΣ ΟΨΗΣ Ο εντοπισμός των χαρακτηριστικών σημείων της εμπρόσθιας όψης που περιγράφεται στη συνέχεια εφαρμόζεται αφού έχει προηγηθεί κατάτμηση του προσώπου από το φόντο με τη βοήθεια της τεχνικής που περιγράφηκε στη προηγούμενη παράγραφο. Επίσης με βάση την εκτίμηση της γωνίας στροφής θ της έλλειψης, πραγματοποιείται το σχετικό αντιστάθμισμα ώστε το πρόσωπο να έλθει σε πλήρως όρθια θέση. Η τεχνική μπορεί να εφαρμοστεί χωρίς καμία προεργασία σε περιπτώσεις mug shot φωτογραφιών στις οποίες το φόντο είναι ομοιογενές και τα απεικονιζόμενα πρόσωπα εμφανίζουν μικρή κλίση ως προς τον άξονα z. 59 Η προτεινόμενη τεχνική στηρίζεται στο γεγονός ότι η ανομοιογένεια στην κατανομή των τιμών της κλίμακας του γκρι στις περιοχές των φρυδιών και ματιών είναι πυκνότερη από κάθε άλλη περιοχή του προσώπου. Με προβολή της εικόνας ακμών ­εικόνα Β της προηγούμενης παραγράφου- στον κατακόρυφο άξονα δημιουργούνται διάφορες κορυφές που αντιστοιχούν στα φρύδια, τα μάτια, τη μύτη, το στόμα κοκ ­ βλέπε Εικόνα Β1.4(β). Με δεδομένη την ανατομία του προσώπου, η σειρά των κορυφών θα είναι όπως παραπάνω με υψηλότερη αυτήν που αντιστοιχεί στα μάτια ή τα φρύδια. (α) 1800 1600 (β) 1400 1200 1000 800 600 400 0 20 40 60 80 100 120 (γ) (δ) Εικόνα Β1.4: (α) Εντοπισμός του περιγράμματος του προσώπου, (β) προβολή των τιμών της εικόνας ακμών στον κατακόρυφο άξονα, (γ) άθροιση των τιμών των pixels σε μια λωρίδα μικρού πάχους η οποία περιλαμβάνει την ευθεία που διέρχεται από τα μάτια, (δ) εντοπισμός ματιών Στην πράξη αντί για προβολή της εικόνας ακμών στο κατακόρυφο άξονα προβάλλουμε την εικόνα διαφορών D. Με τον τρόπο αυτό τονίζονται περισσότερο οι περιοχές ανομοιογένειας στο πρόσωπο. Στην εικόνα ακμών όλα τα pixels μιας ακμής έχουν την ίδια βαρύτητα ενώ στην εικόνα διαφορών αντιπροσωπεύονται από κυμαινόμενες τιμές. Η σχέση Β1.11 περιγράφει την προβολή της εικόνας Dr΄c στον κατακόρυφο άξονα: ve ( y) = D(i, y ) i =1 r (Β1.11) Οι κορυφές που προκύπτουν εξομαλύνονται με φίλτρο ενδιάμεσης τιμής ούτως ώστε να αποφευχθεί το ενδεχόμενο να λάβουμε υπόψη κάποια μεμονωμένη κορυφή η οποία δεν αφορά σημαντικό τμήμα του προσώπου. 60 Με βάση την υπόθεση ότι η περιοχή με την μεγαλύτερη πυκνότητα ανομοιογένειας στο πρόσωπο είναι η περιοχή των ματιών, μια προσέγγιση της οριζόντιας θέσης τους δίνεται από την σχέση: y 0 = arg max (v e (i )) i (Β1.12) Σημειώνεται πως ο παραπάνω αλγόριθμος είναι σχετικά επιρρεπής στην στροφή περί τον άξονα z που διαταράσσει την ευθυγράμμιση των ματιών. Η γνώση της γωνίας περιστροφής περί τον άξονα z αυξάνει σημαντικά την ευστάθεια του αλγόριθμου. Για τον εντοπισμό της κάθετης θέσης των ματιών θεωρούμε την οριζόντια λωρίδα [y1 y2]΄[1 r] με y1 x TH (Β1.18) λαμβάνεται υπόψη η μεταβολή θέσης, όπου j είναι ο δείκτης που κινείται στα στοιχεία ενός διανύσματος και α δείχνει το πλάτος των στοιχείων. Η απόκριση φάσης στην χαμηλότερη χωρική συχνότητα μας δίνει την 62 αρχική εκτίμηση της διαφοράς θέσης ενός χαρακτηριστικού σημείου. Η θέση του χαρακτηριστικού σημείου ξαναϋπολογίζεται με βάση αυτή την εκτίμηση και η διαδικασία επαναλαμβάνεται στις υψηλότερες χωρικές συχνότητες, προσδίδοντας συνεχώς μεγαλύτερη ακρίβεια. Η διαφορά θέσης που προκύπτει αντιστοιχίζεται με ένα βαθμό εμπιστοσύνης μεταξύ των δυο συγκρινόμενων διανυσμάτων. Υψηλής εμπιστοσύνης διαφορές θέσης χρησιμοποιούνται για τον εντοπισμό των σημείων. Προκειμένου να ανιχνεύσουμε χαρακτηριστικά σημεία της εικόνας μπορούμε να εφαρμόσουμε την τεχνική αυτή συγκρίνοντας την εκάστοτε εικόνα με πρότυπο. Επίσης η τεχνική αυτή μπορεί να χρησιμοποιηθεί σε εκτίμηση κίνησης προσώπου σε ακολουθίες βίντεο, καθώς και κατά την απεικόνιση των προσώπων με γράφους των οποίων οι κόμβοι φέρουν περιγραφή των αντίστοιχων αποκρίσεων των φίλτρων στις διάφορες συχνότητες και οι ακμές περιγράφουν τοπογραφικές σχέσεις. Η τελευταία χρήση σχετίζεται με ταίριασμα ελαστικών γράφων και βρίσκει εφαρμογή στην αναγνώριση και την απομόνωση προσώπων η άλλων αντικειμένων σε σύνθετες σκηνές. Μια άλλη μορφή της δισδιάστατης συνάρτησης Gabor είναι: x2 y2 g ( x, y; u 0 , v0 ) = exp - 2 + + 2pj [u 0 x + v0 y ] 2 2s c 2s y (Β1.19) όπου τα σx και σy συμβολίζουν τα χωρικά πλάτη της γκαουσιανής περιβάλλουσας και στην ουσία ρυθμίζουν την επιλεκτικότητα των αξόνων. Επίσης (uo,vo) είναι η εκάστοτε κεντρική συχνότητα της μιγαδικής ημιτονοειδούς. Οι συναρτήσεις Gabor σχηματίζουν μια πλήρη, μη ορθογωνική βάση. Η αναπαράσταση αυτών σε μορφή wavelet είναι: F l ( x, y , q ) = exp - l 2 x ' 2 + y ' 2 + jpx ' {[ ( )] } (Β1.20) όπου x΄=xcosθ+ysinθ και y΄=xsinθ+ycosθ. Η παράμετρος θ δείχνει τον προσανατολισμό του φίλτρου ως προς τον χώρο. Ο προσανατολισμός αφορά στην εξαγωγή χαρακτηριστικών ως προς κάποια επιθυμητή κατεύθυνση. Η παράμετρος προσανατολισμού θ καθορίζει την κατεύθυνση των ανιχνεύσιμων ακμών. Υπάρχει ιδιαίτερη ευαισθησία σε ακμές μικρού μήκους, ενώ παράλληλα μειώνεται η απόκριση για αύξηση των μηκών των γραμμών. Ένα άλλο σημαντικό χαρακτηριστικό για τις συναρτήσεις Gabor διατυπώνεται παρακάτω. Για την εκθετική συνάρτηση που εκφράζει την περιβάλλουσα, ισχύει η ιδιότητα ότι το γινόμενο του πεδίου ορισμού της συνάρτησης με το εύρος ζώνης του μετασχηματισμού Fourier είναι ελάχιστο. Αυτό συνεπάγεται βέλτιστο εντοπισμό χαρακτηριστικών, δηλαδή η διακριτική ικανότητα γίνεται βέλτιστη τόσο ως προς τον φυσικό χώρο όσο και ως προς τον χώρο των συχνοτήτων ταυτόχρονα. 3. ΕΝΤΟΠΙΣΜΟΣ ΣΗΜΕΙΩΝ ΣΕ ΕΙΚΟΝΕΣ ΠΡΟΦΙΛ Χαρακτηριστικά σημεία από την οριογραμμή του προφίλ είχαν χρησιμοποιηθεί στις πρώτες μελέτες της αναγνώρισης προσώπων. Στις σύγχρονες αντιμετωπίσεις η χρήση τους είναι σημαντικά περιορισμένη. 63 Μεγαλύτερη αξία έχουν σε περιβάλλον δημιουργίας ­ προσαρμογής συνθετικών μοντέλων του ανθρώπινου κεφαλιού. Στην τρέχουσα παράγραφο περιγράφεται συνοπτικά μια διαδικασία εντοπισμού κάποιων χαρακτηριστικών σημείων του προφίλ. Δεδομένου ότι όλα τα σημεία βρίσκονται στην οριογραμμή του προφίλ, οι εικόνες μπορούν να είναι δυαδικές ­ασπρόμαυρες. Για τη μετατροπή τους, μπορεί να χρησιμοποιηθεί η διαδικασία υπολογισμού ακμών της παραγράφου 1. Σε κλασσικές τεχνικές εντοπισμού σημείων στο προφίλ, η οριογραμμή θεωρείται ως ένα μονοδιάστατο σήμα και τα επιμέρους σημεία υπολογίζονται με τεχνικές εντοπισμού τοπικών μεγίστων και ελαχίστων σε καμπύλες. Ένας εναλλακτικός τρόπος υπολογισμού είναι ο γεωμετρικός. Θεωρώντας ως σημείο αναφοράς το κέντρο βάρους της εικόνας προφίλ, χαράσσουμε ευθείες που διέρχονται από αυτό ­βλέπε Εικόνα Β1.6(α). Με βάση τις τριγωνικές διαμερίσεις που ορίζονται από δύο διαδοχικές ευθείες μπορούμε να εκτιμήσουμε τη καμπυλότητα κάθε σημείου της οριογραμμής. Έστω ui-1 , ui , ui+1 τρία διαδοχικά σημεία της οριογραμμής με αντίστοιχες αποστάσεις από το κέντρο βάρους ri -1 , ri , ri +1 . Έστω επίσης l i το ευθύγραμμο τμήμα που συνδέει τα σημεία ui-1 , ui+1 και mi το σημείο τομής των ευθυγράμμων τμημάτων ri και l i . Το μέτρο της καμπυλότητας του σημείου ui μπορεί να υπολογιστεί από τη σχέση ­βλέπε και Εικόνα Β1.6(β): Di = u i - l i (Β1.21) Το πρόσημο της καμπυλότητας προκύπτει από τη σχέση: s i = sign( ri - rmi ) (Β1.22) όπου rmi είναι η απόσταση του σημείου mi από το κέντρο βάρους. (α) (β) Εικόνα Β1.6: Εντοπισμός χαρακτηριστικών σημείων στο προφίλ Η διαδικασία πραγματοποιείται σειριακά και διακόπτεται κάθε φορά που υπάρχει αλλαγή του πρόσημου της καμπυλότητας. Δύο διαδοχικά σημεία μηδενικής καμπυλότητας μπορούν να αποτελέσουν σημεία 64 αναφοράς για την εκτίμηση της καμπυλότητας όλων των ενδιάμεσων σημείων σύμφωνα με τις σχέσεις Β1.21 και Β1.22. Τα σημεία με τη μέγιστη τοπική καμπυλότητα μπορούν να θεωρηθούν ως τα χαρακτηριστικά σημεία της οριογραμμής. 4. 3-Δ ΑΝΑΠΑΡΑΣΤΑΣΗ Η εξαγωγή χαρακτηριστικών σημείων της επιφάνειας του προσώπου και της οριογραμμής του προφίλ μπορεί να χρησιμοποιηθεί για την προσαρμογή τρισδιάστατων μοντέλων κεφαλιού σε συγκεκριμένες περιπτώσεις ­δημιουργία ατομικών μοντέλων. Στην Εικόνα Γ6.1 υπενθυμίζεται ποια σημεία θεωρείται ότι μπορούν να ανιχνευθούν αυτόματα. σε εικόνες όπως περιγράφηκε στις προηγούμενες παραγράφους. Εικόνα Β1.7: Χαρακτηριστικά σημεία στη εμπρόσθια όψη και στο προφίλ Χαρακτηριστικά στην όψη profile Γωνία 1-2-3 Γωνία 7-8-9 Λόγος d (8,10) d (2,8) Γωνία 5-6-7 Γωνία 3-4-5 Γωνία 4-5-6 Περιγραφή Χαρακτηριστικό του σαγονιού Χαρακτηριστικό της μύτης Μεγάλο ή μικρό μέτωπο Χαρακτηριστικό άνω χείλους Χαρακτηριστικό κάτω χείλους Γωνία ανάμεσα στα χείλη Χαρακτηριστικά πρόσοψης Λόγος d (14,15) d (4,9) Λόγος d (12,13) d (14,15) Λόγος d (5a ,5b) d (14,15) Λόγος d (4,6) d (14,15) Λόγος d (12a ,12b) d (14,15) Λόγος d (12c,12d ) d (14,15) Λόγος d (8,9) d (14,15) Λόγος d (8a ,8b) d (14,15) Περιγραφή Χαρακτηριστικό του πλάτους του προσώπου Απόσταση ανάμεσα στα μάτια Πλάτος του στόματος Ύψος του στόματος Πλάτος του ματιού Ύψος του ματιού Μήκος της μύτης Πλάτος της μύτης 65 Πίνακας Β1.1: Περιγραφή χαρακτηριστικών υψηλότερου επιπέδου με βάση μεμονωμένα σημεία Τα σημεία που εντοπίζονται είναι ένα υποσύνολο των παραμέτρων FDP που προβλέπονται στο πρότυπο MPEG-4. Βρίσκονται κατά μείζονα λόγο συγκεντρωμένα γύρω από το στόμα και τα μάτια (στην όψη frontal), γεγονός που ευνοεί ιδιαίτερα τις διαδικασίες τροποποίησης ενός γενικού μοντέλου ανθρώπινου προσώπου ή εντοπισμού ενός προσώπου από μια σχετική βάση δεδομένων. Στον Πίνακα Γ6.1 εμφαίνεται πως με βάση τα μεμονωμένα σημεία στη εμπρόσθια όψη και το προφίλ μπορεί να δοθεί μια περιγραφή υψηλότερου επιπέδου για κάποια ανατομικά χαρακτηριστικά του προσώπου. Με βάση των Πίνακα Γ6.1 πραγματοποιείται μετατροπή των χαρακτηριστικών του τρισδιάστατου μοντέλου. Για λεπτομερέστερη επεξήγηση ο αναγνώστης παραπέμπεται στις εργασίες [31]-[33]. 66 Κεφάλαιο Β2 ΕΝΤΟΠΙΣΜΟΣ ΠΡΟΣΩΠΩΝ ΣΕ ΕΓΧΡΩΜΕΣ ΕΙΚΟΝΕΣ ΚΑΙ ΑΚΟΛΟΥΘΙΕΣ ΒΙΝΤΕΟ Ο εντοπισμός προσώπου δεν είναι πλέον άρρηκτα συνδεδεμένος με την αναγνώριση προσώπων. Αντίθετα αποτελεί ένα πολύ σημαντικό στοιχείο στο πλαίσιο πολλών εφαρμογών πολυμέσων όπως δεικτοδότηση, κατηγοριοποίηση σκηνών σε βίντεο και ανάλυση και περίληψη ειδήσεων. Εμπνευσμένοι από την εργασία [1], πολλοί ερευνητές παρουσίασαν εργασίες για εντοπισμό προσώπων με βάση τα χαρακτηριστικά χρώματος του ανθρώπινου δέρματος. Οι περισσότεροι από τους αλγόριθμους αυτούς αντιμετωπίζουν προβλήματα γενίκευσης εξαιτίας της μοντελοποίησης χρώματος που επιχειρούν. Επιπλέον το στάδιο επαλήθευσης που χρησιμοποιούν εξαρτάται αποκλειστικά από χαρακτηριστικά σχήματος και όχι υφής γεγονός που περιορίζει σημαντικά την αξιοπιστία του εντοπισμού. Στο κεφάλαιο αυτό παρουσιάζεται ένα Γκαουσιανό μοντέλο, για την προσέγγιση της πιθανοτικής κατανομή χρώματος του δέρματος, του οποίου οι παράμετροι επαναπροσδιορίζονται με βάση την τρέχουσα εικόνα / πλαίσιο εισόδου. Με τον τρόπο αυτό τα προβλήματα γενίκευσης περιορίζονται σημαντικά. Επιπλέον το στάδιο επαλήθευσης, το οποίο εφαρμόζεται στα εντοπισμένα τμήματα δέρματος, βασίζεται σε μια παραλλαγή της διαδικασίας ταύτισης με πρότυπο. 1. ΕΙΣΑΓΩΓΗ Στο παρελθόν ο όρος face detection-εντοπισμός προσώπου ήταν ισχυρά συνδεδεμένος με το πρόβλημα της αναγνώρισης προσώπων γεγονός που είχε βαθιά επίδραση στους αλγορίθμους που αναπτύχθηκαν. Για να επιτευχθεί η απαιτούμενη ακρίβεια εντοπισμού πρέπει να τεθούν πολύ αυστηροί [2]. Επιπλέον η μεγάλη πλειονότητα των αλγορίθμων βασιζόταν σε μονόχρωμες εικόνες και χρησιμοποιούντο τεχνικές όπως η ταύτιση με πρότυπο, οι γεωμετρικές ροπές και η ανίχνευση των επιμέρους χαρακτηριστικών του προσώπου όπως τα μάτια, η μύτη και το στόμα [3][4]. Πρόσφατα η ταχεία ανάπτυξη των εφαρμογών πολυμέσων πρόσθεσε αξία στους αλγόριθμους εντοπισμού προσώπου και τους αποσύνδεσε από το πρόβλημα της αναγνώρισης προσώπου. Για εφαρμογές όπως η δεικτοδότηση και ανάκληση εικόνων και βίντεο [5][6], η ταξινόμηση σκηνών βίντεο και η περίληψη ειδήσεων [7], ο εντοπισμός προσώπων αποτελεί ένα πολύτιμο εργαλείο. Οι σύγχρονες εφαρμογές, παρόλα αυτά απαιτούν γρήγορες υλοποιήσεις με επαρκή ακρίβεια, παρά εξαντλητικές διαδικασίες με υψηλή ακρίβεια στον εντοπισμό. Αποτέλεσμα του γεγονότος αυτού είναι οι αλγόριθμοι ανίχνευσης, που χρησιμοποιήθηκαν αποτελεσματικά στο πλαίσιο συστημάτων αναγνώρισης προσώπων, να μην μπορούν να χρησιμοποιηθούν ή να χρειάζονται επανασχεδιασμό. Τέλος πολλές από τις εφαρμογές πολυμέσων που σχετίζονται με εικόνες και βίντεο εμπλέκουν χαρακτηριστικά χρώματος σε αντίθεση με τους παραδοσιακούς αλγορίθμους ανίχνευσης προσώπων. Η εργασία [1] ενέπνευσε πολλούς ερευνητές για την υλοποίηση αλγορίθμων ανίχνευσης προσώπων οι οποίοι βασίζονται σε χαρακτηριστικά χρώματος. Η βασική ιδέα της εργασίας [1] είναι η μοντελοποίηση των χρωματικών χαρακτηριστικών του ανθρώπινου δέρματος στο χώρο χρωμάτων YCrCb. Οι περισσότεροι από τους αλγορίθμους αυτούς εμπλέκουν κάποια στάδια μετεπεξεργασίας για να επιτύχουν αξιοσημείωτα 67 αποτελέσματα [7]. Παρόλα αυτά δεν είναι σαφές αν τα στάδια μετεπεξεργασίας είναι αρκετά για να οδηγήσουν σε ένα επαρκές αποτέλεσμα εντοπισμού προσώπου τους αλγόριθμους που βασίζονται στα χαρακτηριστικά χρώματος. Παρόλο που ο υπόχωρος που καταλαμβάνεται από τις χρωματικές συνιστώσες του δέρματος στο χρωματικό πεδίο Cr-Cb είναι πράγματι μικρός δεν μπορεί να μοντελοποιηθεί με ένα τέτοιο γενικό τρόπο ώστε να είναι αποδοτικός για όλες τις εικόνες οι οποίες περιέχουν πρόσωπα. Για να βελτιώσουμε την ικανότητα γενίκευσης του μοντέλου πρέπει να το κάνουμε πιο «χαλαρό» το οποίο όμως οδηγεί σε αυξημένο ποσοστό false alarms-λανθασμένων εντοπισμών. Από τη άλλη πλευρά ένα «αυστηρό» μοντέλο οδηγεί σε ένα αυξημένο αριθμό dismissals-απωλειών εντοπισμού. Επιπλέον η επίδραση του γενικού φωτισμού όπως εκφράζεται μέσα από το κανάλι Y δεν είναι εντελώς αμελητέα. Στο κεφάλαιο αυτό αντιμετωπίζεται το πρόβλημα του εντοπισμού προσώπου συνδυάζοντας τις χρωματικές συνιστώσες του δέρματος, η πιθανοτική κατανομή των οποίων προσεγγίζεται με ένα δισδιάστατο Γκαουσιανό μοντέλο, και την εφαρμογή μιας διαδικασίας ταύτισης με πρότυπο. Το συνολικό σχήμα βελτιώνει τη αποδοτικότητα της ανίχνευσης προσώπου με δύο διαφορετικούς τρόπους: (α) Βελτιώνοντας την ικανότητα γενίκευσης του χρωματικού μοντέλου για το δέρμα η οποία επιτυγχάνεται με επανεκτίμηση των παραμέτρων της Γκαουσιανής κατανομής με βάση την τρέχουσα εικόνα εισόδου και, (β) με τη χρήση ενός σταδίου επαλήθευσης το οποίο εμπλέκει και πληροφορία υφής εκτός από χαρακτηριστικά χρώματος και σχήματος. 2. ΕΝΤΟΠΙΣΜΟΣ ΤΩΝ ΠΙΘΑΝΟΤΕΡΩΝ ΤΜΗΜΑΤΩΝ ΔΕΡΜΑΤΟΣ Όπως έχει αναφερθεί σε κλασσικές μελέτες [8][9] οι χρωματικές συνιστώσες του δέρματος καταλαμβάνουν μια μικρή περιοχή του χρωματικού επιπέδου Cr-Cb του μοντέλου χρωμάτων [Y, Cr, Cb]. Ο Wang 0, βασισμένος στην ιδέα αυτή παρουσίασε ένα αλγόριθμο ανίχνευσης προσώπων ο οποίος ενέπνευσε πολλούς ερευνητές. Με ένα παρόμοιο τρόπο προσεγγίζουμε την πιθανοτική κατανομή των χρωματικών συνιστωσών του δέρματος μέσω μιας δισδιάστατης Γκαουσιανής συνάρτησης πυκνότητας πιθανότητας. Η επιλογή της Γκαουσιανής κατανομής στηρίζεται στο κεντρικό οριακό θεώρημα και στην τυχαιότητα η οποία χαρακτηρίζει την χρωματική υφή του δέρματος στους ανθρώπους. Επεκτείνοντας την ιδέα του Wang χρησιμοποιούμε ένα απλό γραμμικό μοντέλο ανατροφοδότησης για την επανεκτίμηση των παραμέτρων της κατανομής με βάση την νέα πληροφορία η οποία εισέρχεται στο σύστημα μέσω της τρέχουσας εικόνας / καρέ. Υποθέτοντας ότι το μέσο διάνυσμα μ 0 και ο πίνακας συμμεταβλητότητας C έχουν ευσταθώς εκτιμηθεί από κάποιο σύνολο μάθησης, η πιθανότητα ενός προτύπου εισόδου x ­το οποίο εκφράζει τις τιμές των χρωματικών συνιστωσών Cr, Cb κάποιου pixel ­ δίνεται από τη σχέση: 1 exp{- (x - μ 0 ) T C -1 ( x - μ 0 )} 2 P(x | μ 0 , C) = k (2p ) 2 C 1 2 (Β2.1) όπου k = αριθμός των χρωματικών συνιστωσών = 2 68 Για την εκτίμηση των μ 0 και C χρησιμοποιήσαμε ως σύνολο μάθησης pixels προσώπων από απλά βιντεοκλίπς, έγχρωμες εικόνες, ατομικές βιντεοκάμερες και ψηφιακές φωτογραφικές μηχανές. Παρόλο που η χρήση του ανωτέρω Γκαουσιανού μοντέλου, για την ταξινόμηση των pixels ως pixels δέρματος ή μη, είναι αρκετά αποδοτική για καλύτερη απόδοση και ικανότητα γενίκευσης πραγματοποιείται επανεκτίμηση του μέσου διανύσματος με βάση την τρέχουσα εικόνα / καρέ. Έστω Ι το σύνολο των pixels της εικόνας εισόδου, χωρικής ανάλυσης MxN και p(x) η πιθανότητα του pixel x να είναι pixel δέρματος τότε τα σύνολα X και ΧC ικανοποιούν τις σχέσεις: X I, Xc I , X Xc =I και το Χ ορίζεται όπως παρακάτω: X : {xI | p(x)³CI } Όπου C I = m x + s x , m x = sx = 1 M N -1 1 M N x 2 p( x ) xI αντιπροσωπεύει τη μέση πιθανότητα των pixels της εικόνας και { p( x) -m } xI είναι η τυπική τους απόκλιση. 1 x αποτελεί το μέσο διάνυσμα των L xX Αν L είναι ο αριθμός των στοιχείων του συνόλου X τότε m = χρωματικών συνιστωσών των pixels δέρματος όπως αυτό εκτιμάται από το σύνολο X. Σύμφωνα με τα ανωτέρω το αρχικό Γκαουσιανό μοντέλο, όπως εκφράζεται από την εξίσωση (Β2.1), χρησιμοποιείται σε ένα πρώτο πέρασμα για την ταξινόμηση των pixels και τα pixels τα οποία έχουν ταξινομηθεί ως pixels δέρματος χρησιμοποιούνται για την επανεκτίμηση του διανύσματος μ 0 σύμφωνα με την εξίσωση: μ 0 = (1 - m) μ 0 + m μ (Β2.2) όπου μ είναι το εκτιμούμενο από την τρέχουσα εικόνα μέσο διάνυσμα των χρωματικών συνιστωσών των pixels και m είναι μια σταθερά μνήμης για το γραμμικό μοντέλο ανατροφοδότησης. Με βάση τον ορισμό του το σύνολο X δεν μπορεί να είναι κενό, περίπτωση που μπορεί να συμβεί αν το C I ληφθεί σταθερό και εξαιτίας της μη ικανότητας γενίκευσης του αρχικού Γκαουσιανού μοντέλου. Κατά συνέπεια είναι πάντοτε δυνατή η επανεκτίμηση των παραμέτρων της Γκαουσιανής κατανομής. Από τη άλλη πλευρά, για το σύνολο X δεν μπορεί να αποκλειστεί η πιθανότητα να μην περιλαμβάνει pixels δέρματος και κατά συνέπεια η εκτίμηση του μ να είναι εντελώς λανθασμένη. Για το λόγο αυτό η αρχική εκτίμηση των παραμέτρων του μοντέλου είναι πάρα πολύ σημαντική και επιπλέον η επιλογή του m πρέπει να γίνεται πολύ προσεκτικά ώστε να μην υπάρξει αποσυντονισμός αλλά απλή ρύθμιση του αρχικού μοντέλου. Η τελική ταξινόμηση των pixels πραγματοποιείται χρησιμοποιώντας το τροποποιημένο Γκαουσιανό μοντέλο και εφαρμόζοντας τις σχέσεις: 69 p (x | w 1 ) > th x ω1 p (x | w 0 ) p ( x | w1 ) < th x ω0 p (x | w 0 ) (Β2.3) (Β2.4) (Β2.5) th = c01 p (w 0 ) c10 p (w1 ) όπου ω1 θεωρούμε την κλάση των pixel δέρματος και ω0 τη κλάση των υπολοίπων. Οι πιθανότητες p(ω0) και p(ω1) εκφράζουν τις a priori πιθανότητες των κλάσεων ω0 και ω1 αντίστοιχα. Οι σταθερές c01 και c10 εκφράζουν το κόστος της λανθασμένης ταξινόμησης κάποιου pixel στην κλάση ω1 ­false alarm- και ω0 ­ dismissal- αντίστοιχα. Στο τέλος της ανωτέρω διαδικασίας δημιουργείται μια δυαδική εικόνα στην οποία τα τμήματα δέρματος αντιπροσωπεύουν το πρώτο πλάνο και το υπόλοιπο κομμάτι της εικόνας το φόντο. Η εξίσωση (Β2.2) χρησιμοποιείται επίσης για την προσαρμογή του μοντέλου σε ένα πλήρως δυναμικό περιβάλλον. Συγκεκριμένα σε ακολουθίες βίντεο οι παράμετροι του μοντέλου επανεκτιμούνται καρέ προς καρέ παρέχοντας τη δυνατότητα ευσταθούς παρακολούθησης της κίνησης των τμημάτων δέρματος. False Alarms (%) 35 30 25 20 15 10 5 0 Anchorpersons Various Scenes Webcameras Photos Dismissals (%) Σχήμα Β2.1: Αποτελέσματα επιτυχούς ανίχνευσης τμημάτων δέρματος για τέσσερις διαφορετικές κατηγορίες εικόνων Στο Σχήμα Β2.1 παρουσιάζεται μια σύγκριση ανάμεσα στην αποτελεσματικότητα εντοπισμού τμημάτων δέρματος για διάφορες κατηγορίες έγχρωμων εικόνων. Παρατηρούμε ότι για ελεγχόμενες συνθήκες λήψης όπως αυτές που αντιστοιχούν σε σκηνές από τηλεοπτικά studio ή λήψη σε περιβάλλον γραφείου (ατομικές βιντεοκάμερες) ο αλγόριθμος που περιγράφηκε παραπάνω εμφανίζει υψηλά ποσοστά επιτυχίας. Σε περιπτώσεις ανομοιόμορφων συνθηκών φωτισμού όπως αυτές που αντιστοιχούν σε σκηνές από τηλεοπτικά προγράμματα (various scenes -ταινίες, ειδήσεις κλπ) έχουμε αρκετά υψηλό ποσοστό αποτυχίας ανίχνευσης και ακόμα υψηλότερο ποσοστό εσφαλμένων εντοπισμών. Στη περίπτωση απλών φωτογραφιών έχουμε ενδιάμεσα ποσοστά επιτυχίας δεδομένου ότι οι συνθήκες φωτισμού δεν παρουσιάζουν τόσο μεγάλη ανομοιογένεια αλλά ούτε και είναι πλήρως ελεγχόμενες. 70 3. ΑΠΟΜΟΝΩΣΗ ΤΩΝ ΤΜΗΜΑΤΩΝ ΔΕΡΜΑΤΟΣ Το αποτέλεσμα του πρώτου σταδίου του αλγορίθμου μπορεί να δώσει τμήματα δέρματος τα οποία δεν είναι συμπαγή και επιπλέον το κάθε ένα από αυτά πρέπει να ελεγχθεί ξεχωριστά για το αν αποτελεί πρόσωπο ή όχι. Η εφαρμογή μορφολογικών τελεστών όπως οι τελεστές opening και closing [11] μπορούν να εφαρμοστούν για την επίτευξη συμπαγών αντικειμένων. Μετά τη διαδικασία του φιλτραρίσματος με τους ανωτέρω τελεστές ο μετασχηματισμός απόστασης (morphological distance transform) και τεχνικές κατανομής ιστογράμματος εφαρμόζονται για την απομόνωση των επιμέρους μη συνδεδεμένων τμημάτων [8] σύμφωνα με το μέγεθος τους. Η διαδικασία συνοψίζεται στα παρακάτω βήματα: Έστω Χ το σύνολο pixels τα οποία έχουν ταξινομηθεί ως pixel δέρματος. Έστω επίσης ότι το σύνολο Χ αποτελείται από Si, i = 1...n συμπαγή υποσύνολα τέτοια ώστε: S i S j = για όλα τα i j, και US i =1 n i =X. Αν D( S i ) είναι ο μετασχηματισμός αποστάσεως του συνόλου Si ­βλέπε Εικόνα Β2.1 (γ)- τότε μια ταξινόμηση { S1 ³ S2 ³ ... ³ S n } των συνόλων από Si, i = 1...n, μπορεί να οριστεί με βάση τη σχέση d ( S i ) = max{D ( S i )} . Σύμφωνα με τη σχέση αυτή ισχύει S i > S j αν d ( S i ) > d ( S j ) . Έστω τώρα ότι με βάση το παραπάνω κριτήριο ταξινόμησης ισχύει { S1 > S2 ³ ... ³ S n } . Για την απομόνωση του συνόλου S1 ακολουθείται η επόμενη διαδικασία: Αν q = max{D ( S i )} τότε προφανώς ισχύει q = d ( S1 ) . Ορίζουμε το σύνολο Μ (markers) με βάση τη i σχέση: Μ : {x Χ | D(x) ³ q }, όπου D(x) η τιμή του μετασχηματισμού απόστασης στο σημείο x. Προφανώς ισχύει M S1 . Χρησιμοποιώντας το σύνολο Μ σε μια διαδικασία opening by reconstruction [11] πάνω στο σύνολο Χ καταλήγουμε στα σύνολα Χ1, Χ2,τα οποία ικανοποιούν τις σχέσεις Χ1 = S1 και Χ2 = Χ - S1 ­βλέπε Εικόνα Β2.1(δ) και (ε) αντίστοιχα. Θεωρώντας το σύνολο Χ2 ως το νέο σύνολο Χ και επαναλαμβάνοντας τη ανωτέρω διαδικασία απομονώνουμε διαδοχικά τα υποσύνολα S2 , S3 ,..., S n . Στη περίπτωση που για κάποια σύνολα S i , S j , i j, ισχύει η σχέση d ( S i ) = d ( S j ) , τότε αν nm είναι ο αριθμός των στοιχείων του συνόλου Μ θα ισχύει nm ³ 2 και δεν θα ισχύει καμία από τις σχέσεις M S i , M S j . Για να εκφυλιστεί η ανωτέρω περίπτωση αντικαθιστούμε το σύνολο M με το σύνολο Μ1 για το οποίο ισχύει nm1 = 1 και M 1 M . Η επιλογή αυτή απαγορεύει την απομόνωση των συνόλων Sι και Sj ταυτόχρονα ­τα οποία σε μια τέτοια περίπτωση θα θεωρούνταν ως ένα. Φυσικά μπορεί να ισχύουν 71 ταυτόχρονα οι σχέσεις nm ³ 2 και M S i αλλά σε αυτή την περίπτωση η επιλογή του Μ1 αντί Μ πάλι θα οδηγήσει σε απομόνωση του Sι ­έστω όχι και τόσο γρήγορα. (α) (β) (γ) (δ) (ε) (ζ) Εικόνα Β2.1: (α) Αρχική εικόνα (β) εντοπισμός των πιθανών τμημάτων δέρματος (γ) ο μετασχηματισμός απόστασης (δ) ανακατασκευασμένο τμήμα της (β) με χρήση ως marker του σημείου με τη μέγιστη τιμή του μετασχηματισμού απόστασης (ε) μη ανακατασκευασμένο τμήμα της (β), (ζ) τα ορθογώνια που περικλείουν τα επιμέρους τμήματα και που οδηγούνται στο επόμενο στάδιο Τα απομονωμένα τμήματα δέρματος τα οποία προκύπτουν από την παραπάνω διαδικασία έχουν ακανόνιστα σχήματα. Κάποιου είδους φιλτράρισμα με βάση τα χαρακτηριστικά σχήματος μπορεί να εφαρμοστεί, ώστε να απαλειφθούν τα τμήματα εκείνα τα οποία είναι απίθανο να αντιστοιχούν σε πρόσωπα. Για κάθε ένα από τα υπόλοιπα τμήματα το ορθογώνιο που τα περιλαμβάνει αποκόπτεται από την αρχική 72 εικόνα και οδηγείται στο επόμενο στάδιο. Η Εικόνα Β2.1 διευκρινίζει την προηγούμενη διαδικασία. Τα τμήματα δέρματος φαίνονται στην Εικόνα Β2.1(β) και τα αντίστοιχα ορθογώνια επιδεικνύονται στην Εικόνα Β2.1(ζ). 4. ΦΙΛΤΡΑΡΙΣΜΑ ΜΕ ΒΑΣΗ ΤΟ ΣΧΗΜΑ Τα απομονωμένα τμήματα δέρματος μπορεί να ανήκουν σε πρόσωπα, άλλα τμήματα ανθρώπινου δέρματος ή σε άλλα αντικείμενα με χρώμα παρόμοιο με αυτό του δέρματος. Δεδομένου ότι η διαδικασία ταύτισης με πρότυπο που ακολουθεί είναι πάντοτε υπολογιστικά πολύπλοκη, όσο λιγότερα τμήματα δέρματος εξεταστούν με τον τρόπο αυτό τόσο ταχύτερη θα είναι η συνολική εκτέλεση του αλγορίθμου. Στην παράγραφο αυτή περιγράφεται μια διαδικασία με την οποία κάποια πιθανά τμήματα δέρματος με πολύ ακανόνιστο σχήμα απομακρύνονται και δεν οδηγούνται στο επόμενος στάδιο. Ιδανικά ένα πρόσωπο έχει αναλογίες που πλησιάζουν με αυτές μιας έλλειψης με λόγο μεγάλου προς μικρό άξονα από 1.2 έως 1.6. Η ομοιότητα ενός σχήματος με μια έλλειψη μπορεί να χρησιμοποιηθεί ως κριτήριο σχήματος για τα πιθανά τμήματα δέρματος. Ταύτιση σχημάτων, υπό τυχαίες μορφοποιήσεις, μπορεί να πραγματοποιηθεί με αρκετές τεχνικές όπως active contour models ­snakes- ή παραμορφώσιμα πρότυπα deformable templates [30]. Επιπλέον η συμπαγής κίνηση των αντικείμένων ή οι affine μετασχηματισμοί όπως η μετατόπιση, η στροφή, η αλλαγή κλίμακας και η στρέβλωση μπορούν να απαλειφθούν χρησιμοποιώντας affine invariants ή κανονικοποίηση καμπύλης [29]. Τα περιγράμματα των πιθανών τμημάτων δέρματος δεν είναι σε καμία περίπτωση ομαλά. Ακόμα και μετά την προσέγγιση τους με splines για παράδειγμα οι ανωτέρω διαδικασίες ταύτισης σχήματος δίνουν σχετικά φτωχά αποτελέσματα. Επιπλέον η διαδικασία φιλτραρίσματος με βάση το σχήμα πρέπει να είναι σχετικά γρήγορη για να αξίζει να εφαρμοστεί. Για το σκοπό αυτά λαμβάνουμε υπόψη μόνο ολικά χαρακτηριστικά τα σχημάτων. Συγκεκριμένα ορίζουμε την κυκλικότητα ή βαθμό συμπαγότητας -compactness- με βάση την περίμετρο και το εμβαδόν ενός σχήματος και σύμφωνα με τη σχέση: gX = 4p a X 2 rX (Β2.7) όπου rX είναι η περίμετρος ­αριθμός των pixels του περιγράμματος- και aX είναι το εμβαδόν που καλύπτει ­συνολικός αριθμός των pixels- του τμήματος X. Σημειώνεται ότι η μέγιστη κυκλικότητα λαμβάνεται για τμήματα με κυκλικό σχήμα και αντιστοιχεί στην τιμή ένα, και με βάση τον ορισμό της η κυκλικότητα είναι κανονικοποιημένη στο διάστημα [0,1]. Ένα άλλο γενικό χαρακτηριστικό του σχήματος λαμβάνεται από το βαθμό επιμήκυνσής του ­elongation- ο οποίος εκφράζει το λόγο των βασικών αξόνων του, όπως αυτός λαμβάνεται από τον διακριτό μετασχηματισμό Karhunen-Loeve του περιγράμματος. Συγκεκριμένα έστω τα N΄1 διανύσματα x και y που εκφράζουν τις συντεταγμένες των σημείων του περιγράμματος του τμήματος X. Ο 2΄2 πίνακας συμμεταβλητότητας των σημείων αυτών σε σχέση με το κέντρο μάζας τους (μx, μy) δίνεται από τη σχέση: 73 C= 1 [x - m x N y - m y ]T [ x - m x y - my] (Β2.8) Τα δύο ιδιοδιανύσματα του πίνακα C εκφράζουν τους βασικούς άξονες του σχήματος. Ο λόγος των ιδιοτιμών του εκφράζει τον βαθμός επιμήκυνσης του: l X = l2 / l1 (Β2.9) οπού λ1, λ2 είναι η μέγιστη και η ελάχιστη ιδιοτιμή του πίνακα C αντίστοιχα. Στην πραγματικότητα η σχέση (Β2.9) εκφράζει το αντίστροφο της επιμήκυνσης ­δεδομένου ότι λαμβάνεται ο λόγος της μικρότερης προς την μεγαλύτερη ιδιοτιμή και όχι το αντίστροφο. Τα παραπάνω γενικά χαρακτηριστικά σχήματος είναι αρκετά ευσταθή, σε σχέση με το θόρυβο που μπορεί να προκύψει κατά τη διαδικασία κατάτμησης των πιθανών τμημάτων δέρματος, και αμφότερα είναι κανονικοποιημένα στο διάστημα [0,1]. Είναι επίσης ανεπηρέαστα σε αλλαγή κλίμακας, μετατόπιση και στροφή περί τον άξονα z Πειραματικά αποτελέσματα έδειξαν ότι οι τυπικές τιμές, για τμήματα που ανήκουν σε πρόσωπα, κυμαίνονται από 0.44 έως 0.79 για την κυκλικότητα και 0.59 έως 0.91 για την επιμήκυνση. Για το φιλτράρισμα με βάση το σχήμα τα ανωτέρω χαρακτηριστικά πρέπει να ικανοποιούνται ταυτόχρονα. Για παράδειγμα, ένα τμήμα με σχήμα σταυρού μπορεί να έχει την κατάλληλη επιμήκυνση αλλά θα απορριφθεί εξαιτίας χαμηλής τιμής στην κυκλικότητα. Αντίστοιχα ένα κυκλικό σχήμα με το περίγραμμά του επηρεασμένο από θόρυβο μπορεί να δώσει σωστή τιμή κυκλικότητας αλλά θα απορριφθεί εξαιτίας πολύ μεγάλης τιμής στην επιμήκυνση. 5. ΕΝΤΟΠΙΣΜΟΣ ΠΡΟΣΩΠΩΝ ΕΝΤΟΣ ΤΩΝ ΤΜΗΜΑΤΩΝ Στο τρίτο στάδιο του αλγορίθμου για όλα τα απομονωμένα πιθανά τμήματα δέρματος, όπως αυτά περιγράφονται από το ορθογώνιο που τα περικλείει, εφαρμόζεται η επόμενη διαδικασία εντοπισμού προσώπων με βάση της αρχής της ταύτισης με πρότυπο: Έστω M (u , q ) είναι ένα πρότυπο προσώπου σε κλίμακα u(h,v), η οποία περιγράφεται από την οριζόντια χωρική ανάλυση h και την κάθετη v, και γωνία κλίσης (στροφή ως προς τον άξονα z) θ. Αν F είναι μια περιοχή της εικόνας η οποία πιθανόν να περιλαμβάνει κάποιο πρόσωπο σε τυχαία κλίμακα, θέση και κλίση, και A μια υποπεριοχή της F τότε χρησιμοποιούμε την επόμενη μετρική για να βρούμε την ελάχιστη συσχέτιση ανάμεσα στα σύνολα A και M σε κλίμακα u και κλίση θ: A - M (u , q ) r (u , q ) = min A F r a b (Β2.10) όπου r = 1 - c h 2 - , χρησιμοποιείται για να συμπεριλάβει την ανατομία του προσώπου στη μετρική, c v 3 είναι μια σταθερά (0