System automatycznych pomiarów rynometrycznych (2) − Charakterystyka danych

Tomasz Kuśmierczyk print

Rys. 1. Schemat skanera wykorzystującego fotogrametrię

Rys. 1. Schemat skanera wykorzystującego fotogrametrię

Współcześnie stosuje się kilka typów bezdotykowych skanerów powierzchni. Pozwalają one uzyskać informację o koordynatach trójwymiarowych powierzchni bez mechanicznej interakcji ze skanowanym obiektem.

 

W poprzedniej części artykułu postawiony został cel opisywanego systemu: stworzenie zestawu narzędzi algorytmicznych pozwalających na analizę obrazów trójwymiarowych twarzy. Wprowadzone zostały podstawowe pojęcia z zakresu tradycyjnej antropometrii i przedstawiona informacja o oczekiwanych rezultatach.

Część druga poświęcona jest aspektom technicznym omawianego zagadnienia i zawiera przegląd istniejących podejść do skaningu trójwymiarowego oraz charakterystykę danych pochodzących z takich źródeł. Zaprezentowane zostały biblioteki danych, z wykorzystaniem którch powstał opisywany system.

Urządzenia pomiarowe

Współcześnie stosuje się kilka typów bezdotykowych skanerów powierzchni. Pozwalają one uzyskać informację o koordynatach trójwymiarowych powierzchni bez mechanicznej interakcji ze skanowanym obiektem. Skanery takie podzielić można na pasywne i aktywne [1].

Skanery pasywne (ang. Passive Vision) różni od aktywnych to, że nie emitują światła, operując jedynie na obrazie naturalnym. Podstawową stosowaną techniką jest fotogrametria (ang. photogrammetry). Używa ona obrazów z dwóch kamer, na których poszukuje się odpowiadających sobie punktów i na tej podstawie oblicza informację o głębi. Wadami takiego rozwiązania są: długi czas przetwarzania danych, skomplikowana kalibracja urządzenia oraz trudność z uzyskaniem dokładnych danych (w wersji bez specjalnych znaczników punktów na powierzchni) i ograniczona liczba punktów, które daje się analizować (w wersji ze znacznikami).

Znacznie lepszymi i szerzej stosowanymi są skanery aktywne. Ich działanie opiera się na rzutowaniu dodatkowego obrazu/światła na obiekt skanowany. Wśród takich urządzeń wyróżnia się skanery punktowe PAV (ang. Point Active Vision) i powierzchniowe FAV (ang. Full-Field Active Vision).

Skanery punktowe składają się zwykle z lasera i kamery lub interferometru. Wyróżnia się rozwiązania wykorzystujące:

  • czas lotu światła (ang. Time-of-Flight) – mierzy się czas przelotu od lasera do obiektu i z powrotem. Zaletą rozwiązania jest szeroki zakres wielkości mierzonych obiektów. Wadą jest wymóg dostępności bardzo precyzyjnych urządzeń optycznych i elektronicznych, co generuje bardzo wysokie koszty.
  • skaning laserem (ang. Laser Scanning) – rzutuje się światło laserowe na powierzchnię obiektu i analizuje jego położenie kamerą. Plusem rozwiązania są prostota i szybkość przetwarzania oraz wysoka dokładność. Minusem są ograniczenia geometryczne co do możliwych położeń punktów na powierzchni.
  • śledzenie lasera (ang. Laser Tracking System) – analizuje się interferometrem wynik odbicia światła laserowego od powierzchni skanowanego obiektu. Pozytywami rozwiązania są szybkość i jakość danych. Minusem natomiast wysoki koszt.

Skanery powierzchniowe składają się z projektora i kamery. Projektor rzutuje specjalnie ustrukturyzowany obraz lub obrazy na powierzchnię skanowanych obiektów. Następnie obraz z kamery poddawany jest analizie. Stosuje się kilka rozwiązań. Dwa główne to prążki Moire’a (ang. moire fringes) oraz światło strukturalne (ang. structured light). Korzyściami płynącymi z takich rozwiązań jest prostota fazy analizy danych, szybkość pozyskiwania danych i stosunkowo duża dokładność danych. Minusem jest wysoki koszt projektora.

Specyfika danych

Każdy skaner generuje na swoim wyjściu zbiór/chmurę punktów (ang. cloud of points) w trójwymiarowym, kartezjańskim układzie współrzędnych. Każde z urządzeń korzysta z własnych, specyficznie położonych koordynat. W celu uzyskania ogólności rozwiązania, nie stosuje się żadnych założeń co do położenia (ani obrotu) danych w przestrzeni. Nie przyjmuje się również żadnych założeń dotyczących numeracji czy też sortowania punktów. Informacja o kolorze często nie jest dostępna, toteż zakłada się jej brak.

Pojedynczy przebieg skanowania daje w efekcie pojedynczą chmurę kierunkową (ang. directional data) tj. widok powierzchni z jednego kierunku lub ze zbioru kierunków (np. gdy urządzenie skanujące przemieszcza się wokół obiektu skanowanego). Chmurę taką charakteryzuje to, że obszary zakryte podczas skanowania pojawią się w danych wyjściowych jako „dziury”. Możliwe są też nieciągłości powierzchni wynikające z błędów w skanowaniu. Dane mogą zawierać fragmenty odzieży, elementy otoczenia, włosy. Dodatkowo należy pamiętać, że dane wyjściowe ze skanerów mogą zawierać przekłamania, tj. przypadkowe punkty niemające odpowiedników w rzeczywistości. Nie należy też zapominać, że niedokładność urządzeń pomiarowych wprowadza pewien rozrzut współrzędnych punktów wokół wartości rzeczywistych.

W projektowanym rozwiązaniu zakłada się, że na wejściu podawane są pojedyncze chmury kierunkowe punktów powstałe w efekcie skanowania twarzy. Obrazy zawierają widok twarzoczaszki z przodu. Skala danych to 1:1. W zbiorze danych współrzędne punktów podane są w milimetrach.

Do analizy i testowania prezentowanego rozwiązania użyto danych pochodzących z dwóch źródeł stosujących dwa najpopularniejsze i najbardziej reprezentatywne podejścia do zbierania danych trójwymiarowych: skaner laserowy (wersja z kamerą) oraz światło strukturalne. Pierwszym z nich jest publicznie dostępna baza obrazów 3D trójwymiarowych twarzy – GavabDB. Drugim są dane pozyskane z Wydziału Mechatroniki Politechniki Warszawskiej dzięki uprzejmości dr inż. Roberta Sitnika.

GavabDB

Tab. 1. Typy danych w bazie GavabDB
Numer
widoku
Nazwa pliku Orientacja głowy Emocja
1 carai_frontal1 Przód Neutralna
2 carai_frontal2 Przód Neutralna
3 carai_derecha Prawy profil Neutralna
4  carai_izquierda  Lewy profil Neutralna
5 carai_arriba Patrząc w górę
 (obrót o ok. +35°) 
Neutralna
6 carai_abajo Patrząc w dół
(obrót o ok. -35°)
Neutralna
7 carai_sonrisa Przód Uśmiech
8 carai_risa Przód Śmiech
9 carai_gesto Przód Dowolna
       

Baza danych Gavab powstała na Uniwersytecie Rey Juan Carlos w Madrycie. Jest dostępna na stronie internetowej www.gavab.es/recursos_en.html na licencji pozwalającej na bezpłatne zastosowanie naukowe. Zbudowana została w celach badawczych dotyczących automatycznego rozpoznawania i analizy twarzy.

Bazę wykonano z wykorzystaniem skanera laserowego Minolta V1-700 [2, 3]. Każdy z obrazów 3D pozyskano w trakcie pojedynczego skanu. Czas pobierania danych nie przekraczał 1 s. Przy pobieraniu danych nie kontrolowano oświetlenia. Twarze umiejscowione były w odległości około 1,5–2 m od skanera. Różnica w położeniu może powodować delikatne rozbieżności rozdzielczości obrazów. Dane wstępnie przetworzono z wykorzystaniem oprogramowania VIVID. Zmniejszano rozdzielczość danych przez zastąpienie kilku punktów ich średnią, aż do uzyskania pożądanej wartości. Dodatkowo wypełniono małe nieciągłości powierzchni.

Baza zawiera 549 trójwymiarowe skany powierzchni twarzy w popularnym formacie VRML, pobrane od 61 osób należących do rasy białej: 45 mężczyzn i 16 kobiet, w wieku od 18 do 40 lat, w tym także od osób z brodą, wąsami itp. Dla każdej osoby baza zawiera dwa widoki z przodu i cztery z boku w pozie neutralnej. Dodatkowo dołączono trzy obrazy twarzy widziane z przodu wyrażające różne emocje: śmiech (ang. laugh), uśmiech (ang. smile) i jedną losową (nie dopuszcza się jednak zakrywania twarzy np. dłonią czy językiem).

Dane z Wydziału Mechatroniki PW

Dane zostały zebrane z wykorzystaniem systemu 3DMADMAC opracowanym na Wydziale Mechatroniki Politechniki Warszawskiej. System składa się z projektora DLP i kamery CCD [1]. Użyto projektora Toshiba TLP660. Rozdzielczość przestrzenna jego modulatorów to 1024×768 pikseli. Częstotliwość odświeżania to 85 Hz. Wyposażono go w obiektyw z zoomem (f = 37–46 mm). Użyta kamera to Sanyo VCC3972P. Bazuje na standardowym kolorowym detektorze CCD 1/3’’. Pozwala na pracę w rozdzielczości 720×576 pikseli z częstotliwością do 25 Hz. Wyposażono ją w obiektyw z optycznym zoomem (f = 8–72 mm).

Baza zawiera 50 obrazów 3D wykonanych na grupie pracowników wydziału. Dla każdego z modeli wykonano kilkanaście różnych skanów. Każdy z obrazów zawiera nieobrobioną chmurę kierunkową. Mogą występować niedokładności, błędne punkty, nieciągłości powierzchni. Dane przeanalizowano organoleptycznie. Wyniki przedstawia tab. 2.

Tab. 2. Klasyfikacja danych z bazy Mechatroniki
Nr
grupy
Typ obrazu Liczba
obrazów 3D
1 Obraz błędny, niezawierający twarzy 2
2 Obraz zawierający twarz 34
3 Obraz zawierający twarz,
ale ze znaczącym wycięciem
lub zasłonięciem części obrazu
(np. czoło przysłonięte przez włosy)
8
4 Obraz zawierający twarz,
ale ze znaczącymi zniekształceniami (szumy)
6

Stwierdzono, że na 6 obrazach model uśmiecha się odsłaniając zęby. Dwa obrazy zawierają ujęcie nie bezpośrednio na twarz, ale lekko z boku. Dodatkowo, pośród 48 zestawów danych zawierających twarz, w 26 przypadkach zaobserwowano duże uszkodzenia w okolicach obu (zarówno lewego jak i prawego) skrzydełek nosa. Uszkodzenia te uniemożliwiają analizę tych regionów. Ponadto w dużej części obrazów przypisanych do grupy 2 zaobserwowano pewne nieciągłości, które jednak wizualnie były znacznie mniejsze od tych, jakie zauważono w danych z grupy 3.

Analiza porównawcza zbiorów danych

Przegląd danych z obu zbiorów pokazał, że baza GavabDB dostarcza danych znacznie lepszych w sensie subiektywnego odbioru przez człowieka. Obrazy w bazie Mechatronika zawierają liczne nieciągłości powierzchni oraz przypadkowe punkty. Również pod względem doboru modeli pierwszy z wymienionych zestawów danych wydaje się lepszy. Skany zostały wykonane na znacznie większej liczbie osób, w standardowy sposób pozwalający na przeprowadzanie analiz statystycznych, np. dla wybranego ułożenia twarzy.

W celu oceny złożoności analizowanych danych wejściowych obliczono ich podstawowe statystyki. (tab. 3). Jak widać obrazy z bazy Mechatronika zawierają średnio około 5 razy więcej punktów (ok. 65 tys.) niż obrazy z bazy GavabDB (ok. 14 tys.). Największy pod względem liczby punktów model z bazy GavabDB jest mniejszy niż najmniejszy model z bazy Mechatronika.

Tab. 3. Statystyki liczby punktów w poszczególnych bazach obrazów 3D
Nazwa bazy Minimum liczby punktów Maksimum liczby punktów Średnia liczby punktów Odchylenie standardowe liczby punktów
GavabDB 6 001 22 021 13 923 2 768
Mechatronika 24 804 113 295 64 933 17 837

 

Rozkłady liczby punktów prezentują histogramy (rys. 12 i 13). Jak widać, rozkład dla bazy GavabDB przypomina rozkład normalny o odchyleniu około 3 tys. punktów. Dla bazy Mechatronika odchylenie standardowe wynosi około 18 tys. punktów.

W celu zademonstrowania, w jaki sposób informacje o liczbie punktów w modelu przekładają się na rozdzielczość modeli, wykonano analizę liczby punktów w zależności od rozmiaru otoczenia. Uzyskana w tym teście informacja wykorzystana zostanie w dalszych fazach projektowania i tworzenia systemu.

Do dalszej analizy wybrano losowo po 5 obrazów z każdej z baz. Dla każdego z zestawów punktów wybierano podzbiór o wielkości 1 % całej liczby punktów. Każdy z punktów w podzbiorze otaczano sferą o promieniu R. Następnie zliczano liczbę punktów wewnątrz sfery. W kolejnym kroku uśredniano oraz obliczano odchylenie standardowe (w celu pokazania „stabilności” wyniku) od średniej dla każdego pojedynczego obrazu. Obliczenia wykonano dla zmieniającej się wartości promienia R od 0,5 do 10 mm, z przyrostem 0,5 mm. Wyniki analizy zaprezentowano na wykresach.

Jak widać, dane z bazy Mechatronika są znacznie „gęstsze”. Liczbę 100 punktów w sferze otaczającej dany punkt uzyskuje się już średnio dla otoczenia o promieniu około 4 mm. W celu uzyskania podobnej liczby w bazie GavabDB należy analizować sferę o promieniu 10 mm. Tak duża różnica w rozdzielczości danych wynika z opisanego procesu wstępnego uśrednienia, któremu poddane zostały dane w drugiej z wymienionych baz. Nie można przesądzać o użyteczności danych do analizy tylko na podstawie tej informacji. Należy pamiętać również o jakości danych z obu baz, tj. o tym, że optycznie dane z bazy GavabDB wydają się znacznie lepsze.

Podsumowanie

Pokazano i porównano różne podejścia do pozyskiwania danych trójwymiarowych. Scharakteryzowano tak pozyskiwane dane. Z dostępnych źródeł wybrano dwa, które zdają się reprezentować najbardziej perspektywiczne kierunki w rozwoju technologii skaningu 3D.

Zaprezentowana wiedza ułatwi zrozumienie metod i technik analizy obrazów trójwymiarowych, które opisane zostaną w kolejnych częściach.

Bibliografia

  1. Sitnik R.: A Fully automatic 3D shape measurement system data export for engineering and multimedia systems. A dissertation submitted in partial fulfilment of the requirements for the degree of Doctor of Philosophy in The Warsaw University of Technology; Warsaw 2002.
  2. A.B. Moreno, A.Sanchez: GavabDB: A 3D Face Database. 2ndCOST Workshop on Biometrics [in:] C. Garcia et al (eds): Proc. 2nd COST Workshop on Biometrics on the Internet: Fundamentals, Advances and Applications, Ed. Univ. Vigo, p. 77–82, 2004.
  3. Konica Minolta, NON-CONTACT 3D DIGITIZER, VIVID 910/VI-910, Instruction Manual.
  4. Blanc N., Gimkiewicz C., Gruener G., Oggier T., Bohme M.: Application Examples of Integrated 3D Camera Systems. International Magazine on Smart Systems Technologies, No. 4/09; p. 24–26; 2009.
  5. GAVAB - Grupo de Investigación
  6. OGX|OPTOGRAPHX

Tomasz Kuśmierczyk – Studenckie Koło Naukowe Cybernetyki
Politechnika Warszawska