Technika pozwoli usłyszeć świat na... własne oczy
"Tam sięgaj, gdzie wzrok nie sięga; Łam, czego rozum nie złamie (...)" - postulował w "Odzie do młodości" Adam Mickiewicz. Przetwarzanie niemego obrazu w dźwięk do tej pory "nie śniło się filozofom". Współczesna nauka przyzwyczaja nas jednak do tego, że wszystko, co niemożliwe, prędzej czy później i tak staje się realne.
Wszystkie otaczające nas przedmioty powodują drgania powietrza i wytwarzają fale dźwiękowe. Idąc tym prostym tropem, trójca technologicznych gigantów - MIT, Adobe oraz Microsoft - dokonała rzeczy niezwykłej, opracowała algorytm, za pomocą którego można rekonstruować dźwięk na bazie precyzyjnej analizy obiektu zarejestrowanego kamerą.
Na odbywającej się w sierpniu br. międzynarodowej konferencji - SIGGRAPH w Vancouver, poświęconej najnowszej grafice oraz technikom interaktywnym, amerykańscy naukowcy zaprezentowali, jak skuteczny może być ich wynalazek. Przedmiotem serii pokazowych eksperymentów było odtworzenie dźwięku na podstawie analizy drgań poszczególnych obiektów: paczki chipsów, wody, liści roślin, czy mini słuchawek podpiętych do laptopa.
Obiekty były filmowane z dystansu czterech i pół metra przez dźwiękoszczelną szybę. Algorytm przetworzył obraz wideo na dźwięk, który następnie w formie nagrania audio został wyeksportowany i "przepuszczony" przez służącą do identyfikacji muzyki aplikację Shazam. Dźwięk został rozpoznany!
Naukowcy tłumaczą swe fenomenalne odkrycie prostym mechanizmem - za każdym razem, kiedy dźwięk uderza w obiekt, wywołuje jego wibracje, które dostarczają niewidocznych dla gołego oka informacji wizualnych. Zespół naukowców, między innymi - Neal Wadhwa (MIT), Gautham Mysore (Adobe) oraz Michael Rubinstein (Microsoft) stwierdzili, że rekonstrukcja dźwięku z obrazu osiągnie najlepszą jakość, jeśli częstotliwość zarejestrowanego obrazu jest wyższa niż częstotliwość sygnału audio, przez co niezbędne w tym celu jest wykorzystywanie szybkich kamer, które wykonują zdjęcia w przedziale 2-6 tys. klatek na sekundę (najszybsze kamery są w stanie wykonać zdjęcia z prędkością nawet do 100 tys. klatek na sekundę).
Jakkolwiek, w doświadczeniu wykorzystali oni standardowe kamery cyfrowe (60 klatek na sekundę), udowadniając, że wystarczy to do identyfikacji liczby rozmówców, ich płci, czy też rozpoznania melodii. Powiększając nagranie, dzięki opracowanemu algorytmowi, naukowcy są w stanie zaanalizować obszar mniejszy od jednego piksela.
Dla autorów genialnego algorytmu priorytetem jest zastosowanie go do badania subtelnych właściwości obiektów. Specyfika reakcji na fale dźwiękowe pozwala na szczegółowe określenie struktury i niezbadanych do tej pory właściwości obiektów. Pierwszym, praktycznym owocem ich odkrycia jest połączenie algorytmu z techniką, która ma za zadanie wzmacniać niewidoczne różnice w zarejestrowanym obrazie wideo, dzięki czemu udało się opracować optyczny monitoring oddechu oraz pulsu noworodków, który może być wykorzystywany w instrumentarium medycznym.
Pomijając szczytne ambicje naukowców, algorytm szczególnie pobudza wyobraźnię służb specjalnych, czy amatorów-podsłuchiwaczy, bo o ile kiedykolwiek będzie im dane skorzystać z tego wynalazku, afer będzie bez liku.
Michał Mądracki