Комп'ютерне стереобачення

Комп'ютерне стереобачення це метод виділення інформації про тривимірні об'єкти із цифрових зображень, отриманими цифровими камерами такими як CCD камера. Порівнюючи інформацію про сцену із двох точок спостереження, 3D інформацію можна обчислити аналізуючи відносні позиції об'єктів на двох площинах. Цей спосіб обчислення є схожим на біологічний стереоскопічний ефект.

Загальний огляд

У звичайному стереобаченні, дві камери, зміщені одна від одного по горизонталі використовуються для отримання зображення сцени з різних точок зору, аналогічно як це відбувається в бінокулярному зорі людини. Порівнюючи ці два зображення, відносна інформація про глибину може отримуватися у вигляді мапи бінокулярної невідповідності, яка кодує різницю в горизонтальних координатах відповідних точок зображення. Значення в цій мапі невідповідності обернено пропорційні за значенням до глибини сцени в для заданої позиції пікселя.

Аби людський мозок міг здійснювати таке порівняння двох зображень, вони повинні зіставлятися за допомогою стереоскопічного пристрою, так що зображення правої камери буде показане для правого ока, а лівої для лівого ока.

В системі комп'ютерного зору, потрібно виконати кілька кроків попередньої обробки.^[1]

Зображення не повинне бути спотворене, тому необхідно усунути дисторсію, яка може бути різного типу. Це забезпечує умови при який зображення отримується як при використанні ідеального стенопу.
Зображення повинні відображатися на спільну площину, аби можна було здійснювати порівняння пар зображення, процес відомий як ректифікація зображення.
Інформація міри, яка задає два зображення мінімізована. Це дає кращу оцінку позиції об'єктів на двох зображеннях, і створює оптимальну мапу невідповідності.
При необхідності, отримана карта невідповідності проектується на тривимірну хмару точок.

Активне стерео бачення

Активне стерео бачення це різновид стереобачення, який активно використовує джерела світлових променів, таких як лазер або структурованого світла^[en] аби спростити задачу стерео співставлення. Протилежним терміном тоді буде пасивне стерео бачення.

Детальне визначення

Піксель записує колір в даній позиції. Позиція задається координатами на сітці точок (x, y) і глибиною до пікселя z.

Стереоскопічний зір дає отримати два зображення однієї сцени із різних точок зору. На діаграмі світло від точки A передається через точки вхідного окуляра камери стенопу в точках B і D, на екрани зображення в точках E і H.

На приведеній діаграмі відстань між центрами двох лінз камер становить BD = BC + CD. Наступні трикутники є подібними,

ACB і BFE
ACD і DGH

${\begin{aligned}{\text{Therefore displacement }}d&=EF+GH\\&=BF({\frac {EF}{BF}}+{\frac {GH}{BF}})\\&=BF({\frac {EF}{BF}}+{\frac {GH}{DG}})\\&=BF({\frac {BC+CD}{AC}})\\&=BF{\frac {BD}{AC}}\\&={\frac {k}{z}}{\text{, where}}\\\end{aligned}}$

k = BD BF
z = AC це дистанція від площини камери до об'єкта.

Таким чином пропустивши що камери знаходяться на одному рівні, а площини зображень є плоскими на одній площині, зміщення по осі y одного пікселя на двох зображеннях становить,

d={\frac {k}{z}}

Де k це множник який задає відношення відстані між двома камерами і відстані від лінзи до зображення.

Компоненти глибини в двох зображеннях $z_{1}$ і $z_{2}$ , задаються наступний чином,

z_{2}(x,y)=\min \left\{v:v=z_{1}(x,y-{\frac {k}{z_{1}(x,y)}})\right\}

z_{1}(x,y)=\min \left\{v:v=z_{2}(x,y+{\frac {k}{z_{2}(x,y)}})\right\}

Примітки

↑ Bradski, Gary; Kaehler, Adrian (2008). Learning OpenCV: Computer Vision with the OpenCV Library. O'Reilly.

[1] Bradski, Gary; Kaehler, Adrian (2008). Learning OpenCV: Computer Vision with the OpenCV Library. O'Reilly.

[1]