1枚のRGB画像に距離の情報を入れる[未完・打ち切り]

モチベーション

夏休みの自由研究として機械学習っぽいことをしてみたい。

ロボットやるときに、画像から物体までの距離を推定できれば、特に動作の計画を立てるのにかなり使い手がありそうで。

例えば、走行計画作るとか、掴むにしても掴む場所を決めたりとか。

そんなことを1枚の画像でできちゃったら素敵やん？

あとついでにせっかくtensorflow使えるようになったし練習もしたいし。

手法の概略

[1806.11430] Towards real-time unsupervised monocular depth estimation on CPU

基本的にはこれをいじっていくつもり。

教師なしCNNですね。

[1609.03677] Unsupervised Monocular Depth Estimation with Left-Right Consistency

この論文の手法で使われてるネットワークを改良したという認識。

まだ勉強中。

基本的な考え方は

「ステレオカメラで撮影した画像のペアをたくさん持っている前提があったとして、

片方の画像からもう片方の画像を生成する視差を画像パターンから推定できれば

視差は物体との距離に依存するので、物体との距離を推定できるだろう」

というもの。

（論文とは違うnotationを使います。論文のは慣習？なのかもしれないけど、自分には馴染めないので・・・）

$I^l, I^r$ をそれぞれ左側のカメラで撮った画像、右側で撮った画像とする。

このとき $I^l, I^r$ は(縦のピクセル数)x(横のピクセル数)x(色の数、普通は3)次元の3階のテンソルだと思えば良い。

左右のカメラから撮った画像のズレの量は以下のように考えればいい・

・カメラが水平に揃っているならば、上下方向へのズレはない

・左右方向のズレの量 $d$ は以下のように計算される

$d=\frac{fb}{D}$

ここで $D$ はカメラから被写体までの距離。

$b$ は2つのカメラ間の距離

$f$ はカメラの焦点距離。2つのカメラは同じ焦点距離を持つとする。

$d$ は一般に視差と呼ばれる量である。

参考：http://www.topic.ad.jp/sice/htdocs/papers/295/295-7.pdf

ここに、画像の上からi番目、左からj番目のピクセルに対して定義される視差を表現する2階のテンソル $d^l, d^r$ を、

$d^l_{ij}I^r_{ij}=I^r_{ij+d^l_{ij}}=I^l_{ij},\ d^r_{ij}I^l_{ij}=I^l_{ij-d^r_{ij}}=I^r_{ij}$

となるようになんとか取る。

（符号に注意。dが正になるようにとった。）

注：もし、2つの $d^l, d^r$ が上記を満たすように取られていれば2つは独立ではない。

上の変換を2回やることで

$I^l_{i,\ j}=I^r_{i,\ j+d^l_{ij}}=I^l_{i,\ j+d^l_{ij}-d^l_{i,\ j+d^l_{ij}}}$

であるから

$d^l_{ij}-d^l_{i,\ j+d^l_{ij}}=0$

注：ただし、 $d^l, d^r$ を学習によってそれぞれ別に推定した場合、上述の「整合性」がとられているとは限らない。

このテンソル $d^l, d^r$ が推定できれば、 $d=\frac{fb}{D}$ の関係式から、各ピクセルの被写体からの距離が推定できる。

じゃあ $d^l, d^r$ 、どちらを使えばいいかと言うと、 $I^l$ には $d^l$ 、逆は逆らしい。

※この点が僕にはよくわからなかった。

学習させるネットワーク

インプットとアウトプットの関係は以下の図

f:id:nabion:20180826235323p:plain

[1609.03677] Unsupervised Monocular Depth Estimation with Left-Right Consistencyより。

左下の $I^l$ から $d^l, d^r$ を推定して、そこから生成される画像と $I^l, I^r$ を比較する。（コスト関数は $I^l, I^r$ と生成される画像の「差」の項をもつ）

まんなかのボウリングのストライクみたいなマークはネットワークです。

ここは教師あり学習ですね。

（教師なしと論文が主張するのは、距離のデータをインプットに使っていないから）

左右両方やって、コンシステンシーを確認しながら学習するのがポイントのようです。

（コスト関数は $|d^l_{ij}-d^l_{i,\ j+d^l_{ij}}|$ に比例する項をもつ）

ネットワークのアーキテクチャはこんな感じ

f:id:nabion:20180827000135p:plain

L6はストライドが2の畳み込みを6回やったあとにさらに畳み込み層で特徴を抽出してますので、比較的広い領域の特徴に着目していることになります。

以降、上の層ほど細かい領域に着目して特徴抽出する構造になってます。

試食

[1609.03677] Unsupervised Monocular Depth Estimation with Left-Right Consistency

の方のgithubにとりあえず1枚の画像で味見する方法があったので使ってみた。

※tensorflowのrestoreはcheckpointファイルの入ったフォルダのパスを指定するのではないことに注意。

例えば、checkpointの保存先がC直下だったとして、Cを指定するのではなく

"C://<checkpointファイルの拡張子を含めない名前>”

を指定する。これで割とハマった・・・。

※学習済みモデルはここにおいてあります

http://visual.cs.ucl.ac.uk/pubs/monoDepth/models

なんらかの理由でシェルスクリプトが動かなければここから取ってきましょう。

結果

こいつを・・・

f:id:nabion:20180902224054j:plain f:id:nabion:20180902224057p:plain

こうじゃ！

詳細は潰れてるけど障害物見つけるぐらいならできそう。

あえてゲームのSSを食わせてみると

f:id:nabion:20180902224210p:plain f:id:nabion:20180902224218p:plain

さすがに厳しい。左下なんか完全に間違ってる。

f:id:nabion:20180902224334p:plain f:id:nabion:20180902224331p:plain

微妙にいけてる気がするFF7。

一点透視図法っぽいのがいいんだろうか。

f:id:nabion:20180902224648j:plain f:id:nabion:20180902224655p:plain

自分が一番期待したのはこれ。

こういう画像から缶の形状がはっきりわかれば、ロボアームで掴むときに有用かなと。

結果はだめですねー。これじゃあ三角形に並んでるのはわかるかもしれないけど、缶1つ1つはぜんぜんわからん。

それに缶の模様の影響を受けてますね。これはいかん。

推定する先に、推定した結果から推定される対象物の形状は現実的なものなのか？という指標を入れればマシになるんだろうか？

今後

pydnetもやろうかと思いましたが、一旦ここで打ち切りかなあ。

再開するかもしれないけど。

次はネットワークのアーキテクチャ考えるとこからやりたい所存。

参考文献

[1806.11430] Towards real-time unsupervised monocular depth estimation on CPU

[1609.03677] Unsupervised Monocular Depth Estimation with Left-Right Consistency

[1604.03650] Deep3D: Fully Automatic 2D-to-3D Video Conversion with Deep Convolutional Neural Networks

http://www.topic.ad.jp/sice/htdocs/papers/295/295-7.pdf