Semantic Segmentation

文書の過去の版を表示しています。

視覚障害支援用途の領域分割アノテーションを実施して、認識モデルに持っていくまでの馬場の忘備録。論文執筆用に引用などもメモしていきます。

令和5年3月15日現在、5000枚程度の画像アノテーションを済ませており、このvidvipデータセットを使い、推論用のモデル生成までの流れを以下にまとめます。

vidvipでは令和5年3月15日現在で、5698枚の画像に対して、99953箇所のセグメンテーションによるアノテーションが作成されています。この画像セットはvidvip object detectionと同様の画像セットや一部都立大中庭を利用したデータセットになっており、アノテーションの種類に偏りがあるunbalancedなデータセットです。本データセットの詳細は以下の通り。上から順にアノテーション数、各ラベルの登録頂点数に関する箱ひげ図、各ラベルの登録面積[pixel^2]に関数もの。

MIT_DriveSeg：https://ieee-dataport.org/open-access/mit-driveseg-manual-dataset
- 論文にたいなドキュメンテーションがあってそれがすごい参考になる
- いろいろ参考になるので論文からデータまでなめるように見ておく。ラベル数は12（vehicle, pedestrian, road, sidewalk, bicycle, motorcycle, building, terrian (horizontal vegetation), vegetation (verti- cal vegetation), pole, traffic light, traffic sign）
- 最初は少人数グループでアノテーション作業を行い、1.5時間/画像というとんでもない作業
- アノテーション作業にはlabelmeを利用している

Semantic Segmentation

vidvip segmentationデータセット

参考文献

Design Workshop