画像分類・物体検出のアノテーションは矩形の枠とラベル(人・犬など)で付ける。 なので、人のアノテーションにはどうしても人の後ろの壁など人以外の部分も含まれてしまう。 そうすると、その壁などもモデルは人の一部であると見なして学習してしまう。 その結果、壁だけで人がいない場合でも人と判定してしまう間違いが発生する。
以下の記事では、この対策の一例として「物体の背景を"uninformative"な背景にして学習させる」をあげている。 背景を真っ黒とかにして学習させるということかな?画像から物体のみ切り抜くためには物体の境界を多角形で囲んだアノテーションが必要なのでハードルが高い・・ 背景のみの画像を学習データに追加して、背景は人でないということを学習させる、の方がやりやすそうだが。。