コンテンツにスキップ

Top

機械学習やDeep Learningで使うデータセットをネットから集めても著作権法違反にならない?

MNISTやFashion-MNISTなどを使って機械学習やDeep Learningをある程度勉強して、いざ次のステップに進もうと思ったときに困るのがデータ。

例えば人の顔だとか動物だとか、いろいろデータセットはあったりするが、商用利用できなかったり、仕事の内容とマッチしないことも多い。

そんな時に、ネット上に転がっている画像をダウンロードして使うことは許されるのだろうか?

結論を言えば国内のサーバーであればOK!

AIのモデル作るためのデータセットをネット上から集めるのって違法?

いいえ!

2019年に著作権法が変わり、合法にネット上からデータを集めてモデルを生成できるようになったのら!

著作権法第三十条の四 二号

(著作物に表現された思想又は感情の享受を目的としない利用)
第三十条の四 著作物は、次に掲げる場合その他の当該著作物に表現された思想又は感情を自ら享受し又は他人に享受させることを目的としない場合には、その必要と認められる限度において、いずれの方法によるかを問わず、利用することができる。
ただし、当該著作物の種類及び用途並びに当該利用の態様に照らし著作権者の利益を不当に害することとなる場合は、この限りでない。

二 情報解析(多数の著作物その他の大量の情報から、当該情報を構成する言語、音、影像その他の要素に係る情報を抽出し、比較、分類その他の解析を行うことをいう。第四十七条の五第一項第二号において同じ。)の用に供する場合

やったね!

しかしながら、これは日本の法律に過ぎないので、海外のサーバーにアクセスしてデータを取得しそれをもってモデル生成した場合は国によっては罰せられる可能性がある。
最近では顔認識のデータセットとしてよく使われるMegaFaceが訴訟を起こされるのでは?という記事もあり、海外のサーバーを使うのは避けたほうが良い。

国内か海外かってどうすればわかるの?

IPアドレスから判定するぐらいしか思いつかない。
ぐぐったらGeoIPとかなんとかがあるらしいがしらん。

日本に割り当てられているIPアドレスのリスト
https://www.nic.ad.jp/ja/ip/list.html

以上。