Mastodon

情報学研究データリポジトリのニコニコデータセットのダウンロードに関する備忘録

www.nii.ac.jp

国立情報学研究所の情報学研究データリポジトリにはニコニコデータセットというものがある。 そのダウンロードページには 0001.jsonl0002.jsonl…… 0999.json といったようにJSONLファイルが連番で掲載されている。 一つひとつの動画に対応するフィールドは次のようになっている。

{"video_id": "sm39398000", "watch_num": 4, "comment_num": "1", "mylist_num": 1, "title": "【ガルシン】ヴュータンキャラスト", "description": "くっそかわいい<br><br><br>mylist/71458779", "category": "game", "tags": "ガルシン ガールズシンフォニー", "upload_time": "2021-09-27T16:17:02+09:00", "file_type": "mp4", "length": 921, "size_high": 1, "size_low": 1}

サイト主には Wget再帰オプション wget -r でダウンロードするよう勧められるのだが、いかんせん Wget は単線的であるためダウンロードが遅い。 ARIA2 はこの用途では使えなかったため、GNU Parallel を用いて Wget を複線化することで対応した。

for i in $(seq -w 0 1000) do; echo ${i}.html >> urls.txt
cat urls.txt | parallel -j 100 wget -nc {}

GitHub か GitLab に公開してくれ!