国立情報学研究所の情報学研究データリポジトリにはニコニコデータセットというものがある。
そのダウンロードページには 0001.jsonl
、0002.jsonl
…… 0999.json
といったようにJSONLファイルが連番で掲載されている。
一つひとつの動画に対応するフィールドは次のようになっている。
{"video_id": "sm39398000", "watch_num": 4, "comment_num": "1", "mylist_num": 1, "title": "【ガルシン】ヴュータンキャラスト", "description": "くっそかわいい<br><br><br>mylist/71458779", "category": "game", "tags": "ガルシン ガールズシンフォニー", "upload_time": "2021-09-27T16:17:02+09:00", "file_type": "mp4", "length": 921, "size_high": 1, "size_low": 1}
サイト主には Wget の再帰オプション wget -r
でダウンロードするよう勧められるのだが、いかんせん Wget は単線的であるためダウンロードが遅い。
ARIA2 はこの用途では使えなかったため、GNU Parallel を用いて Wget を複線化することで対応した。
for i in $(seq -w 0 1000) do; echo ${i}.html >> urls.txt cat urls.txt | parallel -j 100 wget -nc {}
GitHub か GitLab に公開してくれ!