いつもniconicoをご利用いただきありがとうございます。

このたび、国立情報学研究所情報学研究データリポジトリ(IDR)ご協力の元、ニコニコ大百科の記事データを「ニコニコデータセット」に公開しました。
提供するデータ内容は記事ヘッダデータ、記事本文データ(履歴含む)、掲示板データとなっています。形式はCSVで約24GBあります。非公開の記事や、ユーザーを特定できるIDは含まれていません。
本データは研究目的であればどなたでもご利用いただけます。
希望される方は国立情報学研究所サイトより利用申請をして下さい。

ニコニコ大百科は未来検索ブラジルが運営する『あらゆる言葉について定義や意味、元ネタを解説する辞書・辞典』です。wikipediaと異なり、客観的で真面目な記事だけでなく、主観的で面白い記事も歓迎しています。HTMLやCSSも用いることができるため、見た目に意味を持たせた記事もあることが特徴です。

本データセットの公開により、wikipedia等のユーザ生成型辞書サイトとの比較研究や、特定の単語の意味理解、ネットスラングのコーパス、記事の成長による編集過程の研究等が進むことが期待されます。
すでに公開されている動画のメタデータ(コメント、タグ)と組み合わすことで、さらにニコニコ動画の研究が進めばと願っています。

なお、これまでに公開したニコニコデータセットは、研究会や論文等でご活用いただいています。
もし差し支えなければ、研究成果を我々に教えていただけますと幸いです。

CiNii 論文 -  動画コンテンツデータセットの動画メタデータおよびタグ情報の解析-ニコニコデータセットを用いて-
第3回『ニコニコ学会β データ研究会』
第四回 ニコニコ学会β データ研究会 with 創造的生活者COI-T(3月8日)

niconicoは今後もプロ/野生を問わず研究活動を支援していく所存です。


現在公開されているデータ

ニコニコ動画コメント等データ
ニコニコ動画に2012年11月初旬までに投稿された約830万件の動画のメタデータと,それに対するコメントデータです。動画データ本体は含まれません。また,ユーザIDは削除されています。

動画メタデータ
タイトル,説明文,タグ,投稿日時,再生数,コメント数などのデータです。 JSON形式のファイルで,約2,000ファイル(1ファイルあたり最大1万データ),圧縮ファイルで約3GB,展開後は約12GBです。

コメントデータ
コメント本文,投稿日時,書き込み再生位置などのデータです。 JSON形式のファイルで,1つの動画につき1ファイルとなっています。 圧縮ファイルで約50GBあり,展開すると約300GBとなりますので,ダウンロードされる際はご注意下さい。

ニコニコ大百科データ
ニコニコ大百科に2014年2月上旬までに投稿された記事全ての記事ヘッダ,記事本文データと,それに付随する掲示板全データです。ただし,ユーザーページ,ユーザーIDは削除されています。

記事ヘッダデータ
記事ID,記事タイトル,記事ヨミ,記事種類(a:単語,v:動画,i:商品,l:生放送),記事作成日時などのデータです。CSV形式のファイルで,1年当たり1ファイル,圧縮ファイルで約4.9MB,展開後は約14.9MBです。

記事本文データ
記事ID,記事本文,記事更新日時などのデータです。CSV形式のファイルで,1月あたり1ファイル(例外あり),圧縮ファイルで約4.52GB,展開後は約22.7GBとなりますので,ダウンロードされる際はご注意ください。

掲示板データ
記事ID,レス番号,レス投稿日時,レス本文などのデータです。CSV形式のファイルで,1年あたり1ファイル,圧縮ファイルで約576MB,展開後は約1.68GBです。

情報学研究データリポジトリ ニコニコデータセット