J-STAGEのデータ

はじめに

ひさびさのブログ更新です。

NII-ELSのサービス終了に伴いJ-STAGEへと論文誌・学会誌等の公開プラットフォームを移行した学協会は多いだろうと思います。

J-STAGEでは論文・記事単位のアクセス分析の結果をエクセルでレポートしてくれるそうなのですが、自分も関わっている協会のアクセスレポートを見せていただいたところ、DOIとアクセス回数がずらり。１万行オーバー。30年分でこのくらいの記事数(行数)になるのか、と壮観でした。

どの記事がどのくらいアクセスされているのかな、という分析をすぐにはじめるのにはこのレポート、DOIがずらりと並んでいるだけでは分析は難しいかもしれません。これは自分が関わっている協会だけの需要じゃないよねと思い、J-STAGEから書誌情報をずらっとダウンロードしてJSTからのレポートとあれこれできるような仕組みを作りました。

J-STAGE Data

ISSNと年情報を入れれば、DOIを含む書誌情報*1をタブ区切りテキストファイルでダウンロードできます。エクセルなどでDOIをキーにJSTからもらえるレポートとマッチングするなりローカルで煮るなり焼くなり好きにしていただければ。

とりあえず公開版は1年分のみ取得可能です。また、利用制限で1回の取得分で1,000件を制限とさせていただきました*2。

おわりに

というわけで、構造化データ全盛の中、XMLをテキストファイルに変換する(だけの本当に最低限の)仕組みを公開してみます。エラーはもちろんですが、こんな需要があるかも、など教えていただけると嬉しいです。

LODやらRDFやら、とかく構造化データに目が向きがちですが、XMLやJSONで１万件のデータを拾えても、たぶんほとんどの人は扱いに苦労するのだろう、と思います。あくまでもそういう構造化データを使うのは、システム連携などのインフラを作る人であって、対象とするユーザと目的が違うのですが、構造化データがあるなら、扱いやすいこの手の機械可読式のアウトプット方法も残しておくといろんな人がハッピーになれるのかもしれません。

*1:DOI、論文タイトル、出版年、巻号、開始ページ

*2:単にJ-STAGE APIでの一回での取得上の上限が1,000件だっただけ。もし要望があれば対応可能な範囲で対応します。