J-STAGEのデータ
はじめに
ひさびさのブログ更新です。
NII-ELSのサービス終了に伴いJ-STAGEへと論文誌・学会誌等の公開プラットフォームを移行した学協会は多いだろうと思います。
J-STAGEでは論文・記事単位のアクセス分析の結果をエクセルでレポートしてくれるそうなのですが、自分も関わっている協会のアクセスレポートを見せていただいたところ、DOIとアクセス回数がずらり。1万行オーバー。30年分でこのくらいの記事数(行数)になるのか、と壮観でした。
どの記事がどのくらいアクセスされているのかな、という分析をすぐにはじめるのにはこのレポート、DOIがずらりと並んでいるだけでは分析は難しいかもしれません。これは自分が関わっている協会だけの需要じゃないよねと思い、J-STAGEから書誌情報をずらっとダウンロードしてJSTからのレポートとあれこれできるような仕組みを作りました。
ISSNと年情報を入れれば、DOIを含む書誌情報*1をタブ区切りテキストファイルでダウンロードできます。エクセルなどでDOIをキーにJSTからもらえるレポートとマッチングするなりローカルで煮るなり焼くなり好きにしていただければ。
とりあえず公開版は1年分のみ取得可能です。また、利用制限で1回の取得分で1,000件を制限とさせていただきました*2。
おわりに
というわけで、構造化データ全盛の中、XMLをテキストファイルに変換する(だけの本当に最低限の)仕組みを公開してみます。エラーはもちろんですが、こんな需要があるかも、など教えていただけると嬉しいです。
LODやらRDFやら、とかく構造化データに目が向きがちですが、XMLやJSONで1万件のデータを拾えても、たぶんほとんどの人は扱いに苦労するのだろう、と思います。あくまでもそういう構造化データを使うのは、システム連携などのインフラを作る人であって、対象とするユーザと目的が違うのですが、構造化データがあるなら、扱いやすいこの手の機械可読式のアウトプット方法も残しておくといろんな人がハッピーになれるのかもしれません。