2013-04-07

Google Readerのそとのそのまたむこう

はじめに

リードテックラボ、RSSを考える編、です。考えるというよりはいつもの通り手を動かして遊んでみる、の方ですが、最初に少しRSSのこれからについて整理して書いてみて後半で手を動かした部分を記しておきます。
まず始めにはっきりさせておきたいこととして、Google Readerがサービス終了とのことでしたが、もちろんRSSはこのまま終わるはずがありません。なぜか？答えは簡単で、

おそらくRSSが現在ウェブ上で一番使われている構造化データ形式だから

です*1。よりセマンティックに情報をシェアしようよ、というような方向に進んでいるウェブ界隈において、ここまで普及している構造化データ形式の一つであるRSSの利用が減っていくとは思えません。Google Readerのサービス終了をどう考えるかについては「一般ユーザーのRSS利用の裾野を広げきれなかった結果」ということだと思います。つまり、RSSのフィードをRSSリーダーにちまちま登録して日々情報収集を行うという行為は一般層にまで広がりきれなかった事実のみを示している、ということです。つまり何が言いたいのかというとRSSという技術は一般ユーザーに直接的には受け入れられなかったかもしれないけれど、ウェブにおいてはぜんぜんまだまだこれからだよ、ということです。
そんなことわざわざ言わなくても分かってるよ、という人も多いのかもしれません。が、Google Readerがサービス終了ということがもたらすものが「あー、今まで使ってたツールがなくなって不便になるなー」とかいうレベルの話ではなく、自身にとってそれ以上の脅威だと感じたからあえてブログに書いたりするんでしょう。「え、こんなに便利なのにみんな使わないの？で、GoogleまでRSSリーダーのサービス辞めちゃうの？」という単純な衝撃を多少でも言語化することで和らげておくこととともに「自分が便利と感じる」理由と「みんなが使わない」理由を整理しておく必要がある、と思いました。情報発信と情報収集*2を主たる仕事とする“情報流通”の分野に身を置く一人として、今回のGoogle Readerの終了は自身の情報収集ツール利用と他のネットユーザーの情報収集ツール利用実態の間にある乖離をまざまざと見せつけられる機会となりました。

RSSを使う人

RSSを“直接的に”フィードとしてリーダー*3に登録して情報収集を行う人は少数でこれからおそらく伸びないという読みがあるそうです。それを裏付けるのはGoogle Readerのサービス終了です。じゃあ、誰がRSSを使うのか？もちろん今まで利用してきた一部のコアユーザーは使い続けるでしょう。ええ*4。次に考えられるのはコンテンツアグリゲータサービスです。RSSをデータとして機械的に収集し各種サービスにてうまく加工してユーザーに情報提供する、というコンテンツアグリゲータ的な使われ方を念頭におきながらRSSを情報発信ツールとして捉えていく必要がありそうです。
つまり、RSSリーダーにRSSフィードを登録して“直接的に”使っているユーザーは頭打ちで、RSSフィードをうまくまとめてユーザーに提供することで“間接的に”使うユーザーについてはまだ分からない、という状況だと思います。もちろん後者はRSSをうまく使ったどんなサービスが登場するのかわからないという意味で未知数です。

RSSはニュース配信やウェブページの更新のお知らせなどに利用されることが多いのですが、RSSそのもののありかたとして「構造化データである」というメリットがあります。これはもうなんというか大変な強みであると言えると思います。

というわけで前置きが大変長くなりましたが「構造化データである」という特性を活かしたRSSの新しい利用の可能性があるのではないかと思い、今回のリードテックラボではとある組織が発信しているRSSのデータをコンテンツアグリゲータサービスの立場に立って*5加工して遊んでみたいと思います。

NDLの新着書誌情報RSS

NDLではご存知のとおり「納本制度」という制度のもと日本国内で刊行された"本”が納本される仕組みがあります。納本後、NDLでは書誌情報を作って各種サービスで検索したりあれこれしたりできるようにするのですが、つい数年前から納本されたばかりの「新着書誌」情報をエクセルデータで提供してくれるようになり*6、昨年からはなんとRSSにて発信を始めてくれました。というわけで対象となるデータは、

NDLが提供する新着書誌情報RSS(作成中)

http://www.ndl.go.jp/jp/library/data/pbsrss.html

にしました*7。このデータをRSSリーダーのようなリーダーで頭のデータから終わりのデータまで順々にチェックしていくのではなくいくつかのカテゴリでブラウンジング可能な「New Books!」というサービスを作ってみました。

NewBooks!

http://haseharu.org/labs/newbooks/

f:id:haseharu:20130407170409p:plain

Category(分類)
Publisher(出版者)
Author(著者)
Price(ねだん)
PublicationPlace(出版地)
All data(ぜんぶ)

の６つでブラウジングできます。ええ。前置き長かったくせにこのサービスでできるのはそれだけです。
たとえば、「Price」をクリックするとこんな感じでずらずらと書誌情報が表示されるのでブラウジングできます。

f:id:haseharu:20130407170551p:plain

本のタイトルをクリックするとリンク先はNDLサーチになります。そちらで詳細情報や各種SNSサービスへ登録したりデータダウンロードできます。

6つ*8の観点でカテゴライズしブラウズする。これ、ものすごくシンプルで簡単にできるように見えますが、実は構造化されない状態でウェブ上に掲載されているデータに対して同じような処理をしようとすると途方に暮れること間違いありません。利用しているデータがあくまでもRSSのような「構造化データ」で提供されているというメリットがあるからこそ簡単に実現できるということを付け加えておきたいと思います。

仕組み

データベースを使って処理している、とかそういうことではなく基本的には、NDLの配信しているRSSデータをPHPで取得しにいって処理するという、NDL RSSのラッパー的なサービスです。とはいえ、この新着書誌RSSのデータファイルですが、2MB近くもあるのでNDL側のサーバ負荷とサービスの処理速度が落ちるため、こちら側のサーバ側で最新データを保存、参照するようにして基本はそちらをアクセスしています。

用途

これを使ってNDLの新着書誌情報をブラウジングする方って、

・本の選書

をする方だと思います。新刊本チェックにぜひお使いいただければ嬉しいです。選書のようなことはしない人でも「こんなマニアックな本が日々刊行されているのか！」という気持ちにもなれると思います*9。

さいごに

RSSリーダーのように網羅的に情報を収集し情報をチェックする、というやり方はエンドユーザーの多くに採用されなかった、ということかもしれません。裏を返せば、それが人なのかアルゴリズムなのか仕組みなのか知りませんが、情報をフィルターにかけた上でセレクトされた一部の情報を提供してくれるコンテンツアグリゲータ的な何かを使って情報を収集することが多くのエンドユーザーにとっての最適化された情報収集のカタチという可能性は残ります。それに合わせた情報発信のモデルを常に考えておく必要があるのかなと思いました。と、書きながらそれがイメージできていませんが。
最後の最後に。NDLの新着書誌RSS配信はけっこういろいろな使い方がされるのではないかと思います。データ公開してくださっているNDLと担当者の方に感謝しつつ、もっとおもしろい使い方されるといいな、と思っています。

*1:別に何か統計的根拠があるわけではないので「おそらく」としています。

*2:組織化

*3:厳密にはGoogle Reader

*4:便利ですし、そもそも誰かがセレクトした情報だけでなく日々網羅的に情報をチェックすることが必要な職業なので。

*5:データは一つだけ、ですが。

*6:たしか

*7:これをRSSリーダーに登録してチェックしている方はいらっしゃるのでしょうか。少なくとも自分はしていません。かなりの件数があるので、登録するにはけっこうな勇気がいりそうです。

*8:全部をブラウズする、というものをのぞけば5つの

*9:書誌情報だけで、ですが

2013-03-29

ぼくがGoogle Readerを使わなくなった理由

Googleが春の大掃除でGoogle Readerのサービス中止をつげました。
これには正直なところショックでした。
少なくともGoogle Readerは市民権を得ることができなかったのか*1。
だからGoogle Readerは撤退する、と。
なるほど。
そうか。
ふーむ。
待てよ。
・・・そういえば、
自分も最近Google Readerをあんまり熱心に使っていない気がしました。

どうしてだろう？
なぜなんだろう？
なにかあったんだろうか？

ふと、NDLが日々お知らせしている「CA-R*2」が思い浮かびました。

「そういや、CA-Rが必要なことは大体教えてくれてたしな」

それはたぶんこーゆーこと。
RSSを溜めておいてあとでチェックしていると、

「お。これは。」

と思うニュースは大体CA-Rに載っていることが続くようになったからです。
「そういえばこれCA-Rに載ってたよな、確か」
そんなことが何度か続くようになりました。
そうか。
そういうことでした。

さようならGoogle Reader。
ずいぶん長い間お世話になったのでさびしいよ。
それからCA-R、いつもありがとう。

そして。２年間おつかれさまでした！ > id:kitone

*1:Google Reader=RSS、ではなく。

*2:カレントアウェアネス - R

2013-03-17

るるるkindle

はじめに

ひさびさのリードテックラボ、今回はkindle編です。kindle paperwhiteを買ってもうじき１ヶ月くらい経ちます。ディスプレイと本体のマットな質感、ちらつかないディスプレイ、電池持つ持つ、軽いなあ、等々けっこういい感じです。自分のように、駅まで車でいき電車にのりかえ会社の最寄りの駅から自転車に乗るという通勤の人*1は「重い荷物」は敵です。自分が読む大抵の本は重いです。つまり大抵の本は敵です。なので軽いkindleは友人になれそうです。それから、一番良いのが余計なアプリは入れられず「読む」ことしかできない端末である、だと思います。「文字を読む」に特化した専用のツール。潔い。良いです。ページ切り替え時のもっさり感は許容範囲。あとはコンテンツが少ない！ということ*2。電子書籍だとどんな本を買えばいいのかなあ、と自分自身で掴めなくって今までにもオライリーのDRM FreeのEbookを１冊しか買ったことがなく、kindleでもまだ１冊しか本を買っていなかったりします*3。とりあえずは「繰り返し読む本」を電子書籍で買おうかなあと思っています*4。じゃあ、本も買わずに何してるんだ、というとほとんどが、RSSをkindlefeederでkindleに変換して通勤中に読んだり、ツールを作ってウェブ上の情報源を変換して遊んでいました。paperwhiteが届いて「あ。これいいわ。遊べる」と、有料コンテンツに見向きもせずに次の日にはスクリプトを書いていた程度のデジタルガジェット類好きです。

JATS × kindle!

JSTのJ-STAGEではJATS形式でのデータ搭載を始めたそうで、JATS形式でのデータ搭載された論文はPDFだけでなく「全文html」で公開されています。まだそんなにたくさんの雑誌が対応しているわけではないようなのですが、自分が毎月チェックしている「情報管理」でも「全文html」始めたよー、ということなのでそれをkindleで読むためのスクリプトを書きました。J-STAGEで公開されている「全文html」をkindle形式に変換するツールを紹介します*5。

f:id:haseharu:20130317053615p:plain

ツール

bookmarkletは「kindle!」です。ブックマークバーにぽいっといれてみてください*6。ちなみにここがサーバ兼公開サイトです。とりあえずJ-STAGEのこちらの記事のページへいってみてさきほどブックマークツールバーにいれたbookmarkletをクリックしてみてください。うまくいけば変換された.mobiファイルをダウンロードできます。ダウンロードしたmobi形式のファイルをkindleに転送すればOKです。

しくみ

以下の流れで処理してます。

bookmarklet部分で変換プログラム(PHP)を呼び出す。
PHP部分でJ-STAGEの「全文html」をスクレイピング *7。
スクレイピングしたデータをKF8というkindle用のhtmlフォーマットにしながらKindleGenに流す。
KindleGenが出力する.mobiファイルをダウンロード。
kindleに転送して通勤のときとかに読む。

開発中に使ったもの

KindleGen

htmlをmobi formatに変換してくれます。試してませんがEPUBもmobiに変換してくれるようです。win,mac,linux用が公開されています。商用利用でなければこういった形で変換ツールとして公開してもOKなようですが利用にあたっては利用規約をご覧ください。htmlはそのまま流し込んでもある程度は変換してくれますがKF8 *8やAmazon Kindle Publishing Guidelinesが公開されているのでそちらを参考に作った方がきれいに変換できます。特にKF8のページはサンプルデータが公開されているのでとりあえずそちらを見ながら仕組みを理解して詳細はPublishing Guideを読む、という流れがいいかもしれません*9。

Kindle Previewer

まんまkindleビューワーです。.mobiを作ったらとりあえずこれで開いて出力結果を確認できます。win,mac用*10が用意されていて、e-ink(paperwhite)はもちろん、Fire HDやiOS用のデバイスでの表示も確認できます。

f:id:haseharu:20130317060356p:plain

JATSをスクレイピングの謎

JATSってxmlじゃないの？xmlをスクレイピングなんてどういうこと？と思ったあなた。自分も「xmlいいねえ」と思って始めたのでまさかの展開でした。つまりこういうことっぽいです*11。

出版社がJATSでJ-STAGEに入稿、搭載
J-STAGE側では利用者にhtmlとして出力
利用者は直接的には構造化データの恩恵を受けられない*12

JSTさんにはぜひJATSをそのまんま公開していただきたいと世のデータギークたちは思っています。

Web APIで全文htmlのデータももしかしたら受け取れる？、とおもったのですが、J-STAGE3になったタイミングでWeb APIページが準備中でした。

かんそう

kindleで論文を読む。自分はそれなりに満足してますが、もう少し遊んでみます。
paperwhite、通勤時の読書端末としてかなり良いです。
コンテンツ、できればもっと増やしてください。
JSTさんJATSそのまんま公開してください。

*1:いないですよね。

*2:洋書を手に入れやすくなった、というメリットもあると思います。

*3:しかも漫画w

*4:繰り返し読む本って漫画とか小説でわりと薄かったりして。

*5:paperwhiteが届いて次の日に試験的に書いてみたものです。

*6:chromeでしか動作確認してません。

*7:JATSってxmlじゃないの？なぜにスクレイピング？と思ったあなたは鋭いです。後ほど書きます。

*8:Kindle Format 8

*9:自分もざっくりとしか変換処理していないので、どちらもあまり詳細は読めてません。

*10:2013.3.17現在ver2.8です。

*11:間違ってたらどなたか早急に教えてください。

*12:「全文html」形式で公開されている部分は直接的に恩恵を受けられているとは言えるのですが。

2013-03-11

下書きフォルダ

リードテックラボ番外編。 id:kitone が書いていたので2年前のことをいま刻んでおこうと思います。

2011年3月11日14時46分。そのときぼくは職場のある茨城県にてとある一本のメールを書いていました。

一言でいってしまえば課外活動と仕事をつなげたい、という内容のメールでした。具体的にはCode4lib Journalへリードテックのメンバーの力を借りて投稿したいという内容が上司に宛てて書かれていました。今読み返すと恥ずかしくなるほど気負った文言があちこちにちりばめられたメールでした。

結局、そのメールを書いている途中にあの揺れがやってきて3月11日14時46分という時を刻んだままThunderbirdの下書きフォルダに保存され送信されることはありませんでした。空回りしてるだけっぽい自分の気持ちや気負いもたぶんぜーんぶそこに閉じ込めたまま。

あの時の揺れは、最初はゆっくり、徐々に大きく、長い間かけて、立っていられないほど、地面に根ざすものを少しずつ解きほぐすように崩しながら、波のように何度も何度も押し寄せてきては揺れ続けました。いまだに自分の中に残っています。

その後、メールは送信できなかったものの上司には口頭にて提案し了解を得たことでリードテックのメンバーを巻き込んでCode4lib Journalへの投稿プロジェクトが始まりました。

もちろんあの瞬間、そんな内容のメールを書いていたことに意味なんてないのですが、そこに意味を見いだそうとするのが人間なんでしょうか。

結果的にはあのメールは送信できなかったものの当初の目的であるリードテックメンバーを巻き込む、ということはなんとかなりました。でも「メールを送信できなかった」感は自分の中にいつまでも残っています。

送信できなかったメールに込めた想いやあの時の揺れをこれからいつまでも自分の中に閉じ込めたまま時折思い出してはあの時を思い出すんだろうと思います。

2012-12-28

よどみ流れる

「つべこべ言わず（ブログ）書け」、みたいなのが飛んできたので、ぼんやりと今年一年を振り返ってみたいと思います。

正月はご祈祷へ*1。家内安全。
リードテック終わり！と思ったら続くことに。読む、から一転、書く、へ。
ツバメの巣作りがうまくいかず。懲りずに来年もきてくれるといいな。
node.jsやるぜ、と思ったけど結局やんなかった。
エディタをVimに変えた。
canvasやるか、とおもってそっちはやった。
そのノリで「リードテックラボ」はじめました*2。
まさかの台風直撃でリードテック沖縄合宿に参加できず。
プランターでやってる夏野菜が見事に失敗。ゴーヤ、ナス。
日常とgleeが今年のヒット。
初海外。出張で。関西方面も行って２年ぶりにいろんな人に会う。
ひさびさの「ほぼ日手帳」(weeks)。7年ぶり、4冊目？
風来のシレン5の廉価版がでたので前半はずっとそれを。後半から逆転裁判 *3。
東京いったら「みはしのあんみつで」がお決まりのコースに。

振り返ればこんな一年でした。生活が変わったこともあり働き方も少し変えました。あと、TwitterやFacebookもほとんど使わなくなった、というのも*4。今年はじめに立てた３つの目標をクリアできたかな、と考えたのですが、達成度は25%くらいでしょうか。

よどむこともあったけれどつづけることで流れがうまれつないでこれた、そんな一年でした。突飛なアイディアをいつもそれなりに料理してくれるリードテックメンバーや年中ひなたぼっこしててほとんどお出かけしない自分を時々連れ出して遊んでくれたみんなに感謝して。なにより全く病気しなかったので良かったです。

*1:はじめて

*2:が、開店休業中w

*3:いま2

*4:もともとあんまり使ってないじゃん、という

2012-12-23

流れる、のインターフェース

ひさびさのホワイトクリスマス？、というニュースを聞きました。クリスマスに雪かー、そうだねー、とふっと思い出したのが今年5月頃に遊んでいたこれ。

http://dl.dropbox.com/u/156594/dental/index.html

↑クリックしてみてください。ちょっとカラフルな「雪」が降ると思います。

f:id:haseharu:20121223153000p:plain
参考：「canvasはデンタルフロスくんの涙を流すか」

それから流れてくるまるい何かをクリックするとポワーンと何かが画面に映るかと思います。これ、Twitterのツイートの中身です。NDLが発信しているCA-Rというコンテンツの新着記事を公式ツイート(@ca_tweet)からJSON形式で取得してCanvasで描画、というシンプルな仕組みです。

情報が流れてくる（落ちてくる）
クリックすると中身が分かる（クリックしそびれる可能性アリ）
中身が見えないのでクリックするまでのヒミツ

という、とんでもない仕様で真面目に「情報発信」と向き合っている人たちに怒られてしまいそうですが、ふんわりとしたビジュアルとクリックしないとわからないという偶然性に期待しつつ自分の中では勝手にflowing interfaceと名付けてこれを使って「なんか作ろうかなー」と考えています。

たとえば、ニュース。新聞を広げてざざーとブラウジングするのとYahoo!ニュースのリストをみてクリックするのと受け手の受ける情報量や伝わり方が違うだろうと。新聞ならあまり興味のない記事でも目に入ってくるので読むこともあるでしょうし、Yahoo!ニュースならその逆、興味なければクリックもしないので記事も読まないと思います。じゃあ、中身すら隠して動的に流す、例えば流しそうめんのようにざざーって流して受け手に捕まえてもらうインターフェースにしたらどんな感じを受けるんだろう、という一つの実験*1。

「乞うご期待」とかいっていた「B mode」を放置しつつ、ひさびさにいじろうかと思ってコードをみたら、自分が書いたコードがさっぱりわからないので、またイチから自分の書いたコードを読もうと思いました*2。

それでは。よいクリスマスを！

*1:ほんとか？？

*2:最近はJavaScriptはさっぱりでPHPばかり書いているせいもあります、といいわけ。

2012-12-23

コーディネイトショーとあんみつ

リードテックメンバーが「コーディネイト」をするということなので、年休を取得し常磐線にゆられてはるばると江戸で開かれるコーディネイトショーへ。というわけでひさびさの更新ですがリードテックラボ・イベント参加編（番外編）です。

イベント内容については、こっちとかこっちとかをご覧ください。

「じり貧はやだよね」的な

コーディネイターの冒頭スピーチでひっかかった言葉です。

「仕事がなくならなければ良いというものでもないと思います．仕事はかろうじてあるけど，じり貧状態で，やっていても毎日あんまり楽しくないというのはやだなぁと思います．」 from ささくれ

今やっている仕事が次にやってくるであろう仕組みによってかなりの部分を淘汰されるだろうという気持ちで仕事に向かっている時期。あるいはいま既にある技術や仕組みを持ってくればこの仕事はなくなるのに「持ってこれないなんらかの障害がある」時期。おそらくほとんどの物事がメタに見たときに常に過渡期で移行期間であるので、この感覚は常に持っていなくてはいけないし、次にやってくるであろう仕組みを自分たちで作るか提案していかなきゃねえと改めて思いました。

Disruptiveなテクノロジー

OAとAPCの絡みで既存の図書館業務の転換の必要性を問う話が出ていました。購読モデルからOA化へと転換が進むにつれ雑誌契約に係る予算を論文投稿料やAPCを図書館で支払う予算に変え、なおかつ、図書館では支払いの交渉や組織内での予算調整するという仕組みに変えていく、という話だったと思います。ここには詳細は書けませんが、自分の所属する組織では組織全体の論文投稿料の予算を図書館につけてもらい論文投稿料を図書館で支払う、という仕組みがあるためAPCについても支払いの要望があり議論が必要となっています*1。改めてその辺りの実現可能な運用方法を整理していかなきゃなあと思いました。

基調講演をしてくださったMartin Richardsonさんは何度かOAのことを「Disruptive technology」と表現していたのですが、OAが既存の枠組みを壊していく仕組みだということはなんとなく感じることができました。

人と人が集まる

関東のイベントということもあり関東の方中心だと思いますが、たくさん人が集まるので、そういう人たちが交流できるような仕組みがあるといいなあと感じました。ただの休憩時間ではなくコーヒーブレイク的な時間があって、場所があって、人と人がふっと声を掛け合って会話が生まれるような仕掛けがあって。

おきまりの

イベントに参加していた職場の後輩とごはんを食べて別れて、コーディネイター＋しぶれさん＋あすかさんと合流して東京駅のみはしであんみつを食べて帰りました。

また、あんみつ食べましょう。

*1:けっこう調べていますが、今のところ日本では聞いたことがない仕組みです。