2011年4月24日日曜日

[何でも比較] 原発データのCSV提供から考える、データ公開フォーマット

東電のWebサイトに原発の情報がPDFでアップされていましたが、最近はCSVで提供されているようです。

  • 東電のページ: 東日本大震災後の福島第一・第二原子力発電所の状況
  • 本日は「提供するフォーマットとしてCSVを選んだこと」について考察します。

    世の中にはデータを提供するフォーマットとして考えられるのは、今回の採用されたCSV以外に以下のものが考えられます。

    • プレーンテキスト(txt)
    • Excelファイル(xls, xlsx)
    • OpenOffice.orgファイル(ods)
    • HTML
    • XML
    • データベースで使用するファイルフォーマット(db, sqlite3)

    それぞれについてメリット・デメリットを考えてみます。この際、提供者側の手間は考えないものとします。

    フォーマット毎のメリット・デメリット
    フォーマットメリットデメリット
    txt100%読める。読み出しアプリを特別用意する必要がない。ブラウザでも見られる。閲覧側で整形しづらい。データとして扱うのが面倒。
    cvs頑張ればテキストとしても読める。様々なアプリでも読め、そこから他のフォーマットへの変換も容易。表として閲覧するためにはExcel等のアプリがないときつい。
    xls, xlsx広く普及しているので多くの環境で閲覧できることが期待できる。表計算やグラフ化が容易。OpenOffice.orgでも開けないことはない。フォーマットが公開されているとは言え、Excelがないと実質閲覧できない。
    ods表計算やグラフ化が容易。結構色んなアプリでサポートされている。開けるアプリを持っているユーザは少ない。情弱は間違い無く開けない。
    htm, htmlブラウザでそのまま開けるため、ほぼ100%閲覧環境が用意できる。表の形で表示可能。データとして扱うのが困難。
    xmlXSLを一緒に公開すれば、様々な形に変換可能。閲覧者側でも(頑張れば)任意の整形が可能。気合を入れればテキストとしても…(いやムリだな)。XMLファイルだけ渡されてもどうしようもない。情弱は間違い無く開けない。
    db, sqlite3情報の蓄積、検索が容易。巨大なデータでも扱える。閲覧できるアプリを用意することが結構困難。

    そして各フォーマットの特徴をまとめるとだいたいこうなります↓

    各フォーマットの特徴
    フォーマット 閲覧環境の用意のしやすさ データ整形のしやすさ 複数テーブル 巨大なデータ 総合
    txt ××4
    csv ×5
    xls, xlsx 8
    ods ×7
    htm, html ×6
    xml ×4
    db, sqlite3 ×7

    比較してみた感想

    こうやってみるとCSVって微妙に見えますね。。。ですが大事なのは、閲覧性とデータ整形のしやすさを兼ね備えたフォーマットは今のところCSVしかないということです。プログラマ的にはXMLの方が柔軟性は高いんですが、情弱を含めた一般の人が見ることを考えると、CSVやExcel形式の方が汎用性は高いんでしょうね。MS-Office持ってない人間を切り捨てていいなら、いっそExcel形式で公開した方が見る側には楽なのかもしれませんね。っていうかCSVで公開してもどうせExcelで変換して見るんでしょうし。

    データサイズについて

    ところで今回の比較には「データサイズ」というものを考慮していません。経産省やLASDEC容量が大きいファイルがサーバーや回線を圧迫しないようにすることを1つの目的として重要情報はPDFやExcelではなくHTMLやCSVで公開するように呼びかけていますが、データは圧縮すればいいわけですので、重要な問題ではありません。そもそもPDFやExcelのせいで回線圧迫が頻発って通信キャリアの問題じゃないんでしょうか?PDFをJPGに変換しろと言っていますが逆にファイルサイズでかくなるんじゃないでしょうか?複数枚のPDFならその枚数分JPG変換するんでしょうか?1分1秒を争うものも多々あると言っていますが、そもそもデータの公開時期自体が数日遅れてなので気にするオーダーではありません。見当違いな呼びかけは止めて頂きたいものです。

    ケータイでの閲覧

    LASDECの呼びかけではHTML,CSVでデータを提供するもう1つの目的として、ケータイでの閲覧を挙げていますが、ケータイでのCSV閲覧なんて嫌がらせ以外の何者でもありません。そもそもガラケーを含めたケータイでの閲覧をサポートを考慮するならテキストとHTML以外の選択肢はなくなります。データサイズを気にするのであれば、ケータイからのアクセスはテキスト、PCやスマートフォンはHTML、とサーバ側で振り分ければいいだけの話です。見当違いな呼びかけはry

    今回の選択と今後の選択

    しかし悲しい現実ですね。たかがデータテーブル1つ公開するにしても、選択肢がこんなもんしかないとは。結局Excel必須ですか。マイクロソフトはExcelファイルを閲覧するためのExcel Viewerを無料で公開していますので、お金のない人でも手軽に 閲覧できます。ですが、サードパーティから手軽な閲覧編集ソフトが出ないんですよね(OpenOffice.orgは手軽にという条件に反しています)。一方Web上での閲覧手段としてGoogle Documentがあるので一昔前に比べればだいぶ選択肢は広がりました。Excelも2007以降はXML+ZIP圧縮のxlsx形式になっているので、今後は閲覧できるアプリが出てくるかもしれません(需要ないかなー)。

    ファイルフォーマットとその閲覧に関する議論はいつの時代にもあるものですが、画像に関してはアプリ側が何にでも対応できるようになっていくことで対応してきました(実質jpg, png, bmpの3種なのでブラウザでも事足りる)。動画に関してはまだまだ勢力争いが盛んでありますが、こちらもアプリ側での対応が柔軟であることと、Web上でもFlashによるプレイヤで対応しています(WebMとかH.264とかはry)。

    しかしデータファイルというのはちょっと特殊で、その場で閲覧するだけでなく、計算したり並び替えたりグラフ化したり比較したりと、ユーザが欲しがる閲覧形態が多数あります。ですので、画像や動画のように「表示できればよい」というものではないのです。ここら辺をうまくカバーしたフォーマット、アプリが普及しない限りExcelの土俵はまだまだ崩れないでしょう(というかその辺を見事にカバーしているのがExcelなんですけどね)。

    今回の一件ではCSVが採択されたわけですが、これは最適な選択ではなく、少ない選択肢から選んだ最善の選択である、という点に注意しなければなりません。

    参考記事

    0 件のコメント: