---
type: article
title: 野良データを撃つ銀の弾丸はない
timestamp: 2013-02-09T00:00:00Z
profile: sorane-okf/0.1
noFontEmbedding: true
---

# 野良データを撃つ銀の弾丸はない

<p>日本でもオープンデータの取り組みが大きく動き始めた。昨年7月にIT戦略本部が<a href="http://www.kantei.go.jp/jp/singi/it2/pdf/120704_siryou2.pdf">&#x96FB;&#x5B50;&#x884C;&#x653F;&#x30AA;&#x30FC;&#x30D7;&#x30F3;&#x30C7;&#x30FC;&#x30BF;&#x6226;&#x7565;</a>を発表し、12月に<a href="http://www.kantei.go.jp/jp/singi/it2/densi/index.html">&#x96FB;&#x5B50;&#x884C;&#x653F;&#x30AA;&#x30FC;&#x30D7;&#x30F3;&#x30C7;&#x30FC;&#x30BF;&#x5B9F;&#x52D9;&#x8005;&#x4F1A;&#x8B70;</a>が立ち上がり、2月に入って<a href="http://opendata.openlabs.go.jp/">&#x30AA;&#x30FC;&#x30D7;&#x30F3;&#x30C7;&#x30FC;&#x30BF;IDEABOX</a>で意見を募集し始めている。さっそく<a class="keyword" href="http://d.hatena.ne.jp/keyword/%B7%D0%BA%D1%BB%BA%B6%C8%BE%CA">経済産業省</a>が<a href="http://datameti.go.jp/">OpenData METI</a>を立ち上げてデータを公開し始めた。公開に当たっては利用者が扱いやすいフォーマットで提供できるに超したことはないが、準備に時間をかけるよりは<a class="keyword" href="http://d.hatena.ne.jp/keyword/Excel">Excel</a>で構わないから提供可能な文書から公開し、フィードバックを受けて段階的に改善した方がいい。

<br />
政府の<a class="keyword" href="http://d.hatena.ne.jp/keyword/%CA%DD%CD%AD">保有</a>している情報のうち統計や地図、道路情報など利用価値の明確なものは既に公開または商用化されている。これから公開するデータとして検討の俎上に上がるとすれば、何らかの行政目的のために収集され、ビジネスや学術分野で副次的な利用価値があり、かつプライバシー等の課題をクリアして公開できる情報と考えられる。これらは使途がはっきりすれば適したフォーマットや保守に要する業務手順、改竄やら悪用のリスクも見えてくるが、<a class="keyword" href="http://d.hatena.ne.jp/keyword/%A5%E6%A1%BC%A5%B9%A5%B1%A1%BC%A5%B9">ユースケース</a>とデータは鶏と卵の関係にある。<br />
ざっくりとオープンにすべきデータの分類基準として、</p>

<ul>
<li>公開可能な情報として切り出されているか</li>
<li>フォームなり<a class="keyword" href="http://d.hatena.ne.jp/keyword/%A5%B9%A5%AD%A1%BC%A5%DE">スキーマ</a>が定義されているか</li>
<li>作成・閲覧等のツールが提供されているか</li>
</ul><p>といった要素が考えられる。<br />
例えば地理情報のように<a class="keyword" href="http://d.hatena.ne.jp/keyword/%A5%B9%A5%AD%A1%BC%A5%DE">スキーマ</a>が定義されてツールも提供されていれば、そのままで必要十分な<a class="keyword" href="http://d.hatena.ne.jp/keyword/%A5%E1%A5%BF%A5%C7%A1%BC%A5%BF">メタデータ</a>がついた機械判読可能なデータとなる。<a class="keyword" href="http://d.hatena.ne.jp/keyword/%A5%B9%A5%AD%A1%BC%A5%DE">スキーマ</a>が存在せずツールも存在しないと現場が自由に<a class="keyword" href="http://d.hatena.ne.jp/keyword/Excel">Excel</a>で表を組むことになるが、担当者のセンス如何で自動処理が難しい形式となってしまう場合が少なくない。<br />
これは別に<a class="keyword" href="http://d.hatena.ne.jp/keyword/Excel">Excel</a>だけの問題じゃなくて、<a class="keyword" href="http://d.hatena.ne.jp/keyword/RDB">RDB</a>のテーブルだって、<a class="keyword" href="http://d.hatena.ne.jp/keyword/XML">XML</a>の<a class="keyword" href="http://d.hatena.ne.jp/keyword/%A5%B9%A5%AD%A1%BC%A5%DE">スキーマ</a>だって設計者センスが悪いと悲惨な結果になるし、自由度が高いほど間違った設計をされると後から手に負えない。<a class="keyword" href="http://d.hatena.ne.jp/keyword/%A5%D6%A5%EB%A5%C3%A5%AF%A5%B9">ブルックス</a>先生も「腐ったロジックは書き直せばいいが、腐ったデータは似ても焼いても食えない」的なことを『人月の神話』で書いてた気がする。良かれ悪しかれ<a class="keyword" href="http://d.hatena.ne.jp/keyword/%C9%BD%B7%D7%BB%BB">表計算</a>ソフトには表しか入らないから腐ったオブジェクトやバイナリデータよりはマシで、最悪でも印刷すれば読める。<br />
現場としては文書として使えれば十分なのに突然「機械判読可能なフォーマットで公開して下さい」と頼まれ「え？それ何に使うんですか」と聞いたら「まだ分からないけど、そのうち何か使うかもしれないんで」なんて答えられた日には「そんなテキトーな思いつきで現場の仕事を増やさないでよ」と思ってしまうのが人情ではないか。<br />
だから順番としては、</p>

<ul>
<li>手元にあるデータから公開・カタログ化し利用者から意見を吸い上げる</li>
<li>項目中に空白を入れないとか再利用容易なデータ作成の手引きをつくる</li>
<li>利用頻度の高い共通データは<a class="keyword" href="http://d.hatena.ne.jp/keyword/%A5%B9%A5%AD%A1%BC%A5%DE">スキーマ</a>を定義しツールを整備し展開する</li>
<li>外部からよく使われているデータは扱いやすいフォーマットに整形する</li>
</ul><p>といった流れが現実的だろう。まずは<a class="keyword" href="http://d.hatena.ne.jp/keyword/Excel">Excel</a>なり手元にあるデータを公開するのが手っ取り早くて、何でもかんでも最初からLinked Open Dataで出せといっても難しい。仮に力業でやり遂げたところで当面ボットの肥やしにしかならないかも知れない。とりあえず人間判読可能なフォーマットでデータを公開していれば、必要に応じて<a class="keyword" href="http://d.hatena.ne.jp/keyword/%A5%AF%A5%E9%A5%A6%A5%C9">クラウド</a>ソーシングで機械判読可能なかたちに変換することも簡単にできる。<br />
ところでOpenData界隈に蔓延る<a class="keyword" href="http://d.hatena.ne.jp/keyword/Excel">Excel</a>悪玉論について思いを巡らせると、日本の事務書類にはやたらと複雑な<a class="keyword" href="http://d.hatena.ne.jp/keyword/Excel">Excel</a>帳票が多い。日程調整やら履歴書やら予算申請やら何でも<a class="keyword" href="http://d.hatena.ne.jp/keyword/Excel">Excel</a>テンプレートで回ってきて、どれも微妙にフォーマットが異なる上に入力が難しい。<a class="keyword" href="http://d.hatena.ne.jp/keyword/%C9%BD%B7%D7%BB%BB">表計算</a>ソフトをこんな奇天烈な使い方するのは世界広しといえども日本くらいではないか。<a class="keyword" href="http://d.hatena.ne.jp/keyword/%A5%EF%A1%BC%A5%D7%A5%ED">ワープロ</a>や電子帳票アプリを使うべき局面でも、<a class="keyword" href="http://d.hatena.ne.jp/keyword/%A5%EF%A1%BC%A5%D7%A5%ED">ワープロ</a>ソフトの罫線機能が貧弱だった時代の名残で<a class="keyword" href="http://d.hatena.ne.jp/keyword/%C9%BD%B7%D7%BB%BB">表計算</a>ソフトを使う珍妙な慣習が残っている。<br />
学生時代ライターとして駆け出しの時分だから15年以上も前の話になるが、担当編集者から<a class="keyword" href="http://d.hatena.ne.jp/keyword/Lotus%201-2-3">Lotus 1-2-3</a>のムックを出したら筆者から原稿を123形式で受け取り泣きながら<a class="keyword" href="http://d.hatena.ne.jp/keyword/CSV">CSV</a>に落としてエディタのマクロで整形した逸話を聞いたことがある。今でも<a class="keyword" href="http://d.hatena.ne.jp/keyword/Excel">Excel</a>方眼が馬鹿にされるけれども、昔は<a class="keyword" href="http://d.hatena.ne.jp/keyword/%C9%BD%B7%D7%BB%BB">表計算</a>の達人が1セル1文字の1-2-3原稿用紙で入稿したらしい。<a class="keyword" href="http://d.hatena.ne.jp/keyword/%B4%D7%CF%C3%B5%D9%C2%EA">閑話休題</a>。<br />
わたしが<a class="keyword" href="http://d.hatena.ne.jp/keyword/XML">XML</a>を学んだ90年代後半、まさか十数年後<a class="keyword" href="http://d.hatena.ne.jp/keyword/Semantic%20Web">Semantic Web</a>が流行らないどころか<a class="keyword" href="http://d.hatena.ne.jp/keyword/XHTML">XHTML</a>が頓挫して<a class="keyword" href="http://d.hatena.ne.jp/keyword/HTML5">HTML5</a>でデータとUIとロジックが混ざった世界でWebアプリの<a class="keyword" href="http://d.hatena.ne.jp/keyword/%A5%EF%A1%BC%A5%D7%A5%ED">ワープロ</a>や<a class="keyword" href="http://d.hatena.ne.jp/keyword/%C9%BD%B7%D7%BB%BB">表計算</a>と格闘してる未来なんか想像できなかった。期待した<a class="keyword" href="http://d.hatena.ne.jp/keyword/XForms">XForms</a>やらInfoPathやら<a class="keyword" href="http://d.hatena.ne.jp/keyword/Xfy">Xfy</a>は流行らず、まだまだ<a class="keyword" href="http://d.hatena.ne.jp/keyword/%B8%A1%BA%F7%A5%A8%A5%F3%A5%B8%A5%F3">検索エンジン</a>は<a class="keyword" href="http://d.hatena.ne.jp/keyword/%BC%AB%C1%B3%B8%C0%B8%EC">自然言語</a>での問いに答えられず、今日も今日とて右の<a class="keyword" href="http://d.hatena.ne.jp/keyword/Excel">Excel</a>帳票から左の<a class="keyword" href="http://d.hatena.ne.jp/keyword/Excel">Excel</a>帳票へコピペ奮闘している訳だ。それが正しい未来とは思わないけれども、何故そうなったか胸に手を当てて考える必要は感じている。<br />
ひとつに表よりも複雑なデータを正しく設計できるデータアーキテクトは多くないし、実際の事務でも表に収まるデータが割と多い。だから柔軟かつ高速な<a class="keyword" href="http://d.hatena.ne.jp/keyword/OODB">OODB</a>や<a class="keyword" href="http://d.hatena.ne.jp/keyword/XML">XML</a>データベースは流行らず今でも<a class="keyword" href="http://d.hatena.ne.jp/keyword/RDB">RDB</a>が好まれるし、Lotus Improvの20年前から<a class="keyword" href="http://d.hatena.ne.jp/keyword/%C9%BD%B7%D7%BB%BB">表計算</a>ソフトは多次元データを扱えるようになり、<a class="keyword" href="http://d.hatena.ne.jp/keyword/Excel">Excel</a>もPivot Tableを簡単に扱えるにも関わらず、相変わらず使いこなす人は限られるのではないか。<a class="keyword" href="http://d.hatena.ne.jp/keyword/CSV">CSV</a>は単純で扱いやすいが2次元の表しか表現できず、値の単位や属性の<a class="keyword" href="http://d.hatena.ne.jp/keyword/%A5%E1%A5%BF%A5%C7%A1%BC%A5%BF">メタデータ</a>を欠いている。それでも困らない程度に多くの人が<a class="keyword" href="http://d.hatena.ne.jp/keyword/%C9%BD%B7%D7%BB%BB">表計算</a>ソフトで扱っているデータは単純なのだろうか。<br />
世間に流通するデータを見渡して、一方の極に厳密に構造化されて専用のツールで扱うデータがあって、その対極に未整理で構造化されていない<a class="keyword" href="http://d.hatena.ne.jp/keyword/%BC%AB%C1%B3%B8%C0%B8%EC">自然言語</a>や生データがある。その合間でグラデュアルに漂う中途半端に構造化されてはいるが分断されたデータの受け皿として、この何十年か<a class="keyword" href="http://d.hatena.ne.jp/keyword/%C9%BD%B7%D7%BB%BB">表計算</a>ソフトが使われてきた。<br />
<a class="keyword" href="http://d.hatena.ne.jp/keyword/Excel">Excel</a>文書はバイナリやテキスト文字列、<a class="keyword" href="http://d.hatena.ne.jp/keyword/CSV">CSV</a>と比べてリッチなデータ型や<a class="keyword" href="http://d.hatena.ne.jp/keyword/%A5%E1%A5%BF%A5%C7%A1%BC%A5%BF">メタデータ</a>や構造を持っている。<a class="keyword" href="http://d.hatena.ne.jp/keyword/GUI">GUI</a>で表に収まらない多次元データも扱え、要素に<a class="keyword" href="http://d.hatena.ne.jp/keyword/URI">URI</a>を持たせてデータ間をリンクし、<a class="keyword" href="http://d.hatena.ne.jp/keyword/%A5%D0%A5%A4%A5%F3%A5%C7%A5%A3%A5%F3%A5%B0">バインディング</a>を定義して<a class="keyword" href="http://d.hatena.ne.jp/keyword/XML">XML</a>に<a class="keyword" href="http://d.hatena.ne.jp/keyword/%A5%DE%A5%C3%A5%D4%A5%F3%A5%B0">マッピング</a>することもできる。にも関わらず現実には機械処理の困難なデータが<a class="keyword" href="http://d.hatena.ne.jp/keyword/Excel">Excel</a>で量産され続けるのは、構造化されたデータや計算式を「紙上の表」として表象する<a class="keyword" href="http://d.hatena.ne.jp/keyword/%C9%BD%B7%D7%BB%BB">表計算</a>ソフトの宿命なのだろうか。<br />
<a href="http://5stardata.info/ja/">5&#x2605;OpenData</a>は幾つかの異なる論点を混同している。<a class="keyword" href="http://d.hatena.ne.jp/keyword/Excel">Excel</a>について「データを文書から取り出すには独占的なソフトウェアが必要です」と解説し、<a class="keyword" href="http://d.hatena.ne.jp/keyword/CSV">CSV</a>の方が望ましいとしているが、<a class="keyword" href="http://d.hatena.ne.jp/keyword/Excel">Excel</a> 2007以降のXLSX文書フォーマットの標準化はISO/IEC JTC1に委ねられ、Libre Officeや<a class="keyword" href="http://d.hatena.ne.jp/keyword/iWork">iWork</a>を含む多くの製品でサポートされていることや、<a class="keyword" href="http://d.hatena.ne.jp/keyword/API">API</a>を通じてアプリケーションからもデータを取り出せることを無視している。<br />
現実に流通している<a class="keyword" href="http://d.hatena.ne.jp/keyword/%C9%BD%B7%D7%BB%BB">表計算</a>文書が適切に構造化されていないのは、紙での慣習が持ち込まれがちな上、ユーザーにとってデータ設計が難しいからで、柔軟な文書フォーマットや分かりやすいツールほど同様の問題に直面する。そして文書や値の意味を明確にする<a class="keyword" href="http://d.hatena.ne.jp/keyword/%A5%E1%A5%BF%A5%C7%A1%BC%A5%BF">メタデータ</a>やリンク構造はデータを適切に重ね合わせる上で有効だが、自動処理しようとすると複雑になる。<a class="keyword" href="http://d.hatena.ne.jp/keyword/CSV">CSV</a>よりもXLSXの自動処理が難しいように、LODの自動処理も<a class="keyword" href="http://d.hatena.ne.jp/keyword/CSV">CSV</a>よりは難しい。<br />
これら本質的な<a class="keyword" href="http://d.hatena.ne.jp/keyword/%A5%C8%A5%EC%A1%BC%A5%C9%A5%AA%A5%D5">トレードオフ</a>が曲解されて安易な<a class="keyword" href="http://d.hatena.ne.jp/keyword/Excel">Excel</a>批判に転化しがちなのは、現実に社会で広く使われている<a class="keyword" href="http://d.hatena.ne.jp/keyword/Excel">Excel</a>と比べてLODを扱う実装が普及していないため、矛盾が表面化していないからではないか。Linked DataはWeb空間に構造化された情報空間を形成することを目指しているが、その障壁は独占企業や製品固有のフォーマットよりも、現実世界の複雑さとデータを入力する人間のスキルのばらつきや能力の限界にある。<a class="keyword" href="http://d.hatena.ne.jp/keyword/RDF">RDF</a>やLODを普及させるには簡便に<a class="keyword" href="http://d.hatena.ne.jp/keyword/%A5%B9%A5%AD%A1%BC%A5%DE">スキーマ</a>定義やデータ入力できるツールが不可欠だが、それらが整備された暁には<a class="keyword" href="http://d.hatena.ne.jp/keyword/Excel">Excel</a>と似たような<a class="keyword" href="http://d.hatena.ne.jp/keyword/%A5%EA%A5%C6%A5%E9%A5%B7%A1%BC">リテラシー</a>の問題に直面するのではないか。<br />
OpenDataの公開と活用を中長期的に拡大していくには、データにアクセスして分析ツールを開発する<a class="keyword" href="http://d.hatena.ne.jp/keyword/%A5%D7%A5%ED%A5%B0%A5%E9%A5%DE%A1%BC">プログラマー</a>の視点だけでなく、データを保守する現場や、データの分析者、受益者の視点も不可欠だ。特に住民生活に密着したデータを多く<a class="keyword" href="http://d.hatena.ne.jp/keyword/%CA%DD%CD%AD">保有</a>する市町村での横展開を図るには、技術的な敷居や運営費用を下げると同時に、具体的な住民サービスの改善に資することを示す必要があるだろう。</p>
