このブログの更新は Twitterアカウント @m_hiyama で通知されます。
Follow @m_hiyama

メールでのご連絡は hiyama{at}chimaira{dot}org まで。

はじめてのメールはスパムと判定されることがあります。最初は、信頼されているドメインから差し障りのない文面を送っていただけると、スパムと判定されにくいと思います。

参照用 記事

はてなダイアリーのダウンロード・データ

ブログは、ちょっとずつ書いてはストックしていくには便利なツールですが、書いたものを整理して取りまとめるのは大変です。

僕の場合、今日の時点でこの「キマイラ飼育記」が、

  • 記事を書いた日数 1827日

メモ編」が、

  • 記事を書いた日数 1118日

で、これを整理するなんて不可能なんではないかと思えます。ですが、とりあえずナンカやってみようと。

なにはともあれダウンロード。はてなダイアリーのダウンロード形式については、既に次の記事に書きました。

複数の形式があるのはケッコウなことなんですが、形式ごとに含まれる情報が違っているんですよね。MT形式では原稿(はてなダイアリー記法テキスト)がなく、XML形式では表示用HTMLがありません。CSVには両方揃ってますが、コメントのタイムスタンプはCSVには入ってません。

どの形式であっても、常に全部一括でダウンロードです。これは困りますね。ある期間に書いた記事とか、タグによるカテゴリーで絞り込んでの部分ダウンロードはできません。部分を抽出したいなら、全部ダウンロードしてから自分でやるしかないのです。

情報としてはMT形式が一番豊富なようですが、原稿が入ってないので僕はXML形式を使うことにしました。僕は日記形式を使っているので、単位は日(day)です。一日に複数のエントリーを書いてもXML的な構造化はしてくれません。エントリーに分割したいなら、これも自分でテキストをパーズするしかありません。

それと、日(day)が単位だと、コメントがどのエントリーに付いたものかが分からないのですよね。これは、コメントがエントリーではなくて、日(day)に付属するというデータ構造なんで仕方ないのですが…

トラックバックの情報は消失するようです。どんなトラックバックがあったかの記録という意味もありますが、自ブログ内における自動トラックバックは、ハイパーリンクによる構造を与えてくれていました。残念ながが削除されます。再現したいなら、バックポインタを自分で付けるしかありません。

メタデータは不足を感じます。編集履歴はいいとしても、created、lastUpdatedの時刻は欲しいです。後から斜め読みする都合からは、summary、abstractのたぐいが欲しくなります。そのようなものを書くメカニズムはないし、あっても使うかはあやしいですけど。

ブログはもともと体系的に書くツールではないので、メタデータや構造が不足しているのは宿命ですが、メタデータや構造を付加する支援がもう少し欲しいなー。合計2945日分のデータを手でいじるのはシンドすぎる。