テクノロジー: 2007年2月アーカイブ
コンピュータを使っていてデータの保管は悩みの深い課題です。
昔はフロッピーディスクにテキストファイルを保存しておきましたが、それもHDDが20MByteといった容量の時代だったからです。
昨今では、写真・動画・プログラムなどをあわせるとバックアップをとっておきたいデータは500GByteくらいあります。このうち、絶対に喪失したくないデータは自分の書いたプログラムのソースコードと文章で、100MByte程度です。プライベートな写真やを加えると1GByteくらいになります。
プログラムなどは日々更新しているので、バックアップメディアとしてDVD-Rなどはむいていません。となると必然的に、バックアップは高速大容量のHDDにバックアップしています。
で、このHDDがまたよく壊れるものなんです。
ハードディスクに関する4つの都市伝説(Gigazineさま)
1.高価なSCSI/FCドライブの方が安価なSATAドライブよりも信頼できる
2.RAID5が安全なのは2台のドライブが同時に故障する確率がとても低いため
3.初期の故障しやすい時期を超えれば耐用年数に達するまで壊れないという信頼が高まる
4.ハードディスクメーカーのいうMTBF(平均故障間隔)はハードディスクドライブを比較するのに有益な尺度である
HDDの故障については、EMSなどのストレージベンダーで研究が行われています。最近ではGoogleでもHDDの故障に関するレポートをあげています。
HDDの故障分析はまず大きく3種類のカテゴリーに分かれます。
・データセンターなどの良好環境
・オフィスなどの通常環境
・ノートパソコンなどの劣悪環境
また、ハードウェア故障としては4つ原因があります。
・モータ故障
・ヘッド故障
・ディスクサーフェイスの損傷
・回路故障
それぞれの環境によって故障の発生率は変わってきます。
こちらで紹介されていたレポートでは統計的な分析をしていますが、原因と対策は示されていません。ストレージシステムのHDD置き換えコストの算定の根拠にはなりますが、熱対策にお金をかけるべきなのか、振動対策にお金をかけるべきなのかわかりません。
ここからは技術屋としての経験則からの話になります。
振動が与えられる環境下のHDDは1秒後に死んで当然
HDDのデータを読み込むヘッドは非常に脆いです。これがディスク表面に衝突することがあればHDDは壊れます。「ヘッドが欠ける・歪み読み取り特性が変化する」、「欠けたヘッドの破片がディスク表面を削る」、「ヘッドがディスク表面に接着する」など物理的に壊れます。
ヘッドが壊れただけならデータの保存してあるディスクは故障していないので修理は可能です。
ただし、修理はクリーンルームでおこなう必要があります。HDDの修理サービスもありますが、数十万円~は覚悟すべきです。
サーバを10台も20台も持つようになればバックアップの集積化にコストをかけることも可能ですが、個人で1~2台パソコンを使っている状態で、安全なバックアップとはなかなか難しいものです。
個人が気楽に・無料で・セキュアに使えるバックアップ環境ってのが是非ともほしいものです。
ファイルバンクなんてありますが・・・会社なんかじゃ使えないですよね・・・。
つくりたい・・・。
新しい検索エンジンを友達から紹介されました。
音声認識でポッドキャストデータを検索して、その内容を検索できるというものです。
Podcastle
これいいなぁ・・・。同じもの作ろうかな。
ある一定数のユーザがコンテンツを作成・公開するようになると検索エンジンの需要がでてきます。
新しい検索エンジンの登場は2つの技術革新に支えられています。
1、新しいコンテンツを検索できるようになる
2、新しい検索の入力・出力操作方法が提供される
検索アルゴリズムが改善されて検索精度の良いサイトがでてきても、それは新しいとは世の中では認識されません。
新しい対象に対して検索エンジンを作るのは結構大きなチャレンジです。なにしろクローリングしてデータがある程度集まるまでは、利用に耐える検索精度がでるかどうか分らないのです。研究投資としてはあまり大きなコストがかけられない分野です。アフィリエイト検索も、相当実験的な試みではあります。
一方、Dual Naviなどは、入力・出力操作方法の提案です。対するアプローチです。「テキスト入力→順位による結果出力」という標準的な操作では、目的とする情報をうまく見つけられないといった場合に対応するために作られています。
しかし、このようなアプローチは、検索エンジンとしては傍流です。主流になることはありません。
なぜなら、ユーザは一度の検索で10個20個も結果をクリックしたくないのです。基本的には1つだけ結果を表示してくれて、満足できるのが理想です(I'm feel lucky!)。
網羅的に対象を検索してくる機能が必要なのは、研究者、マーケティング担当者、弁理士・・・などの極限られた職種でしかありません。ですので、検索結果には高い精度が要求されます。基本的には対話型でざっくり検索した後に、予約型検索で、じっくり時間をかけて分析結果をだしてくれるほうがアプローチとしては嬉しいものです。
