「信頼性はソフトウェアのレベルで提供するべきである」

http://slashdot.jp/it/08/06/03/043256.shtml
スラッシュドット・ジャパン | Google曰く「信頼性は劣るかもしれないハードウェアを2倍の数揃える方がよい」
 


Dean氏は
「より信頼できるハードウェアを一定数揃えるより、
それより信頼性は劣るかもしれないハードウェアを2倍の数揃える方がよいと我々は考えている」
と発言し、
「信頼性はソフトウェアのレベルで提供するべきである」との考えを明かした。
「1万台のマシンが動いているとすれば、毎日何かがダウンするに決まっている」
からである。
 
 ソフトウェアや運用面で信頼性が稼げるのなら、
ハードウェア単品の信頼性(<突き詰めるとてきめんコストに響く部分)を
台数確保による冗長化でかなり補えるということです。
このソフトウェアや運用面の稼ぎっぷりが鬼凄じいのがgoogleの強さ。
 
 
この一連の投稿が面白かった

Googleはハードウェアを動かせる限り連続して動かしているとは思えません。
各機械は、定期的に止めて、ヘルスチェックをかけているはずです。
全体がいっせいに停止することはない、というだけで。
 
と言うことは、
ソフトウェアもその「一定期間」さえ動作すればよい、
という風に作っているはずです。
ジョブのtakeoverがきちんとデザインされているだけで。
つまり長期間運用しないと発生しないようなエラーについては、
最初からエラー処理など書いていないはずです。
 
その分を分散処理と、冗長化を実装するのに割いているのだと思いますよ。
 
http://slashdot.jp/it/comments.pl?sid=404299&cid=1355608
 
 なんとなく、この割り切り具合が、アメリカンな頭の良さだよなぁと感服。