今日からゼロからhadoopを勉強する内容を紹介します。hadoopを勉強する前に、どうして分散処理が必要ですかね。
例えば、一千万件の数字から指定な数字が存在するか確認したい場合、どの処理が良いか考えましょう。
以下の方法がありますが、良くないです?
・一千万件の数字をループして、すべて数字と比較します。
>この方法の場合、複雑度は O(n)となりますね。
じゃ、以下の方法は如何でしょうか?
・一千万件の数字を保存するとき、以下のように、分散で保存すると、数字を確認するとき、一部のデータのみをループすれば、存在するかチェックできます。
この例から見ると、データが多い場合、分散で保存すると、データの処理が簡単になりますね。