Раздел Интернет
24 ноября 2008, 12:11

Сортировка петабайта данных заняла у Google шесть часов две минуты

Компания Google в рамках своей файловой системы рассортировала петабайт данных между четырьмя тысячами компьютеров за шесть часов две минуты.
Один петабайт эквивалентен десяти триллионам 100-байтовых текстовых файлов. Об этом сообщается в официальном блоге Google.

Для размещения петабайта данных Google потребовалось 48 тысяч жестких дисков, но они не заполнялись полностью. Кроме того, создавалось по три копии каждого файла на разных дисках, так как есть опасность выхода их строя одного из трех винчестеров.

Сортировка меньшего объема информации - терабайта данных - между тысячей компьютеров заняла у файловой системы Google 68 секунд. Такой же объем информации был рассортирован между 910 компьютерами за 209 секунд.

Основой файловой системы Google является компонент MapReduce. Он позволяет запускать несколько процессор одновременно. В январе текущего года MapReduce обрабатывал в среднем по 20 петабайт данных ежедневно.