2,7 млрд. харесвания. Толкова отметки „Like“ във Facebook и в други сайтове, свързани с него, преработват на ден служителите на социалната мрежа, заяви вчера Джей Парик, вицепрезидент по инфраструктурата във фирмената централа.
Потребителите на социалната мрежа споделят всеки ден 2,5 млрд. линка и зареждат по 300 млн. снимки. Всеки ден се обработват по 70 000 въпроси, зададени от потребители, или автоматично генерирани. Всичко това означава, че всекидневно компанията трябва „да смели“ 500 терабайта данни.
„За повечето функции е нужно обработката на данните да протича почти в реално време“, казва Парик, „за да се осигури добър, бърз и персонализиран потребителски опит“. „Ние не можем да си позволим снимката ви да бъде качена и съхранена едва следващата седмица", каза той. Изискват се непрекъснати актуализации на данни, например на функция като "Топ Приятели" - когато един приятел добави нови връзки в тази категория, те трябва да се виждат веднага.
Обработката на данни в рамките на минута е от полза и за Facebook, защото така социалната мрежа разбира по-добре потребителските реакции и може да предложи нови продукти в кратък период от време. При големите данни целта е да се разбират трендовете и да се използват за развитието на бизнеса. Системата, наречена Gatekeeper, позволява на социалната мрежа да тества едновременно различни възможни промени при малък дял от потребителската база. Възможни са симулации с исторически данни, например отпреди година, преди промените да бъдат приложени окончателно.
Мениджърът също така разкри, че Facebook събира над 100 петабайта данни в един-единствен клъстер Hadoop Disk. „Ние смятаме, че оперираме най-голямата Hadoop система в света", каза той. Това решение за голяма база данни позволява обработка и анализ на големи набори от данни чрез компютърни клъстери и представлява проект с отворен код на Apache Software Foundation, която се насърчава преди всичко от Yahoo и Google.