Yahoo isi modifica infrastructura motorului de cautare

Scris de Darius pe 20 February, 2008 la 21:12

hadloop_logo Yahoo calca din nou pe urmele “fratelui mai mare” Google in ceea ce priveste cautarea. Astazi Yahoo va trece o parte importanta a motorului de cautare la Hadoop, un soft care face fata foarte bine task-urilor distribuite la scara mare mai multor computere.

Hadoop este o implementare open-source a software-ului si sitemului de fisiere Google MapReduce. Acesta ia toate linkurile de pe internet gasite de catre crawlere si le “reduce” la o harta a Web-ului astfel incat algoritmii de ranking sa le poata folosi.

Yahoo inlocuieste softwareul propriu cu Hadoop care va rula pe un Linux cluster server care are “doar” … 10.000 de nuclee de procesor. Hadoop face acelasi lucru ca si vechiul software de la Yahoo doar ca va fi cu 34% mai rapid. Yahoo ne ofera de asemenea si cateva date interesate care ne pot ajuta sa ne facem o imagine asupra infrastrcturii care se afla in spatele motorului de cautare:

Some Webmap size data:

* Number of links between pages in the index: roughly 1 trillion links
* Size of output: over 300 TB, compressed!
* Number of cores used to run a single Map-Reduce job: over 10,000
* Raw disk used in the production cluster: over 5 Petabytes

Putem compara aceste date cu cele de la Google care foloseste infrastructura de calculatore bazata pe MapReduce - si care in Septembrie 2007 a furnizat nu mai putin de 14.000 terabytes de date compresate - si vom vedea care motor de cautare este mai folosit:

google-mapreduce1.png


Etichete: , , , , ,

Articole similare:
• Yahoo lanseaza facilitatea ’suggest search’
• Yahoo finalizeaza un motor de cautare mobil

Lasa un comentariu

XHTML: You can use these tags: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <code> <em> <i> <strike> <strong>