Uniqe schreef:
een eigen google begin maar eerst met scripten van een script die alle sites zoekt en een stuk of 20 computers het is onmogelijk als je niet goed kan scripten
Om alles te indexeren kun je beter een stand-alone programma maken, en geen webbased iets; werkt sneller...
Allereerst moet je een goeie snelle verbinding hebben, een hele zooi PC's (google heeft er een half miljoen dacht ik ), en een zooi personen die een zooi algoritmes kunnen bedenken en uitwerken (wie komt er als eerste op de lijst, welke tekst sla je op in je database, hóe sla je het op, enzovoort), een geldschieter (iemand die echt héééél veel geld over heeft ).
Maar waarom wil je dit? Je zult toch nooit een goede concurrent worden van Google of live.nl als je niet zelf alles probeert uit te vinden.
Nu even m'n theorieverhaal.
Volgens een site (heb even gegoogled ) waren er in augustus 2005 zo'n 70.000.000 websites.
Zeg dat elke site 14 pagina's kent, heb je precies 1 miljard paginas.
Zeg dat een gemiddelde website 10.000 tekens bevat (de pagina om op een topic te reageren hier op saven.nl heeft er +/- 25.000), dan heb je dus 10.000 miljard tekens die je wilt opslaan.
10.000.000.000.000 byte
10.000.000.000 megabyte
10.000.000 gigabyte
10.000 terabyte
10 petabyte
Op 4launch.nl vond ik een hdd met 160 gig voor € 50,-
Je moet 10.000.000 / 160 = 62.500 schijven hebben, maal € 50,- komt neer op € 3.125.000,- voor alléén de hardeschijven voor alle data.
Dan moet je nog pc's hebben (zeg dat er maximaal 10 hdd's in 1 pc kunnen, dan heb je 6.250 pc's nodig, maal 200 euro = € 1.250.000,= is tot nu toe € 4.375.000,-).
Dan moet je nog een snelle internetverbinding hebben voor iedere pc, een firewall, een datacenter, verzekeringen, en verder nog servers voor de userinterface van de zoekmachine (waar je je zoekopdracht invoert), dus dat kost je een hoop poen.