Internetin käyttäjän ongelmana ei yleensä ole sieltä löytyvän tiedon puute, vaan sen määrän rajoittaminen hyödyllisimpiin linkkeihin. Tietoa voidaan etsiä hakukoneilla tai aihehakemistoilla. Aiheenmukaiset hakemistot ovat ihmisten lajittelemia. Hakukone on puolestaan mekanismi, jolla haetaan tietoja hakurobottien indeksoimista tietokannoista.
Hakukoneiden isoäitinä voidaan pitää vuonna 1993 kehitettyä Veronicaa. Graafisen läpimurron jälkeen vuonna 1994 ilmestyi maata pitkin liikkuvan hämähäkkilajin mukaan nimetty Lycos. Seuraavana vuonna toimintansa aloitti Altavista, jonka hakuominaisuudet olivat ennennäkemättömät. Boolen operaattoreiden lisäksi Altavista osasi hyödyllisen linkkihaun. Sillä voitiin etsiä myös newsviestejä sekä kuvatiedostoja. Vuonna 2000 ilmestyi Google. Nimi on peräisin suurta lukua tarkoittavasta googol-sanasta, jossa on ykkösen jälkeen sata nollaa. Aiemmista poiketen Google tallensi indeksoimansa sivut myös omille palvelimilleen. Tällöin sivu saatiin näkyviin, vaikka linkki olisi jo vanhentunut tai yhteys katkennut. Google indeksoi www-sivujen lisäksi myös pdf-, Word-, Excel- ja PowerPoint-tiedostoja sekä rtf-muotoisia tekstitiedostoja.
Kaikki hakukoneet toimivat samalla periaatteella. Hakurobotti tekee tutkimustyötä liikkuen www-sivulta toiselle linkkejä seuraten. Sivujen url-osoitteet ja niillä esiintyvät sanat poimitaan talteen ja lisätään valtavaan tietokantaan. Tietokannasta laaditaan hakuindeksi, jossa sanat ovat aakkosjärjestyksessä. Sitä paremmin indeksi pysyy ajan tasalla, mitä useammin hakurobotti käy tutkimassa, onko vanhoja sivuja muokattu tai onko palveluun ilmestynyt uusia sivuja. Yleensä laajat kierrokset tehdään noin kuukauden välein ja muulloin tiedonhakua varten tallennettuja tietoja päivitetään vain satunnaisesti. Aikaa myöten kaikkien www-sivujen, joihin on linkki joltain muulta sivulta, pitäisi päätyä automaattisesti hakurobotin käsittelyyn.
Hakukone välittää kyselyn tietokantaan sen perusteella, mitä käyttäjä kirjoittaa www-sivun hakukenttään. Tuloksena saadaan lista kaikista niistä sivuista, joilla syötetyt sanat esiintyvät. Haun rajaaminen kannattaa tehdä huolella, sillä kymmenien tuhansien osumien läpikäyminen on täysin mahdotonta. Parhaimman hyödyn hakukoneista saa, kun niiden käyttöohjeisiin tutustuu kunnolla. Boolen operaattorit ovat oiva apu hakulauseen rakentamisessa. Hakusanat kannattaa kirjoittaa pienillä kirjaimilla, ellei ole ehdottoman varma isojen kirjaimien käytöstä.
Vaikka oletuksena ovat pienet kirjaimet, palauttaa haku myös isoilla kirjaimilla kirjoitetut versiot kyseisestä hausta. Sanayhdistelmät on syytä laittaa lainausmerkkien sisään. Esimerkiksi ”Tarja Halonen” ei ota hakuun erikseen mukaan kaikkia Tarjoja ja erikseen kaikkia Halosia. Päivitysaikatauluista ja indeksoinnin laajuusrajoituksista johtuen kannattaa kokeilla useita eri hakukoneita. Samakaan hakukone ei välttämättä tänään anna samaa listaa, joka saatiin samalla kyselyllä eilen. Haku voidaan tehdä myös ns. metahakukoneen kautta, joka lähettää kyselyn yhtä aikaa usealle eri hakukoneelle ja yhdistää tulokset.
Hakukoneiden paremmuus määräytyy paljolti sen perusteella, miten hyvin ne osaavat erotella tärkeät sivut vähemmän tärkeistä. Tuloslista pitää rakentaa siten, että hyödyllisimmät sivut ovat sen alussa. Hyödyllisyyden arviointi ei kuitenkaan ole helppoa. Jos hyödyllisyys määritellään sanojen esiintymiskertojen perusteella, voivat sivujen tekijät monistaa avainsanoja useaan kertaan nostaakseen oman sivunsa sijoitusta listalla. Todenmukaisempi tulos saadaan painottamalla sivun url-osoitteessa sekä title- ja meta-kentissä esiintyviä hakusanoja. Ensimmäisille tekstiriveille voidaan myös asettaa muita suurempi painoarvo. PageRank-menetelmässä sivujen tärkeys määräytyy siihen osoittavien linkkien määrän mukaan.
Hakupalvelut eivät synny ilman kovaa työtä ja suuria investointeja. Esimerkiksi Googlen tietokannan pyörimiseen vaaditaan erittäin nopeat verkkoyhteydet ja noin 10 000 Linux-pc:tä. Piilaaksossa sijaitsevan Googlen palveluksessa on 400 henkilöä, joista 50 on suorittanut tohtoritason tutkinnon. Hakukoneet rahoittavat toimintaansa muun muassa verkkomainonnalla tarjoten siihen aivan uusia mahdollisuuksia. Ne nimittäin tietävät, mistä käyttäjät ovat kiinnostuneita. Esimerkiksi digitelevisioita myyvä liike voi ostaa oman ilmoituksensa näkymään aina, kun käyttäjä on syöttänyt hakukenttään sanan digitelevisio.
Paraskaan hakukone ei kuitenkaan löydä kuin murto-osan netin sisällöstä. Tavallisten haku-koneiden ulottumattomiin jääviä sivuja kutsutaan syväksi webiksi (deep web). Koska sivut eivät ole html-muodossa eikä niihin ole linkkejä, hakurobotit eivät pääse niihin käsiksi. Esimerkiksi eduskunnan tai Finlexin laajat tietopalvelut edustavat Suomessa syvää webbiä. Näiden sisältöä pääsee lukemaan vain tekemällä kyselyn palvelun oman hakukoneen kautta. Syvän webin arvioidaan olevan jopa yli 500 kertaa hakukoneiden näkemää webbiä suurempi.
Avoin matematiikkaTilastoja ja todennäköisyyksiä4.4.2013