Hakukoneet

In­ter­ne­tin käyt­tä­jän on­gel­ma­na ei yleen­sä ole siel­tä löy­ty­vän tie­don puu­te, vaan sen mää­rän ra­joit­ta­mi­nen hyö­dyl­li­sim­piin link­kei­hin. Tie­toa voi­daan et­siä haku­ko­neil­la tai aihe­ha­ke­mis­toil­la. Ai­heen­mu­kai­set ha­ke­mis­tot ovat ih­mis­ten la­jit­te­le­mia. Haku­kone on puo­les­taan me­ka­nis­mi, jol­la ha­e­taan tie­to­ja haku­ro­bot­tien in­dek­soi­mis­ta tie­to­kan­nois­ta.

Haku­ko­nei­den iso­äi­ti­nä voi­daan pi­tää vuon­na 1993 ke­hi­tet­tyä Veronicaa. Graa­fi­sen läpi­mur­ron jäl­keen vuon­na 1994 il­mes­tyi maa­ta pit­kin liik­ku­van hä­mä­häk­ki­la­jin mu­kaan ni­met­ty Lycos. Seu­raa­va­na vuon­na toi­min­tan­sa aloit­ti Altavista, jon­ka haku­o­mi­nai­suu­det oli­vat en­nen­nä­ke­mät­tö­mät. Boolen ope­raat­to­rei­den li­säk­si Altavista osa­si hyö­dyl­li­sen link­ki­haun. Sil­lä voi­tiin et­siä myös newsviestejä sekä kuva­tie­dos­to­ja. Vuon­na 2000 il­mes­tyi Goog­le. Nimi on pe­räi­sin suur­ta lu­kua tar­koit­ta­vas­ta googol-sa­nas­ta, jos­sa on yk­kö­sen jäl­keen sata nol­laa. Ai­em­mis­ta poi­ke­ten Goog­le tal­len­si in­dek­soi­man­sa si­vut myös omil­le pal­ve­li­mil­leen. Täl­löin sivu saa­tiin nä­ky­viin, vaik­ka link­ki oli­si jo van­hen­tu­nut tai yh­teys kat­ken­nut. Goog­le in­dek­soi www-si­vu­jen li­säk­si myös pdf-, Word-, Excel- ja PowerPoint-tie­dos­to­ja sekä rtf-muo­toi­sia teks­ti­tie­dos­to­ja.

Kaik­ki haku­ko­neet toi­mi­vat sa­mal­la peri­aat­teel­la. Haku­ro­bot­ti te­kee tut­ki­mus­työ­tä liik­ku­en www-si­vul­ta toi­sel­le link­ke­jä seu­ra­ten. Si­vu­jen url-osoit­teet ja niil­lä esiin­ty­vät sa­nat poi­mi­taan tal­teen ja li­sä­tään val­ta­vaan tie­to­kan­taan. Tie­to­kan­nas­ta laa­di­taan haku­in­dek­si, jos­sa sa­nat ovat aak­kos­jär­jes­tyk­ses­sä. Sitä pa­rem­min in­dek­si py­syy ajan ta­sal­la, mitä use­am­min haku­ro­bot­ti käy tut­ki­mas­sa, onko van­ho­ja si­vu­ja muo­kat­tu tai onko pal­ve­luun il­mes­ty­nyt uu­sia si­vu­ja. Yleen­sä laa­jat kier­rok­set teh­dään noin kuu­kau­den vä­lein ja muul­loin tie­don­ha­kua var­ten tal­len­net­tu­ja tie­to­ja päi­vi­te­tään vain sa­tun­nai­ses­ti. Ai­kaa myö­ten kaik­kien www-si­vu­jen, joi­hin on link­ki jol­tain muul­ta si­vul­ta, pi­täi­si pää­tyä au­to­maat­ti­ses­ti haku­ro­bo­tin kä­sit­te­lyyn.

Haku­kone vä­lit­tää ky­se­lyn tie­to­kan­taan sen pe­rus­teel­la, mitä käyt­tä­jä kir­joit­taa www-si­vun haku­kent­tään. Tu­lok­se­na saa­daan lis­ta kai­kis­ta niis­tä si­vuis­ta, joil­la syö­te­tyt sa­nat esiin­ty­vät. Haun ra­jaa­mi­nen kan­nat­taa teh­dä huo­lel­la, sil­lä kym­me­nien tu­han­sien osu­mien läpi­käy­mi­nen on täy­sin mah­do­ton­ta. Par­haim­man hyö­dyn haku­ko­neis­ta saa, kun nii­den käyt­tö­oh­jei­siin tu­tus­tuu kun­nol­la. Boolen ope­raat­to­rit ovat oiva apu haku­lau­seen ra­ken­ta­mi­ses­sa. Haku­sa­nat kan­nat­taa kir­joit­taa pie­nil­lä kir­jai­mil­la, ell­ei ole eh­dot­to­man var­ma iso­jen kir­jai­mien käy­tös­tä.

Vaik­ka ole­tuk­se­na ovat pie­net kir­jai­met, pa­laut­taa haku myös isoil­la kir­jai­mil­la kir­joi­te­tut ver­si­ot ky­sei­ses­tä haus­ta. Sana­yh­dis­tel­mät on syy­tä lait­taa lai­naus­merk­kien si­sään. Esi­mer­kik­si ”Tar­ja Ha­lo­nen” ei ota ha­kuun erik­seen mu­kaan kaik­kia Tar­jo­ja ja erik­seen kaik­kia Ha­lo­sia. Päi­vi­tys­aika­tau­luis­ta ja in­dek­soin­nin laa­juus­ra­joi­tuk­sis­ta joh­tu­en kan­nat­taa ko­keil­la usei­ta eri haku­ko­nei­ta. Sa­ma­kaan haku­kone ei vält­tä­mät­tä tä­nään anna sa­maa lis­taa, joka saa­tiin sa­mal­la ky­se­lyl­lä ei­len. Haku voi­daan teh­dä myös ns. meta­haku­ko­neen kaut­ta, joka lä­het­tää ky­se­lyn yhtä ai­kaa use­al­le eri haku­ko­neel­le ja yh­dis­tää tu­lok­set.

Haku­ko­nei­den pa­rem­muus mää­räy­tyy pal­jol­ti sen pe­rus­teel­la, mi­ten hy­vin ne osaa­vat ero­tel­la tär­ke­ät si­vut vä­hem­män tär­keis­tä. Tu­los­lis­ta pi­tää ra­ken­taa si­ten, että hyö­dyl­li­sim­mät si­vut ovat sen alus­sa. Hyö­dyl­li­syy­den ar­vi­oin­ti ei kui­ten­kaan ole help­poa. Jos hyö­dyl­li­syys mää­ri­tel­lään sa­no­jen esiin­ty­mis­ker­to­jen pe­rus­teel­la, voi­vat si­vu­jen te­ki­jät mo­nis­taa avain­sa­no­ja use­aan ker­taan nos­taak­seen oman si­vun­sa si­joi­tus­ta lis­tal­la. To­den­mu­kai­sem­pi tu­los saa­daan pai­not­ta­mal­la si­vun url-osoit­tees­sa sekä title- ja meta-ken­tis­sä esiin­ty­viä haku­sa­no­ja. En­sim­mäi­sil­le teks­ti­ri­veil­le voi­daan myös aset­taa mui­ta suu­rem­pi pai­no­arvo. PageRank-me­ne­tel­mäs­sä si­vu­jen tär­keys mää­räy­tyy sii­hen osoit­ta­vien link­kien mää­rän mu­kaan.

Haku­pal­ve­lut ei­vät syn­ny il­man ko­vaa työ­tä ja suu­ria in­ves­toin­te­ja. Esi­mer­kik­si Goog­len tie­to­kan­nan pyö­ri­mi­seen vaa­di­taan erit­täin no­pe­at verk­ko­yh­tey­det ja noin 10 000 Li­nux-pc:tä. Pii­laak­sos­sa si­jait­se­van Goog­len pal­ve­luk­ses­sa on 400 hen­ki­löä, jois­ta 50 on suo­rit­ta­nut toh­to­ri­ta­son tut­kin­non. Haku­ko­neet ra­hoit­ta­vat toi­min­taan­sa muun mu­as­sa verk­ko­mai­non­nal­la tar­jo­ten sii­hen ai­van uu­sia mah­dol­li­suuk­sia. Ne ni­mit­täin tie­tä­vät, mis­tä käyt­tä­jät ovat kiin­nos­tu­nei­ta. Esi­mer­kik­si digi­tele­vi­si­oi­ta myy­vä lii­ke voi os­taa oman il­moi­tuk­sen­sa nä­ky­mään aina, kun käyt­tä­jä on syöt­tä­nyt haku­kent­tään sa­nan digi­tele­vi­sio.

Pa­ras­kaan haku­kone ei kui­ten­kaan löy­dä kuin mur­to-osan ne­tin si­säl­lös­tä. Ta­val­lis­ten haku-ko­nei­den ulot­tu­mat­to­miin jää­viä si­vu­ja kut­su­taan sy­väk­si we­bik­si (deep web). Kos­ka si­vut ei­vät ole html-muo­dos­sa eikä nii­hin ole link­ke­jä, haku­ro­bo­tit ei­vät pää­se nii­hin kä­sik­si. Esi­mer­kik­si edus­kun­nan tai Finlexin laa­jat tie­to­pal­ve­lut edus­ta­vat Suo­mes­sa sy­vää webbiä. Näi­den si­säl­töä pää­see lu­ke­maan vain te­ke­mäl­lä ky­se­lyn pal­ve­lun oman haku­ko­neen kaut­ta. Sy­vän we­bin ar­vi­oi­daan ole­van jopa yli 500 ker­taa haku­ko­nei­den nä­ke­mää webbiä suu­rem­pi.

Avoin ma­te­ma­tiik­kaTi­las­to­ja ja to­den­nä­köi­syyk­siä4.4.2013