torstaina, syyskuuta 28, 2006

Iso luku

Luin piruuttani paperin Page at al (1998). Stanfordin laitossarjassa vuonna 1998 julkaistu paperi kuvaa kahden opiskelijan kehittämän PageRank-lähestymistavan www-sivujen automaattiseen järjestämiseen asiasanojen perusteella. Lähestymistavan todentamiseksi opiskelijat kehittivät kaksi esimerkkityökalua, joista toinen, "googleksi" nimetty työkalu hyödyntää lähestymistapaa verkkosivujen tekstiperustaisessa haussa. Paperi on ihan mukavasti kirjoitettu ja itse asiassa kelvollinen ja kiinnostava esimerkki ohjelmistotekniikan alan tutkimuspaperista niille, jotka eivät ole tällaisia papereita lukeneet. Laitosraportinomaisuus näkyy siinä, että esitys ei ole erityisen tiivis ja siksi suhteellisen helposti omaksuttavissa.

Vaikka kyseessä olikin ainoastaan akateeminen työkalu, pojat kuitenkin kiinnittivät jonkinlaista huomiota suorituskykyyn. Tuonaikainen internetin 75 miljoonan URLin kokoinen sivuavaruus indeksoitui viidessä tunnissa. Tätä heittoa on tullut käytettyä muutaman kerran eräänkin tutkimusalustan päälle rakennettujen eräidenkin työkalujen suorituskykyä arvioitaessa.

Pojat päättivät kehittää työkalua hieman pidemmälle ja nyt niillä on taakisti massii. Ja suurin osa ihmisistä googlettaa niin perkeleesti päivittäin. Firman motto on "älä ole tuhma" (don't be evil), ja vaikka olenkin kyyninen ja synkkä, heille olen valmis nostamaan hattua. Harvassa ovat nimittäin firmat joiden työkalut ovat lähes järjestäen erittäin nopeita, toimivia ja yksinkertaisia -- ja ilmaisia. Bisnesmallissa rahat pumpataan mainostajilta.

Poikien 8000 työntekijän laumasta puolen tusinaa valittua kävi pitämässä esitelmän ja rekrytilaisuuden yliopistolla. Kävin kuuntelemassa. Vaikutelma toi erinäisiä tekniikan alan massaluentomuistoja mieleen. Lähes yhtä nörtin oloista laumaa, lähes yhtä vähän naisia. Kiinalaisia oli noin 3/5 koko suuresta salillisesta. Google jakoi ilmaista pizzaa ja kolaa, ja ryysis oli kuin rock-konsertissa: yritin mennä jonoon mutta perusopiskelijoita ryntäsi kyynärpäät korkealla oikealta ja vasemmalta ohi hamstraamaan 3-4 viipaletta mieheen, ja suorastaan tappelivat siitä kuka saa eniten ilmaista apetta mukaansa. Kaiken mitä tiesin pohjoisamerikkalaisesta opiskelukulttuurista opin PhD-comicsista ja ilmainen ruoka taitaa olla yksi tärkeimpiä moottoreita.

Tajusin esityksen aikana, että indeksoitujen verkkosivujen valtaisan määrän lisäksi Googlella on käytettävissään toinen, lähes yhtä merkittävä tietovarasto: tieto tehdyistä hauista. Kun tätä tietomassaa on aivan käsittämätön määrä, voidaan unohtaa upeiden ja vahvojen yksilöpyksilöiden henkilökohtaiset preferenssit ja sen sijaan johtaa ilmaiseksi mielenkiintoisia suhteita massojen käyttäytymisen perusteella.

TTY:n opintorekisteristä saa nykyään kätevästi listan kurssisuorituksista sähköpostina. Jos siis sattuisi olemaan tarvetta.

L. Page, S. Brin, R. Motwani and T. Winograd: "The PageRank Citation Ranking: Bringing Order to the Web", Stanford Digital Library Technologies Project, 1998. On-line at http://dbpubs.stanford.edu:8090/pub/1999-66