e J o u r
FORSIDE
KONTAKT OS
MAILLISTE
ARKIV

Om eJour

Søgemaskiner når 3. generation

Søgemaskinerne forsøger nu at gætte, hvad du leder efter, og inkluderer bl.a. nyheder i søgeresultaterne

Af Børge Kristensen, borge@inet.uni2.dk, der er medlem af eJours redaktionsgruppe


Søg på ordet BushAltaVista, og blandt de øverste søgeresultater vil du finde nyheder om USA's præsident Bush. Søg på digital camera, og du vil blive henvist til en sammenligning af priser og funktioner for over 200 digitale kameraer.

Søgemaskinerne er nået til generation 3. Når du søger på 'Bush', gætter søgemaskinen, at du nok er interesseret i nyheder om George W. Når du søger på 'digital camera', konkluderer den, at du gerne vil købe sådan et.

Også Google er blevet så intelligent, at den linker til nyheder fra flere forskellige medier, hvis du søger på bush, men ikke hvis du søger på tree.

Generation 1

Den første generation af søgemaskiner tog kun hensyn til hyppigheden af de ord, der var brugt på en webside, for at bestemme dens relevans for en bestemt søgning. Det medførte fænomenet search engine spamming, hvor forfattere af websider eksempelvis skrev sex sex sex sex sex sex sex sex .... med hvid skrift på hvid baggrund i bunden af alle deres websider for at blive placeret i toppen af søgeresultaterne.

I dag er der stort set ingen søgemaskiner tilbage, der udelukkende benytter sig af førstegenerations-metoden.

Generation 2

Anden generation af søgemaskiner kender vi fra Google. Denne teknologi tager ikke blot hensyn til ord på en webside men også til off-the-page ranking criteria -- oftest antallet af links, der henviser til den pågældende side. Men det kan også være gennemkliks-raten, som søgemaskinens brugere leverer til en bestemt webside fra søgeresultaterne. Det er for eksempel tilfældet med søgemaskinen Direct Hit, der blandt andre leverer resultater til HotBot.

Google tager i øvrigt ikke blot hensyn til antallet af links, når den skal bestemme, hvor højt en bestemt side skal ligge i et givent søgeresultatet. Hvis et site som Yahoo, der har mange links til sig selv, linker til eJour, tæller det mere, end hvis et relativt ukendt, privat website gør det.

Flere undersøgelser tyder på, at Google er journalisters foretrukne søgemaskine, og det er imponerende, hvor gode resultater Google giver; selv ved meget ustrukturerede forespørgsler. Jeg har brugt Google til at finde et videnskabssite, som jeg ikke kunne huske navnet på, men kun dets slogan -- og til at finde tilbage til en meget specialiseret side om at forfatte gode ALT-attributter til IMG-tag'en i HTML-sproget. I begge tilfælde henviste Google til den rigtige side allerøverst i sit søgeresultat, selvom jeg kun havde søgt på science behind the news og alt text.

Google er så sikker på sine egne fortræffeligheder, at søgemaskinen ud over den almindelige søgeknap også har en knap med teksten 'I'm Feeling Lucky'. Indtaster du et søgeord og klikker på den, springer du søgeresultatet over og kommer direkte til den webside, som Google peger på som bedste bud.

Generation 3

En tredje-generations-søgemaskine forsøger at gætte, hvad det er, du leder efter, når du søger.

Mange netbrugere starter altid med at indtaste et par ord i en søgemaskine, når de skal finde noget på nettet -- uanset om det er en nyhed, de lige har hørt i radioen, eller et produkt, de vil købe. En søgemaskine er egentlig et forkert værktøj at bruge til den slags informationer, men tredje-generations-teknologien gør søgemaskinerne til en elektronisk schweizerkniv, der kan løse enhver opgave.

Tredje-generations-teknologien tager kampen op mod 'det usynlige web'. Firmaet BrightPlanet offentliggjorde i juli 2000 en undersøgelse, der indikerede, at langt størstedelen af alle informationer på nettet lå gemt i databaser, opslagsværker og nyhedstjenester, som søgemaskinerne ikke kunne nå. 'The deep web' var 500 gange større end den overflade, som søgemaskinerne kender til. (Et godt eksempel på dette er, at dit telefonnummer nemt kan findes ved at søge på Krak, men søger du dit navn på Google, Jubii eller AltaVista, finder søgemaskinerne ikke det opslag hos Krak, der indeholder dit navn, din adresse og dit telefonnummer).

Ved at inkludere nyhedssøgninger og oplysninger i prisindekser i sine søgeresultater har søgemaskinerne taget det første spadestik ned i nettets dybe lag, der hidtil har været utilgængelige for dem.

Søgemaskinen, der måske bliver bedre end Google

Den mest lovende tredje-generations-søgemaskine er ProFusion.

ProFusion søger ikke blot på tværs af en række af webbets søgemaskiner, den laver også søgninger i en stor mængde leksika, opslagsværker og databaser.

Søg på Copenhagen, og ProFusion tager så stilling til, hvilke opslagsværker det er hensigtsmæssigt at benytte sig af for netop dette søgeord, nemlig leksika, kort, rejseguider og vejrudsigter.

Hvis du søger på Star Wars, bliver du henvist til en database med filmanmeldelser, og søger du på Nokia, bliver du henvist til teknologinyheder om firmaet.

Hvis den endelige version af ProFusion bliver lige så god, som førsteudgaven vækker forhåbninger om, har vi inden længe ikke blot en søgemaskine, der har adgang til radikalt flere websider end de 1,3 milliarder, der er i Googles indeks. Den vil muligvis også kunne zoome direkte ind på opdateret kvalitetsindhold, som vi hidtil ikke har kendt eksistensen af, fordi de fleste af webbets mere end 500 milliarder sider har været utilgængelige, med mindre vi tilfældigvis har kendt til specialiserede søgeredskaber og databaser på netop det område, vi har søgt informationer inden for.


Bemærk:
Vi prøver at linke præcist. Men konsekvensen kan af og til være, at brugerne møder et dødt link, fordi stoffet siden er blevet flyttet til en ny plads på netstedet. Så må I prøve at lede lidt på stedet.