Hvordan man... hvordan virker... hvordan kan...

Hvordan virker Google og de andre søgemaskiner?


Hvordan Google virker, og hvordan Google holder styr på alle de data der indsamles af søgemaskinen.

Hvordan virker Google, Yahoo, Bing og alle de andre søgemaskiner?

Hvordan ved søgemaskinen alt det den ved? Og hvordan sorterer søgemaskinen i al den data? 

 

Søgemaskiner indsamler og indekserer hjemmesider

Søgemaskiner har lavet små programmer, robotter, til at indsamle data. Disse små programmer kaldes undertiden for spiders (edderkopper), fordi de kravler gennem nettet for at opsnappe informationer. Googles edderkop kaldes GoogleBot, Yahoo's kalder søgemaskinen for Slurp. Alle de informationer som edderkopperne kommer tilbage med fra internettes milliarder af hjemmesider indekseres og analyseres i søgemaskinernes datacentre.

 

Søgerobotterne gennemgår ikke bare internettet tilfældigt for at finde hjemmesider. Når Google besøger et website indsamler de hyperlinks, som de tager med hjem til datacentret. De hyperlinks der bliver indsamlet til søgemaskinrne bliver robotten så sendt ud for at indsamle information fra. Hvis den så igen finder nye links, bliver den sendt ud til disse. Søgemaskinen henter på denne måde én side af gangen, og skaber et indeks over relationerne mellem siderne. På den måde kan søgemaskinen optimere sit arbejde, fordi den kan vælge hvor ofte en bestemt side besøges. En hjemmeside som sjældent ændres behøver søgemaskinerne ikke bruge maskinkraft på at gennemtrævle, mens sider på websitet der ofte opdateres også oftere har brug for et besøg fra Google, Yahoo, Bing (som før hed Live) eller en af de andre søgemaskiner.

 

Hvordan virker Google-indeksering?  

Når informationerne om hjemmesiderne er hentet ind, bliver de sorteret i et større indeks. Her analyserer søgemaskinerne de indsamlede hjemmesider for at finde ud af hvilket emne siderne omhandler, og for at skabe et overblik over de nøgleord (keywords) som siden indeholder. Man kan sige at data bliver vendt på hovedet. Det er nu en liste over nøgleord, hvor hvert nøgleord peger på en række sider. Det gør at søgemaskinen kun skal gennemgå sin egen liste over nøgleord, hver gang man søger, i stedet for at skulle gennemgå et utal af hjemmesider hver gang nogen søger. På den måde kan det lade sig gøre for søgemaskinerne lynhurtigt at svare på en søgning ved at angive de sider, som skønnes at indeholde relevant indhold på præcis de nøgleord som brugeren har indtastet i søgefeltet.

 

Hos f.eks. Google er det gigantiske indeks delt ud i et netværk med hundredevis af computere. Det ligger altså ikke i én super-computer. De enkelte computere kan så behandle hver en del af søgningen. På den måde bliver der søgt på flere dele af indekset på samme tid og det gør at søgemaskinen kan levere et svar til brugeren på ganske få dele af sekunder.

 

Hvordan ranker søgemaskinerne så indholdet?

Google bruger mange forskellige måder at ordne indhold efter relevans. En af de mest kendte er PageRank algoritmen. En sådan algoritme kan vurdere hvor mange links der er til en given webside fra andre sider, og kvaliteten af disse sider. På den måde forsøger søgemaskinerne at evaluere både indholdets værdi i sig selv, og den værdi andre brugere på nettet tillægger indholdet.

 

Forespørgslen har også betydning. F.eks. vil det have betydning om søgestrengen matcher ordstillingen på en given hjemmeside. Hvis to på hinanden følgende ord matcher brugerens søgning, vil den hjemmeside der kan matche søgningen præcist opnå en højere rangering i søgemaskinernes resultater også selvom hvert ord ikke findes flere gange i hjemmeside-teksten.

 

Det handler altså for søgemaskinerne om at levere de resultater, som er mest relevante for brugeren og giver de bedste svar.

 

Google er en søgemaskine

Google virker, som de fleste søgemaskiner, ved at kravle på nettet. Den kravler, kort fortalt, fra side til side på internettet, og gemmer relevant information. Herefter behandler den informationen ved hjælp af en række hemmeligholdte algoritmer, der ud fra en lang række af faktorer placerer siden i de informationslister, der sætter Google i stand til at vise relevante hjemmesider når brugeren har indtastet et bestemt søgeord.

 

Netop Google blev for få år siden altdominerende. Det skyldes kombinationen af det enkelte layout og søgemaskinens evnen til at levere meget præcis relevans på søgeord. Mange andre søgemaskinerne har i tidens løb siddet på tronen, og domineret markedet. Søgemaskinen Yahoo var en af de største i starten af årtusindet, og AltaVista havde en overgang også en stor brugerskare, da den leverede de mest præcise resultater.

 

Når man ser på søgemaskinernes historie, bliver det nemmere at forestille sig, at Google om nogle år kan blive erstattet af et nyere og bedre alternativ. Hvordan søgemaskinerne da ser ud, må fremtiden vise.

google, hjemmesider - Hvordan.dk -