Det her er fremgangsmåden for at lave det der hedder en "crawler" som søger på folks hjemmesider. bemærk at dette kun er oversigt over hvordan du skal gribe det an da man kan lave mange slags algoritmer for at lave en crawler...
Ideen med en crawler er, at du faktisk går ind på siden vha. en http forbindelse, og henter al indholdet af filen ind i en streng. husk på at du som bruger og administrator ikke ser en pind.
Når du har denne streng så skal du først og fremmest finde links på den side, dvs. du skal kunne komme videre fra den side du har angivet. Dette gør du nemmest vha. regular expressions - her får du smidt alle url's i hovedet og kan derefter, på samme måde som man traverserer en mappe på computeren, traversere igennem disse links med en rekursiv funktion. Når du har hentet alle linksne er du ikke færdig med siden endnu. Du skal igen bruge regualr exressions til at hente nøjagtig den information ud du ønsker. dvs. metatags osv... alt dette skal gennems i en database så folk senere kan hente det frem ved at søge.
Herefter er det blot at tage den næste url og det samme skal altså ske på næste side.
en oversigt over det, kan se sådan ud
1) Gent dokument via http ned i en streng
2) Gennemsøg dette dokument for metatags og anden info du vil ha' med f.eks. antal links
3) Gennemsøg for links så du kan komme videre
4) Gem fundne data i en database
5) hop videre til næste side via et af de links du fandt på forrige side
Håber det får dig startet!
Casper