Hive info ud af et website?

Tags:    php

Hej
Sidder og prøver at lære mig selv php, ved at prøve en masse forskellige ting af.

Men en ting jeg har funderet over er hvordan man kan hive info ud af en ekstern hjemmeside og så gemme det data i en database for at få det vist på ens egen side? Bare rolig er lovligt info der skal hentes ud.

Håber på nogle links eller guider eller noget?

Takker



4 svar postet i denne tråd vises herunder
3 indlæg har modtaget i alt 3 karma
Sorter efter stemmer Sorter efter dato
Hvis det site du skal hente info fra, ikke har et tilgængeligt api, skal du igang med web-scraping. Det kan du gribe an på flere måder, men grundlæggende handler det om at du henter sidens html-kode i dit php-script, og så får du på den ene eller anden måde, udtrukket den data du skal bruge. En måde at udtrække data på, er ved at gå igang med en masse regular expressions, men det bliver hurtigt lidt gustent :) Et (synes jeg) bedre alternativ, er at bruge et bibliotek der er lavet til at hente info ud af html-kode. F.eks. http://simplehtmldom.sourceforge.net

Jeg har ikke selv brugt biblioteket, men det virker vist meget fornuftigt. For at komme igang kan du evt. læse deres eksempel "Scraping Slashdot!"

Bemærk dog, at selv om du bruger et bibliotek, er din kode helt afhængig af strukturen i det andet sites html-kode, så hvis det site du henter info fra, ændrer i deres html-kode, vil du evt. skulle opdatere dit script.

Hvis du vil vide mere kan du søge på "web scraping php"...



En andet godt værktøj til at udtrække data fra websites som ikke har et API er Yahoo Pipes som kan findes her: http://pipes.yahoo.com/pipes/

Der er også en række tutorials/guides på deres site til at komme i gang :)



Indlæg senest redigeret d. 28.02.2011 20:32 af Bruger #10647
Jeg har lavet noget forholdsvis simpelt der der checker mine links aftaler i forbindelse med linkbuilding.

Der har jeg brugt curl, strpos og nogen if cases.



Ja ved nærmere undersøgelse, så alt det info jeg skal bruge fra andre websites er tilgængelig i form af api/feeds på den ene eller anden måde, hvilket jo så må være den nemmeste måde at gøre det på.

Så det med web scraping lyder lige lovlig avanceret, så nogle gode links/artikler/guider til hvordan man hiver info ud fra feeds af?

På forhånd tak



t