php - Hive info ud af et website? - Udvikleren.dk - Programmering, webdesign og grafik

Tags: php

Bruger #16445 @ 26.02.11 20:58

Hej
Sidder og prøver at lære mig selv php, ved at prøve en masse forskellige ting af.

Men en ting jeg har funderet over er hvordan man kan hive info ud af en ekstern hjemmeside og så gemme det data i en database for at få det vist på ens egen side? Bare rolig er lovligt info der skal hentes ud.

Håber på nogle links eller guider eller noget?

Takker

4 svar postet i denne tråd vises herunder
3 indlæg har modtaget i alt 3 karma

Sorter efter stemmer Sorter efter dato

Bruger #13559 @ 26.02.11 22:31

198

Hvis det site du skal hente info fra, ikke har et tilgængeligt api, skal du igang med web-scraping. Det kan du gribe an på flere måder, men grundlæggende handler det om at du henter sidens html-kode i dit php-script, og så får du på den ene eller anden måde, udtrukket den data du skal bruge. En måde at udtrække data på, er ved at gå igang med en masse regular expressions, men det bliver hurtigt lidt gustent

Et (synes jeg) bedre alternativ, er at bruge et bibliotek der er lavet til at hente info ud af html-kode. F.eks. http://simplehtmldom.sourceforge.net

Jeg har ikke selv brugt biblioteket, men det virker vist meget fornuftigt. For at komme igang kan du evt. læse deres eksempel "Scraping Slashdot!"

Bemærk dog, at selv om du bruger et bibliotek, er din kode helt afhængig af strukturen i det andet sites html-kode, så hvis det site du henter info fra, ændrer i deres html-kode, vil du evt. skulle opdatere dit script.

Hvis du vil vide mere kan du søge på "web scraping php"...

Bruger #10647 @ 28.02.11 20:31

233

En andet godt værktøj til at udtrække data fra websites som ikke har et API er Yahoo Pipes som kan findes her: http://pipes.yahoo.com/pipes/

Der er også en række tutorials/guides på deres site til at komme i gang

Indlæg senest redigeret d. 28.02.2011 20:32 af Bruger #10647

Bruger #15912 @ 01.03.11 11:20

Jeg har lavet noget forholdsvis simpelt der der checker mine links aftaler i forbindelse med linkbuilding.

Der har jeg brugt curl, strpos og nogen if cases.

Bruger #16445 @ 26.02.11 22:44

110

Ja ved nærmere undersøgelse, så alt det info jeg skal bruge fra andre websites er tilgængelig i form af api/feeds på den ene eller anden måde, hvilket jo så må være den nemmeste måde at gøre det på.

Så det med web scraping lyder lige lovlig avanceret, så nogle gode links/artikler/guider til hvordan man hiver info ud fra feeds af?

På forhånd tak

Hive info ud af et website?

Karma barometer (30 dage)

Modtaget

Givet

Favorit hos
Forum tråde
Artikler