phpQuery data crawler

Tags:    php

Hej Udviklere!

Jeg er begyndt at lege lidt med at crawle data fra forskellige sider, men er stødt på et problem som jeg ikke kan finde en løsning på sådan uden videre.

Lige nu sidder jeg og vil hente noget data fra Boliga om nogle forskellige ejerlejligheder, og jeg kan fint hente den data jeg har brug for, men det er desværre ikke alle lejlighedernes "datamønstrer" der er ens.

http://www.boliga.dk/map.aspx?id=83
http://www.boliga.dk/map.aspx?id=724557

F.eks. er der på den ene side et felt der hedder etage, og det er der ikke på den anden.

Jeg er gået fuldstændig død, og aner ikke hvordan jeg kommer videre, hidtil har jeg identificeret dem ved at finde alle <tr> inde i en <tbody> og tage den sidste <td> i hver af disse <tr>'ere og smide dataen ind i et array, men når dataen ikke er struktureret på samme måde har får jeg problemer!

Håber I kan hjælpe! :B

Mvh. Andreas Voss



5 svar postet i denne tråd vises herunder
2 indlæg har modtaget i alt 11 karma
Sorter efter stemmer Sorter efter dato

Jeg er gået fuldstændig død, og aner ikke hvordan jeg kommer videre, hidtil har jeg identificeret dem ved at finde alle <tr> inde i en <tbody> og tage den sidste <td> i hver af disse <tr>'ere og smide dataen ind i et array, men når dataen ikke er struktureret på samme måde har får jeg problemer!


prøv at kig lidt på simple html dom, hjalp en her engang, måske du kan genbruge noget af det.
http://www.udvikleren.dk/forum/35726/fjern-spaces-i-php/#msg170153

på den måde kan du løbe alle TR's ignnem, så det gør ikke noget hvis etage mangler da dit array bliver lavet ud fra de data der er på siden, så findes etage bare ikke i arrayet.

hvis du skal bruge etage kan du indsætte den i dit array hvis den ikke findes efter du har hentet data fra siden.
noget ala:
Fold kodeboks ind/udPHP kode 


edit;
overså lige du brugte phpQuery som der stod i overskriften, men du kan stadig bruge samme princip vil jeg tro, har ik noget kenskab til phpQuery



Indlæg senest redigeret d. 13.04.2012 15:16 af Bruger #3427
Offtopic: Har du undersøgt om du må crawle deres side og hente indhold?



Jeg går ud fra at jeg godt må crawle det indhold de ikke har valgt at 'disallowe' i deres robots.txt. :)

http://www.boliga.dk/robots.txt

Sorry for dobbelt post!



Indlæg senest redigeret d. 02.04.2012 11:57 af Bruger #8884
Jeg har udviklet et system til at lave en crawler i.
Den er ikke helt klar til generelt salg, men er fuldt funktionsdygtig og bliver lige nu brugt til at indsamle priser på airplaymusic.dk.

Den foreløbige dokumentation kan du finde her.
http://sleipner.drupalgardens.com/content/manual-introduction

i øjeblikket arbejder jeg på en "Creator/Studio" brugerflade, som gerne skulle gøre det let at lave nye "scripts".

Har i øvrigt også tidligere brug mit system til at hente bolig data ned med fra de foskellige mægleres sider, såsom Home, Nybolig etc ...

Skriv evt. til nitram@lutken.dk

-Martin




Indlæg senest redigeret d. 12.04.2012 15:58 af Bruger #13823
t