Semalt: Sådan skrabes en webside ved hjælp af Google Chrome-udvidelse

En skærmskraber er et script, der læser sider og uddrager nyttige oplysninger fra internettet. Skrabning af skærme er den ultimative løsning til at få rigtige data fra websteder og websider til Microsoft Excel. Google Chrome Extension Scraper er et kraftfuldt skrabeværktøj, der fungerer på både Windows og Mac OS.

Hvorfor Google Chrome Extension Scraper?

Google Chrome-udvidelsesskraber er et kraftfuldt skrabsværktøj, der går gratis i Chrome Web Store. Dette skrabeværktøj installeres i Chrome-browseren som et plugin. Plugin giver bloggere og marketingfolk mulighed for at hente data fra websider ved at højreklikke på et element. '' Skrabe lignende '' skal dukke op på din skærm, hvis du højreklikker på et element.

Introduktion til XPaths

XPath er et programmeringssprog, der bruges til at finde afgørende oplysninger i XML-strukturer. HTML-filen er et fremragende eksempel på en XML-struktur. XPath bruges ofte til at vælge målrettede noder. I denne sammenhæng vil XPaths blive brugt til at bestemme teksten, der skal ekstraheres på en webside. XPaths hjælper også med at identificere partinavne og telefonnumre til de svenske parlamentsmedlemmer.

Brug af Google Chrome's skraber til at få adgang til adresseoplysninger om 349 svenske parlamentsmedlemmer

Med Chromes skraber er udtrækning af oplysninger fra en webside ikke kun enkelt, men også fantastisk. Du vil nyde processen og selve teknikken.

Hjemmesiden viser alle svenske medlemmer og deres adresser. For at komme i gang skal du højreklikke på en hvilken som helst MP og vælge "Skrabe lignende." Du skal se følgende skærm på din skærm.

Trin for trin guide til, hvordan man scraber websiden

Hvis du højreklikker på en MP og vælger "Inspicer element", oprettes en alfabetisk liste under "" grid_6 alpha omega search result container clist ". To trin vil blive brugt til at skrabe denne webside. Trin et vil involvere valg af tags, der består af MP-data med en XPath. Trin to involverer valg af bestemte dele af data, såsom partinavne, navn og telefonnummer, og organiser dataene i kolonner.

Trin 1

Grav dybere ned i HTML-strukturen og hold elementerne intakte. Peg tags for at identificere antallet af tags, der svarer til elementer i din struktur. Identificer det sidste tag, der består af de målrettede data. Kør en XPath-test på strukturen ved at klikke på "Skrab."

En liste bestående af 349 rækker vises på din skærm. 349 repræsenterer det samlede antal af de svenske parlamentsmedlemmer.

Trin 2

Opdel de præsenterede data i kolonner. Kontroller HTML-koden på den webside, du har brugt. I dette tilfælde er de stykker, der skal udvindes, i øjeblikket fremhævet med gult. Indsæt XPaths i det oprettede kolonnefelt, og klik på "Skrap" for at køre plugin.

Hvis du har grundlæggende kendskab til XPaths, er det ikke en hektisk opgave at forstå programmering for dig. Ovenstående fremhævede trin guider dig, hvordan du scraber websiden. Hvis du arbejder med at skrabe flere websider, skal du have programmeringsevner.