Η Semalt μοιράζεται έναν εύκολο τρόπο εξαγωγής πληροφοριών από ιστότοπους

Το Web Scraping είναι μια δημοφιλής μέθοδος απόκτησης περιεχομένου από ιστότοπους. Ένας ειδικά προγραμματισμένος αλγόριθμος έρχεται στην κεντρική σελίδα του ιστότοπου και αρχίζει να ακολουθεί όλους τους εσωτερικούς συνδέσμους, συγκεντρώνοντας τους εσωτερικούς χώρους των div που έχετε ορίσει. Ως αποτέλεσμα - έτοιμο αρχείο CSV που περιέχει όλες τις απαραίτητες πληροφορίες που βρίσκονται σε αυστηρή σειρά. Το CSV που προκύπτει μπορεί να χρησιμοποιηθεί για το μέλλον δημιουργώντας σχεδόν μοναδικό περιεχόμενο. Και γενικά, ως πίνακας, τέτοια δεδομένα έχουν μεγάλη αξία. Φανταστείτε ότι ολόκληρη η λίστα προϊόντων ενός καταστήματος κατασκευών παρουσιάζεται σε έναν πίνακα. Επιπλέον, για κάθε προϊόν, για κάθε τύπο και μάρκα του προϊόντος, συμπληρώνονται όλα τα πεδία και τα χαρακτηριστικά. Κάθε copywriter που εργάζεται για ένα ηλεκτρονικό κατάστημα θα χαρεί να έχει ένα τέτοιο αρχείο CSV.

Υπάρχουν πολλά εργαλεία για την εξαγωγή δεδομένων από ιστότοπους ή απόξεση ιστού και μην ανησυχείτε εάν δεν είστε εξοικειωμένοι με οποιεσδήποτε γλώσσες προγραμματισμού, σε αυτό το άρθρο θα δείξω έναν από τους ευκολότερους τρόπους - χρησιμοποιώντας το Scrapinghub.

Πρώτα απ 'όλα, μεταβείτε στο scrapinghub.com, εγγραφείτε και συνδεθείτε.

Το επόμενο βήμα για τον οργανισμό σας μπορεί να παραλειφθεί.

Στη συνέχεια, μεταβείτε στο προφίλ σας. Πρέπει να δημιουργήσετε ένα έργο.

Εδώ πρέπει να επιλέξετε έναν αλγόριθμο (θα χρησιμοποιήσουμε τον αλγόριθμο "Portia") και θα δώσουμε ένα όνομα στο έργο. Ας το πούμε κάπως ασυνήθιστο. Για παράδειγμα, "111".

Τώρα μπαίνουμε στο χώρο εργασίας του αλγορίθμου όπου πρέπει να πληκτρολογήσετε τη διεύθυνση URL του ιστότοπου από τον οποίο θέλετε να εξαγάγετε δεδομένα. Στη συνέχεια, κάντε κλικ στο "New Spider".

Θα μεταβούμε στη σελίδα που θα χρησιμεύσει ως παράδειγμα. Η διεύθυνση ενημερώνεται στην κεφαλίδα. Κάντε κλικ στο "Σχολιασμός αυτής της σελίδας".

Μετακινήστε τον κέρσορα του ποντικιού σας προς τα δεξιά, ο οποίος θα εμφανίσει το μενού. Εδώ μας ενδιαφέρει η καρτέλα "Extracted item", όπου πρέπει να κάνετε κλικ στο "Επεξεργασία στοιχείων".

Ωστόσο, εμφανίζεται η κενή λίστα των πεδίων μας. Κάντε κλικ στο "+ Field".

Όλα είναι απλά εδώ: πρέπει να δημιουργήσετε μια λίστα πεδίων. Για κάθε στοιχείο, πρέπει να εισαγάγετε ένα όνομα (σε αυτήν την περίπτωση, έναν τίτλο και περιεχόμενο), να καθορίσετε εάν αυτό το πεδίο απαιτείται ("Απαιτείται") και αν μπορεί να διαφέρει ("Ποικίλλει"). Εάν ορίσετε ότι ένα στοιχείο "απαιτείται", ο αλγόριθμος απλώς παραλείπει σελίδες όπου δεν θα μπορεί να συμπληρώσει αυτό το πεδίο. Εάν δεν έχει επισημανθεί, η διαδικασία μπορεί να διαρκέσει για πάντα.

Τώρα απλώς κάντε κλικ στο πεδίο που χρειαζόμαστε και υποδείξτε τι είναι:

Ολοκληρώθηκε? Στη συνέχεια, στην κεφαλίδα του ιστότοπου κάντε κλικ στο "Αποθήκευση δείγματος". Μετά από αυτό, μπορείτε να επιστρέψετε στο χώρο εργασίας. Τώρα ο αλγόριθμος ξέρει πώς να πάρει κάτι, πρέπει να ορίσουμε μια εργασία για αυτό. Για να το κάνετε αυτό, κάντε κλικ στο "Δημοσίευση αλλαγών".

Μεταβείτε στον πίνακα εργασιών, κάντε κλικ στο "Run Spider". Επιλέξτε ιστότοπο, προτεραιότητα και κάντε κλικ στο "Εκτέλεση".

Λοιπόν, το ξύσιμο βρίσκεται τώρα σε εξέλιξη. Η ταχύτητά του εμφανίζεται δείχνοντας τον κέρσορα στον αριθμό των αιτημάτων που στάλθηκαν:

Η ταχύτητα ετοιμασίας χορδών σε CSV - δείχνοντας έναν άλλο αριθμό.

Για να δείτε μια λίστα με ήδη κατασκευασμένα αντικείμενα, απλώς κάντε κλικ σε αυτόν τον αριθμό. Θα δείτε κάτι παρόμοιο:

Όταν τελειώσει, το αποτέλεσμα μπορεί να αποθηκευτεί κάνοντας κλικ σε αυτό το κουμπί:

Αυτό είναι! Τώρα μπορείτε να εξαγάγετε πληροφορίες από ιστότοπους χωρίς καμία εμπειρία στον προγραμματισμό.