Web scraping avec Octave
Au cours de cette leçon, je vais vous dévoiler la manière d'effectuer du web scraping sur Octave, en vous guidant à travers des exemples pratiques.
Le concept de web scraping renvoie à la technique qui consiste à ouvrir, lire, puis sauvegarder le contenu d'une page web dans une variable ou un fichier de votre ordinateur, tout ceci orchestré par un script.
Pour accéder à et télécharger une page web, la fonction urlread() est à votre service. Voici comment la mettre en œuvre :
>> page=urlread('https://www.eage.it')
Elle permet de capter le contenu en ligne d'une page web pour ensuite le conserver au sein de la variable Octave dénommée `page`.
En alternative, la fonction urlwrite() vous offre la possibilité d'enregistrer le contenu de la page directement sous forme de fichier
>> urlwrite('https://www.eage.it', 'test.dat')
Grâce à cette commande, le contenu de la page web est sauvegardé sur le disque dur de votre machine, dans un fichier baptisé `test.dat`.
Il convient de noter qu'une connexion internet active est indispensable pour garantir le bon fonctionnement des commandes de scraping.
Avec ces outils à votre disposition, la lecture, la copie et le traitement du contenu en ligne des pages web n'auront jamais été aussi aisés.