From 41f6d513ad93c45755f04620c545bbe608e175d5 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Luiz=20Ot=C3=A1vio?= Date: Tue, 24 Jan 2023 09:49:50 -0300 Subject: [PATCH] Web Scraping com Python usando requests e bs4 BeautifulSoup --- aula192.py | 30 ++++++++++++++++++++++++++++++ 1 file changed, 30 insertions(+) create mode 100644 aula192.py diff --git a/aula192.py b/aula192.py new file mode 100644 index 0000000..6bfe284 --- /dev/null +++ b/aula192.py @@ -0,0 +1,30 @@ +# + Web Scraping com Python usando requests e bs4 BeautifulSoup +# - Web Scraping é o ato de "raspar a web" buscando informações de forma +# automatizada, com determinada linguagem de programação, para uso posterior. +# - O módulo requests consegue carregar dados da Internet para dentro do seu +# código. Já o bs4.BeautifulSoup é responsável por interpretar os dados HTML +# em formato de objetos Python para facilitar a vida do desenvolvedor. +# - Doc: https://www.crummy.com/software/BeautifulSoup/bs4/doc.ptbr/ +# + Instalação +# - pip install requests types-requests bs4 +import re + +import requests +from bs4 import BeautifulSoup + +url = 'http://127.0.0.1:3333/' +response = requests.get(url) +raw_html = response.text +parsed_html = BeautifulSoup(raw_html, 'html.parser') + +# if parsed_html.title is not None: +# print(parsed_html.title.text) + +top_jobs_heading = parsed_html.select_one('#intro > div > div > article > h2') + +if top_jobs_heading is not None: + article = top_jobs_heading.parent + + if article is not None: + for p in article.select('p'): + print(re.sub(r'\s{1,}', ' ', p.text).strip())