Lafayette CollegeTechnology Help
Этот пост посвящен тому, как с помощью можно автоматизировать сбор данных (скрапинг) с веб-страниц, используя в качестве примера популярную библиотеку Flibusta, и как сохранить полученную информацию в формате PDF .
Flibusta имеет структуру, где информация о книге (название, автор, описание) находится в определенных HTML-тегах. Сначала мы «забираем» страницу: import requests from bs4 import BeautifulSoup url =
BeautifulSoup (библиотека bs4 ) — для парсинга HTML-кода. Этот пост посвящен тому
import requests from bs4 import BeautifulSoup url = "https://flibusta.is" # Пример ссылки response = requests.get(url) soup = BeautifulSoup(response.content, 'html.parser') # Извлекаем название книги title = soup.find('h1', class_='title').text.strip() # Извлекаем описание description = soup.find('div', id='main').find('p').text.strip() Use code with caution. 2. Конвертация в PDF где информация о книге (название
🐍 Скрапинг страниц с Python: от поиска на Flibusta до PDF
FPDF или pdfkit — для генерации PDF-файлов. 1. Получение данных (Scraping)
from fpdf import FPDF pdf = FPDF() pdf.add_page() # Важно: добавьте шрифт с поддержкой кириллицы pdf.add_font('DejaVu', '', 'DejaVuSansCondensed.ttf', unicode=True) pdf.set_font('DejaVu', '', 14) pdf.cell(200, 10, txt=f"Название: {title}", ln=True, align='C') pdf.multi_cell(0, 10, txt=f"Описание:\n{description}") pdf.output("book_info.pdf") Use code with caution. ⚠️ Этический момент