Apify spouští svou open-source knihovnu Crawlee i pro Python

Crawlee pro Python přináší vývojářům v jednom z nejrozšířenějších programovacích jazyků řadu výhod, které dosud měli k dispozici pouze uživatelé JavaScriptu. „Crawlee pro Node.js mělo obrovský úspěch, a proto jsme se rozhodli rozšířit svoje působení i na programovací jazyk Python, který je dominantní ve světě dat i web scrapingu,“ říká Jan Čurn, zakladatel a CEO společnosti Apify.

Crawlee pro Python poskytuje jednoduché a intuitivní rozhraní pro stahování webových stránek a extrakci dat. Podporuje využití tzv. headless webových prohlížečů a umožňuje paralelní zpracování a škálování, což je klíčové pro efektivní scraping velkého množství stránek nebo automatické spravování relací a usnadnění práce s webovými stránkami vyžadujícími přihlášení nebo používání cookies. K tomu poskytuje konfigurovatelné směrování požadavků, trvalou frontu pro adresy URL a možnost připojení úložiště dat, což usnadňuje správu složitých webových scrapingových úloh.

Vývojáři v Pythonu tak nemusejí kombinovat různé nástroje a mohou využít automatické paralelní procházení, opakování při chybách, rotaci proxy serverů a správu relací. Pythonová verze přináší také typové nápovědy, které zlepšují vývojářský zážitek a snižují chyby díky statické kontrole typů.
„Crawlee for Python je alternativou pro knihovnu Scrapy, která sice patří mezi nejpopulárnější knihovny na web scraping pro vývojáře v Pythonu, ale zároveň je poměrně zastaralá a nemoderní,“ říká Jan Čurn. „Open-source knihovna Crawlee poskytuje vývojářům kompletní balík funkcí, aniž musejí platit za přístup k know-how Apify. A protože Python je jedním z nejrozšířenějších programovacích jazyků a jeho využití v oblasti web scrapingu je velmi časté, jde o důležitý krok směrem k širší vývojářské komunitě,“ dodává.

Autor: Apify