Scrapy

Scrapy; software
	Logo
Genere	Web Crawler (non in lista)
Sviluppatore	Scrapinghub, Ltd.
Data prima versione	26 Giugno 2008
Ultima versione	1.8.0 (28 Ottobre 2019)
Sistema operativo	Microsoft Windows; macOS; Linux
Linguaggio	Python
Licenza	Licenza BSD; (licenza libera)
Sito web	scrapy.org
	Modifica dati su Wikidata · Manuale

Da non confondersi con Scrapie

Scrapy (/ˈskreɪpaɪ/ SKRAY-PEYE ) è un framework open source per web-crawling scritto in Python. Originariamente creato per web scraping può essere anche utilizzato per estrarre dati usando delle API oppure come un web-crawler general-purpose^[1]. È mantenuto da Scrapinghub Ltd., uno sviluppatore di web-scrapers e compagnia di servizi.

L'architettura del progetto di Scrapy consiste in "ragni", che sono web-crawler che sono dati un set di istruzioni. Seguendo lo spirito di framework don't repeat yourself, come Django^[2], rende semplice costruire e scalare progetti di crawling grandi, concedendo agli sviluppatori di riutilizzare il loro codice. Scrapy offre anche una shell per web-crawling, che può essere usata dagli sviluppatori per testare delle assunzioni su un comportamento di un sito^[3]. Alcune compagnie conosciute utilizzano Scrapy come: Lyst^[4]^[5], Parse.ly^[6], Sayone Technologies^[5], Sciences Po Medialab^[7], Data.gov.uk.

Storia

Scrapy fu creato dalla compagnia francese Mydeco, dove fu sviluppato e mantenuto dagli impiegati di Mydeco e Insophia (una compagnia consulente in Montevideo, Uruguay). La prima versione pubblica venne rilasciata nell'agosto 2008 con la Licenza BSD, con il rilascio della versione 1.0 nel giugno 2015. Nel 2011, Scrapinghub divenne il mantenitore ufficiale^[8]^[9].

Note

^ Scrapy at a glance — Scrapy 2.0.0 documentation, su doc.scrapy.org. URL consultato il 5 marzo 2020.
^ Frequently Asked Questions — Scrapy 2.0.0 documentation, su doc.scrapy.org. URL consultato il 5 marzo 2020.
^ Scrapy shell — Scrapy 2.0.0 documentation, su doc.scrapy.org. URL consultato il 5 marzo 2020.
^ Scalable Scraping Using Machine Learning at Lyst, su talks.lystit.com. URL consultato il 5 marzo 2020 (archiviato dall'url originale il 9 ottobre 2016).
^ ^a ^b Scrapy | Companies using Scrapy, su scrapy.org. URL consultato il 5 marzo 2020.
^ (EN) Web Crawling & Metadata Extraction in Python, su Speaker Deck. URL consultato il 5 marzo 2020.
^ (EN) Jacomy Mathieu Ooghe-Tabanou Benjamin, Hyphe v0.0.0 : the first release of our new webcrawler is out !, su médialab Sciences Po. URL consultato il 5 marzo 2020.
^ (EN) scrapy/scrapy, su GitHub. URL consultato il 5 marzo 2020.
^ (EN) Author Ajay Ohri, Interview ScrapingHub #python #webcrawling, su DECISION STATS, 12 dicembre 2015. URL consultato il 5 marzo 2020.

Collegamenti esterni

(EN) Sito ufficiale, su scrapy.org.
(EN) Scrapy, su GitHub.
Repository sorgenti di Scrapy, su github.com.
Sito di segnalazione bug, su github.com.
(EN) Scrapy, su Free Software Directory.

Portale Software libero: accedi alle voci di Wikipedia che trattano di software libero

[1] Scrapy at a glance — Scrapy 2.0.0 documentation, su doc.scrapy.org. URL consultato il 5 marzo 2020.

[2] Frequently Asked Questions — Scrapy 2.0.0 documentation, su doc.scrapy.org. URL consultato il 5 marzo 2020.

[3] Scrapy shell — Scrapy 2.0.0 documentation, su doc.scrapy.org. URL consultato il 5 marzo 2020.

[4] Scalable Scraping Using Machine Learning at Lyst, su talks.lystit.com. URL consultato il 5 marzo 2020 (archiviato dall'url originale il 9 ottobre 2016).

[scrapy.org-5] Scrapy | Companies using Scrapy, su scrapy.org. URL consultato il 5 marzo 2020.

[6] (EN) Web Crawling & Metadata Extraction in Python, su Speaker Deck. URL consultato il 5 marzo 2020.

[7] (EN) Jacomy Mathieu Ooghe-Tabanou Benjamin, Hyphe v0.0.0 : the first release of our new webcrawler is out !, su médialab Sciences Po. URL consultato il 5 marzo 2020.

[8] (EN) scrapy/scrapy, su GitHub. URL consultato il 5 marzo 2020.

[9] (EN) Author Ajay Ohri, Interview ScrapingHub #python #webcrawling, su DECISION STATS, 12 dicembre 2015. URL consultato il 5 marzo 2020.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]