StormCrawler

StormCrawler

StormCrawler je SDK s otvorenim kodom za izgradnju distribuiranih web indeksa za indeksiranje putem Apache Storm.Projekt je pod licencom Apache v2 i sastoji se od zbirke resursa i komponenti za višekratnu upotrebu, uglavnom napisanih na Javi.Cilj StormCrawlera je pomoći u izradi web pretraživača koji su: skalabilni, elastični, niski latenci lako se proširuje uljudan, ali učinkovit StormCrawler je knjižnica i zbirka resursa koje programeri mogu iskoristiti za izgradnju vlastitih alata za indeksiranje.Dobra vijest je da to može biti prilično jednostavno.Često, sve što trebate učiniti je proglasiti oluje-alata za indeksiranje kao Mavenovu ovisnost, napisati vlastitu klasu topologije (savjet: možete proširiti ConfigurableTopology), ponovo upotrijebiti komponente predviđene projektom i možda napisati par prilagođenihza svoj tajni umak.Malo podešavanja na Konfiguraciju i isključite se! ... Osim osnovnih komponenti, pružamo i neke vanjske resurse koje možete ponovo upotrijebiti u svom projektu, kao što su na primjer naš izljev i vijci za ElasticSearch ili ParserBolt koji koristi Apache Tikaza raščlanjivanje različitih formata dokumenata.StormCrawler je savršeno prikladan za korištenje slučajeva u kojima URL za dohvaćanje i analizu dolazi kao struje, ali je i odgovarajuće rješenje za rekurzivne indekse velikih razmjera, osobito tamo gdje je potrebno malo kašnjenje.Projekt koristi u proizvodnji nekoliko tvrtki i aktivno se razvija i održava.

Web stranica:

Kategorije

Alternativa StormCrawleru za BSD s komercijalnom licencom