Tartalomjegyzék:
Meghatározás - Mit jelent az Apache Nutch?
Az Apache Nutch egy webrobot szoftver, amelyet fel lehet használni az adatok összesítésére az internetről. Más Apache eszközökkel, például a Hadoop-nal együtt használják az adatok elemzésére.
A Techopedia magyarázza az Apache Nutch-ot
Az Apache Nutch egy nyílt forrású termék, amelyet az Apache Software Foundation engedélyez. Ez a fejlesztői közösség számos olyan Apache szoftver eszköz számára rendelkezik licencekkel, amelyek képesek adatok rendezésére és elemzésére. Az egyik központi technológia az Apache Hadoop, egy nagy adatanalitikai eszköz, amely az üzleti közösségben nagyon népszerű.
Az olyan eszközök mellett, mint például az Apache Hadoop, valamint a fájlok tárolására, elemzésére és más funkciókhoz kapcsolódó funkciók mellett a Nutch szerepe az adatok gyűjtése és tárolása az internetről webes feltérképezési algoritmusok használatával.
A felhasználók kihasználhatják az Apache Nutch egyszerű parancsait, hogy információkat gyűjtsenek URL-címek alatt. A felhasználók általában az Apache Nutch-ot és egy másik nyílt forrású eszközt, az Apache Solr nevű keretet használnak, amely tárolóként szolgálhat az Apache Nutch-tal összegyűjtött adatok számára.