2015年12月10日 星期四

Heritrix 網路 爬蟲 網站分析 結構分析 語法及標籤分析 crawling

https://en.wikipedia.org/wiki/Heritrix
Heritrix
From Wikipedia, the free encyclopedia
Heritrix

Screenshot of Heritrix Admin Console.
Stable release 3.2.0 / January 10, 2014
Written in Java
Operating system Linux/Unix-like/Windows (unsupported)
Type Web crawler
License Apache License
Website crawler.archive.org

Heritrix is a web crawler designed for web archiving. It was written by the Internet Archive. It is free software license and written in Java. The main interface is accessible using a web browser, and there is a command-line tool that can optionally be used to initiate crawls.
網路 爬蟲

http://www.oschina.net/project/tag/64/?lang=19&os=0&sort=view
主流的爬蟲
Nutch
開發語言:Java
主頁:http://lucene.apache.org/nutch/
簡介:
Apache的子項目之一,屬於Lucene項目下的子項目。
Nutch是一個基於Lucene,類似Google的完整網絡搜索引擎解決方案,基於Hadoop的分布式處理模型保證了系統的性能,類似Eclipse的插件機制 保證了系統的可客戶化,而且很容易集成到自己的應用之中。

Heritrix
開發語言:Java
主頁:http://crawler.archive.org/
Nutch比較:
二者均為Java開源框架,Heritrix SourceForge上的開源產品,NutchApache的一個子項目,它們都稱作網絡爬蟲/蜘蛛( Web Crawler), 它們實現的原理基本一致:深度遍歷網站的資源,將這些資源抓取到本地,使用的方法都是分析網站每一個有效的URI,並提交Http請求, 從而獲得相應結果,生成本地文件及相應的日誌信息等。
Heritrix 是個 archival crawler用來獲取完整的、精確的、站點內容的深度複製。包括獲取圖像以及其他非文本內容。抓取並存儲相關的內容。 對內容來者不拒,不對頁面進行內容上的修改。重新爬行對相同的URL不針對先前的進行替換。爬蟲通過Web用戶界面啓動、監控、調整,允許彈性的 定義要獲取的URL

二者的差異:
Nutch 只獲取並保存可索引的內容。Heritrix則是照單全收。力求保存頁面原貌。
Nutch 可以修剪內容,或者對內容格式進行轉換。
Nutch 保存內容為數據庫優化格式便於以後索引;刷新替換舊的內容。而Heritrix 是添加(追加)新的內容。
Nutch 從命令行運行、控制。Heritrix Web 控制管理界面。
Nutch 的定制能力不夠強,不過現在已經有了一定改進。Heritrix 可控制的參數更多。
Heritrix提供的功能沒有nutch多,有點整站下載的味道。既沒有索引又沒有解析,甚至對於重復爬取URL都處理不是很好。
Heritrix的功能強大,但是配置起來卻有點麻煩。

其他的爬蟲
WebLech
http://weblech.sourceforge.net/
WebLech是一個功能強大的Web站點下載與鏡像工具。它支持按功能需求來下載web站點並能夠盡可能模仿標準Web瀏覽器的行為。 WebLech有一個功能控制台並採用多線程操作。

Arale
http://web.tiscali.it/_flat/arale.jsp.html
Arale主要為個人使用而設計,而沒有像其它爬蟲一樣是關注於頁面索引。Arale能夠下載整個web站點或來自web站點的某些資源。 Arale還能夠把動態頁面映射成靜態頁面。

J-Spider
http://j-spider.sourceforge.net/
J-Spider:是一個完全可配置和定制的Web Spider引擎.你可以利用它來檢查網站的錯誤(內在的服務器錯誤等),網站內外部鏈接檢查, 分析網站的結構(可創建一個網站地圖),下載整個Web站點,你還可以寫一個JSpider插件來擴展你所需要的功能。

Spindle
http://www.bitmechanic.com/projects/spindle/
spindle 是一個構建在Lucene工具包之上的Web索引/搜索工具.它包括一個用於創建索引的HTTP spider和一個用於搜索這些索引的搜索類。 spindle項目提供了一組JSP標籤庫使得那些基於JSP的站點不需要開發任何Java類就能夠增加搜索功能。

Arachnid
http://arachnid.sourceforge.net/
Arachnid: 是一個基於Javaweb spider框架.它包含一個簡單的HTML剖析器能夠分析包含HTML內容的輸入流.通過實現Arachnid的子類就能夠 開發一個簡單的Web spiders並能夠在Web站上的每個頁面被解析之後增加幾行代碼調用。 Arachnid的下載包中包含兩個spider應用程序例子 用於演示如何使用該框架。

LARM
http://larm.sourceforge.net/
LARM能夠為Jakarta Lucene搜索引擎框架的用戶提供一個純Java的搜索解決方案。它包含能夠為文件,數據庫表格建立索引的方法和為Web站點建索引的爬蟲。

JoBo
http://www.matuschek.net/software/jobo/index.html
JoBo 是一個用於下載整個Web站點的簡單工具。它本質是一個Web Spider。與其它下載工具相比較它的主要優勢是能夠自動填充form(如:自動登錄) 使用cookies來處理sessionJoBo還有靈活的下載規則(如:通過網頁的URL,大小,MIME類型等)來限制下載。

snoics-reptile
http://www.blogjava.net/snoics
snoics -reptile是用純Java開發的,用來進行網站鏡像抓取的工具,可以使用配制文件中提供的URL入口,把這個網站所有的能用瀏覽器通過GET的方式 獲取到的資源全部抓取到本地,包括網頁和各種類型的文件,如:圖片、flashmp3ziprarexe等文件。可以將整個網站完整地下傳至硬盤內, 並能保持原有的網站結構精確不變。只需要把抓取下來的網站放到web服務器(如:Apache)中,就可以實現完整的網站鏡像。

Web-Harvest
http://web-harvest.sourceforge.net
Web-Harvest 是一個Java開源Web數據抽取工具。它能夠收集指定的Web頁面並從這些頁面中提取有用的數據。Web-Harvest主要是運用了像XSLT, XQuery,正則表達式等這些技術來實現對text/xml的操作。

Spiderpy
http://pyspider.sourceforge.net/
spiderpy是一個基於Python編碼的一個開源web爬蟲工具,允許用戶收集文件和搜索網站,並有一個可配置的界面。

The Spider Web Network Xoops Mod Team
http://www.tswn.com/
pider Web Network Xoops Mod是一個Xoops下的模塊,完全由PHP語言實現。

HiSpider
https://code.google.com/p/hispider/
Hispider is a fast and high performance spider with high speed
嚴格說只能是一個spider系統的框架, 沒有細化需求, 目前只是能提取URL, URL排重, 異步DNS解析, 隊列化任務, 支持N機分布式下載, 支持網站定向下載(需要配置hispiderd.ini whitelist).

特徵和用法:
基於unix/linux系統的開發
異步DNS解析
URL排重
支持HTTP 壓縮編碼傳輸 gzip/deflate
字符集判斷自動轉換成UTF-8編碼
文檔壓縮存儲
支持多下載節點分

沒有留言: