手機掃描下載
應(yīng)用指數(shù):5 分
像塑電腦版(抖音ar特效開放平臺)1.02G應(yīng)用工具
英偉達nvidia app應(yīng)用程序(PC玩家輔助工具)147.1M應(yīng)用工具
萬彩辦公大師officeboxpc版316M應(yīng)用工具
寶塔windows面板2.9M應(yīng)用工具
cura切片軟件官方19.8M應(yīng)用工具
MSteel批量打印軟件6M應(yīng)用工具
企業(yè)微信電腦版492.7M應(yīng)用工具
搜狗輸入法pc版146M應(yīng)用工具
wps office電腦版224.4M應(yīng)用工具
雷電模擬器pc端508.1M應(yīng)用工具
360安全瀏覽器電腦版116.0M應(yīng)用工具
解壓專家電腦版17.4M應(yīng)用工具
應(yīng)用介紹應(yīng)用截圖相關(guān)版本網(wǎng)友評論下載地址
webharvy頁面提取數(shù)據(jù)軟件能夠?qū)崿F(xiàn)快速獲取網(wǎng)頁數(shù)據(jù)的專業(yè)抓取工具。通過將網(wǎng)頁導(dǎo)入就能快速提取所需內(nèi)容。該軟件還支持將數(shù)據(jù)進行存儲,當有采集網(wǎng)頁數(shù)據(jù)的需要時,這個專業(yè)抓取助手就能夠輕松滿足你的使用需要。
WebHarvy是一款強大的網(wǎng)頁數(shù)據(jù)采集工具,可以幫助用戶從各種網(wǎng)站中抓取所需的數(shù)據(jù),并將其保存為結(jié)構(gòu)化的格式。
1.下載安裝包后雙擊運行WebHarvySetup.msi
2.閱讀并勾選協(xié)議后點擊Install
3.等待安裝
4.安裝完成后軟件將會自動啟動
1、智能模式檢測
WebHarvy 自動識別網(wǎng)頁中出現(xiàn)的數(shù)據(jù)模式。要從網(wǎng)頁中抓取項目列表或表格(名稱、地址、電子郵件、價格等),不需要額外的配置。如果數(shù)據(jù)重復(fù),WebHarvy 會自動抓取它。
2、JavaScript 支持
在抓取數(shù)據(jù)之前,在瀏覽器中運行您自己的 JavaScript 代碼。這可用于與頁面元素交互、修改 DOM 或調(diào)用目標頁面中已實現(xiàn)的 JavaScript 函數(shù)。
3、保護隱私
為了匿名抓取數(shù)據(jù)并防止網(wǎng)絡(luò)抓取軟件被網(wǎng)絡(luò)服務(wù)器阻止,您可以選擇通過代理服務(wù)器或 VPN 訪問目標網(wǎng)站。可以使用單個代理服務(wù)器或代理服務(wù)器列表。
4、保存到文件或數(shù)據(jù)庫
抓取的數(shù)據(jù)可以以多種格式保存。當前版本的 WebHarvy 網(wǎng)頁抓取軟件允許您將抓取的數(shù)據(jù)保存為 Excel、XML、CSV、JSON 或 TSV 文件。您還可以將數(shù)據(jù)導(dǎo)出到 SQL 數(shù)據(jù)庫。
5、簡單的網(wǎng)頁抓取
通過 WebHarvy 的點擊界面,網(wǎng)頁抓取變得非常簡單。無需編寫代碼或腳本來抓取數(shù)據(jù)。您將使用 WebHarvy 的內(nèi)置瀏覽器加載和導(dǎo)航網(wǎng)站,并且可以通過單擊鼠標選擇要抓取的數(shù)據(jù)。
6、處理分頁
網(wǎng)站通常會在多個頁面中顯示產(chǎn)品列表或搜索結(jié)果等數(shù)據(jù)。WebHarvy 可以自動從多個頁面爬行和抓取數(shù)據(jù)。只需指出“下一頁的鏈接”,WebHarvy 就會自動從所有頁面中抓取數(shù)據(jù)。
7、自動執(zhí)行瀏覽器任務(wù)
WebHarvy 可以輕松配置為執(zhí)行諸如單擊鏈接、 選擇列表/下拉選項、在字段中輸入文本、 滾動頁面、 打開彈出窗口等任務(wù)。
8、提交關(guān)鍵詞
通過自動向搜索表單提交輸入關(guān)鍵字列表來抓取數(shù)據(jù)。可以將任意數(shù)量的輸入關(guān)鍵字提交到多個輸入文本字段來執(zhí)行搜索。可以從輸入關(guān)鍵字的所有組合的搜索結(jié)果中抓取數(shù)據(jù)。
9、類別抓取
WebHarvy 允許您從指向網(wǎng)站內(nèi)類似頁面/列表的鏈接列表中抓取數(shù)據(jù)。這允許您使用單一配置來抓取網(wǎng)站內(nèi)的類別和子類別。
10、圖像抓取
可以下載圖像或抓取圖像 URL。WebHarvy 可以自動抓取電子商務(wù)網(wǎng)站產(chǎn)品詳細信息頁面中顯示的多張圖像。
11、常用表達
正則表達式 (RegEx) 可以應(yīng)用于網(wǎng)頁的文本或 HTML 源來抓取匹配部分。這種強大的技術(shù)為您在抓取數(shù)據(jù)時提供了更大的靈活性和控制力。
一、安裝裝webharvy
1.先在本站安裝下載并安裝webharvy
二、打開WebHarvy并配置任務(wù)
1.打開WebHarvy軟件后,點擊“新任務(wù)”按鈕創(chuàng)建一個新的任務(wù)。
2.在彈出的窗口中輸入要采集的網(wǎng)頁URL,并點擊“開始配置”按鈕
3.在打開的網(wǎng)頁中選擇需要采集的數(shù)據(jù),并用鼠標框選出來。選中后,WebHarvy會自動識別出該數(shù)據(jù)所在的HTML元素,并在界面上顯示出來
4.配置好所有需要采集的數(shù)據(jù)后,點擊“下一頁”按鈕進入下一頁并重復(fù)以上操作。
三、設(shè)置輸出格式
在完成所有采集任務(wù)后,需要設(shè)置輸出格式。WebHarvy支持多種輸出格式,包括Excel、CSV、JSON等。用戶可以根據(jù)自己的需求選擇合適的輸出格式。
四、運行任務(wù)
完成上述操作后點擊“運行”按鈕開始執(zhí)行任務(wù)。WebHarvy會自動訪問每一頁,并采集所需的數(shù)據(jù)。采集完成后,用戶可以將數(shù)據(jù)導(dǎo)出到本地文件,或者直接將其保存到數(shù)據(jù)庫中。
1、從云運行
WebHarvy 可以在 Amazon AWS EC2 Windows 實例中運行
2、需要 Windows
WebHarvy 需要 Windows 操作系統(tǒng)才能運行。如果您想在 Mac 上運行 WebHarvy,您應(yīng)該通過 BootCamp 安裝 Windows 或通過 Parallels 運行 WebHarvy。目前不支持 OS X / macOS。
3、基于 Chrome 構(gòu)建
最新版本的 WebHarvy 是使用 Google 的開源 Chrome 瀏覽器項目構(gòu)建的,這使得它更加安全、穩(wěn)定和更快。
應(yīng)用截圖
相關(guān)版本
多平臺下載
共0人參與互動,查看所有0條評論>網(wǎng)友評論
海鸚OfficeAI助手官方版27.5M應(yīng)用工具
同花順pc客戶端157.2M應(yīng)用工具
ollama安裝包744M應(yīng)用工具
渝快政電腦版官方版387.0M應(yīng)用工具
office2010永久破解版安裝包1.60G應(yīng)用工具
微信小店助手pc端83.1M應(yīng)用工具
同花順pc客戶端157.2M應(yīng)用工具
騰訊會議pc端209.3M應(yīng)用工具
渝快政電腦版官方版387.0M應(yīng)用工具
贛政通電腦版308.1M應(yīng)用工具
企業(yè)微信電腦版492.7M應(yīng)用工具
搜狗輸入法pc版146M應(yīng)用工具