INFO-SPIDER 是一個幫助用戶拿回自己的數據的爬蟲工具箱

一個神奇的工具箱,拿回你的個人信息。

What is INFO-SPIDER

INFO-SPIDER 是一個集眾多數據源於一身的爬蟲工具箱,旨在安全快捷的幫助用戶拿回自己的數據,工具代碼開源,流程透明。並提供數據分析功能,基於用戶數據生成圖表文件,使得用戶更直觀、深入了解自己的信息。 目前支持數據源包括GitHub、QQ郵箱、網易郵箱、阿裏郵箱、新浪郵箱、Hotmail郵箱、Outlook郵箱、京東、淘寶、支付寶、中國移動、中國聯通、中國電信、知乎、嗶哩嗶哩、網易雲音樂、QQ好友、QQ群、生成朋友圈相冊、瀏覽器瀏覽曆史、12306、博客園、CSDN博客、開源中國博客、簡書。

Features

安全可靠:本項目為開源項目,代碼簡潔,所有源碼可見,本地運行,安全可靠。
使用簡單:提供 GUI 界麵,隻需點擊所需獲取的數據源並根據提示操作即可。
結構清晰:本項目的所有數據源相互獨立,可移植性高,所有爬蟲腳本在項目的 Spiders 文件下。
數據源豐富:本項目目前支持多達24+個數據源,持續更新。
數據格式統一:爬取的所有數據都將存儲為json格式。
個人數據豐富:本項目將盡可能多地為你爬取個人數據,後期數據處理可根據需要刪減。
數據分析:本項目提供個人數據的可視化分析,目前僅部分支持。
文檔豐富:本項目包含完整全麵的使用說明文檔和視頻教程

QuickStart

依賴安裝

安裝python3和Chrome瀏覽器

安裝與Chrome瀏覽器相同版本的驅動

安裝依賴庫 pip install -r requirements.txt

工具運行

進入 tools 目錄

運行 python3 main.py

在打開的窗口點擊數據源按鈕, 根據提示選擇數據保存路徑

彈出的瀏覽器輸入用戶密碼後會自動開始爬取數據, 爬取完成瀏覽器會自動關閉.

在對應的目錄下可以查看下載下來的數據(xxx.json), 數據分析圖表(xxx.html)

數據源

GitHub
QQ郵箱
網易郵箱
阿裏郵箱
新浪郵箱
Hotmail郵箱
Outlook郵箱
京東
淘寶
支付寶
中國移動
中國聯通
中國電信
知乎
嗶哩嗶哩
網易雲音樂
QQ好友
QQ群
生成朋友圈相冊
瀏覽器瀏覽曆史
12306
博客園
CSDN博客
開源中國博客
簡書

數據分析

博客園

CSDN博客

開源中國博客

簡書

計劃

提供web界麵操作,適應多平台

對爬取的個人數據進行統計分析

融合機器學習技術、自然語言處理技術等對數據深入分析

把分析結果繪製圖表直觀展示

添加更多數據源...

Visitors

Developers want to say

  1. 該項目解決了個人數據分散在各種各樣的公司之間,經常形成數據孤島,多維數據無法融合的痛點。
  2. 作者認為該項目的最大潛力在於能把多維數據進行融合並對個人數據進行分析,是個人數據效益最大化。
  3. 該項目使用爬蟲手段獲取數據,所以程序存在時效問題(需要持續維護,根據網站的更新做出修改)。
  4. 該項目的結構清晰,所有數據源相互獨立,可移植性高,所有爬蟲腳本在項目的Spiders文件下,可移植到你的程序中。
  5. 目前該項目v1.0版本僅在Windows平台上測試,Python 3.7,未適配多平台。
  6. 計劃在v2.0版本對項目進行重構,提供web端操作與數據可視化,以適配多平台。
  7. 本項目INFO-SPIDER代碼已開源,歡迎star支持。

相關說明:

1、VIP會員無限製任意下載,免積分。立即前往開通>>

2、下載積分可通過日常 簽到綁定郵箱 以及 積分兌換 等途徑獲得!

3、本站資源大多存儲在雲盤,如出現鏈接失效請評論反饋,如有密碼,均為:www.ipipn.com。

4、所有站內資源僅供學習交流使用。未經原版權作者許可,禁止用於任何商業環境,否則後果自負。為尊重作者版權,請購買正版作品。

5、站內資源來源於網絡公開發表文件或網友分享,如侵犯您的權益,請聯係管理員處理。

6、本站提供的源碼、模板、軟件工具等其他資源,都不包含技術服務,請大家諒解!

7、源碼、模板等資源會隨著技術、壞境的升級而存在部分問題,還請慎重選擇。

PS.源碼均收集自網絡,如有侵犯閣下權益,請發信件至: admin@ipipn.com .


源站網 » INFO-SPIDER 是一個幫助用戶拿回自己的數據的爬蟲工具箱

發表評論

讚助本站發展 維持服務器消耗

全站源碼免費下載 立刻讚助