INFO-SPIDER 是一个帮助用户拿回自己的数据的爬虫工具箱

一个神奇的工具箱,拿回你的个人信息。

What is INFO-SPIDER

INFO-SPIDER 是一个集众多数据源于一身的爬虫工具箱,旨在安全快捷的帮助用户拿回自己的数据,工具代码开源,流程透明。并提供数据分析功能,基于用户数据生成图表文件,使得用户更直观、深入了解自己的信息。 目前支持数据源包括GitHub、QQ邮箱、网易邮箱、阿里邮箱、新浪邮箱、Hotmail邮箱、Outlook邮箱、京东、淘宝、支付宝、中国移动、中国联通、中国电信、知乎、哔哩哔哩、网易云音乐、QQ好友、QQ群、生成朋友圈相册、浏览器浏览历史、12306、博客园、CSDN博客、开源中国博客、简书。

Features

安全可靠:本项目为开源项目,代码简洁,所有源码可见,本地运行,安全可靠。
使用简单:提供 GUI 界面,只需点击所需获取的数据源并根据提示操作即可。
结构清晰:本项目的所有数据源相互独立,可移植性高,所有爬虫脚本在项目的 Spiders 文件下。
数据源丰富:本项目目前支持多达24+个数据源,持续更新。
数据格式统一:爬取的所有数据都将存储为json格式。
个人数据丰富:本项目将尽可能多地为你爬取个人数据,后期数据处理可根据需要删减。
数据分析:本项目提供个人数据的可视化分析,目前仅部分支持。
文档丰富:本项目包含完整全面的使用说明文档和视频教程

QuickStart

依赖安装

安装python3和Chrome浏览器

安装与Chrome浏览器相同版本的驱动

安装依赖库 pip install -r requirements.txt

工具运行

进入 tools 目录

运行 python3 main.py

在打开的窗口点击数据源按钮, 根据提示选择数据保存路径

弹出的浏览器输入用户密码后会自动开始爬取数据, 爬取完成浏览器会自动关闭.

在对应的目录下可以查看下载下来的数据(xxx.json), 数据分析图表(xxx.html)

数据源

GitHub
QQ邮箱
网易邮箱
阿里邮箱
新浪邮箱
Hotmail邮箱
Outlook邮箱
京东
淘宝
支付宝
中国移动
中国联通
中国电信
知乎
哔哩哔哩
网易云音乐
QQ好友
QQ群
生成朋友圈相册
浏览器浏览历史
12306
博客园
CSDN博客
开源中国博客
简书

数据分析

博客园

CSDN博客

开源中国博客

简书

计划

提供web界面操作,适应多平台

对爬取的个人数据进行统计分析

融合机器学习技术、自然语言处理技术等对数据深入分析

把分析结果绘制图表直观展示

添加更多数据源...

Visitors

Developers want to say

  1. 该项目解决了个人数据分散在各种各样的公司之间,经常形成数据孤岛,多维数据无法融合的痛点。
  2. 作者认为该项目的最大潜力在于能把多维数据进行融合并对个人数据进行分析,是个人数据效益最大化。
  3. 该项目使用爬虫手段获取数据,所以程序存在时效问题(需要持续维护,根据网站的更新做出修改)。
  4. 该项目的结构清晰,所有数据源相互独立,可移植性高,所有爬虫脚本在项目的Spiders文件下,可移植到你的程序中。
  5. 目前该项目v1.0版本仅在Windows平台上测试,Python 3.7,未适配多平台。
  6. 计划在v2.0版本对项目进行重构,提供web端操作与数据可视化,以适配多平台。
  7. 本项目INFO-SPIDER代码已开源,欢迎star支持。

版权声明:东成西就 发表于 2020-10-11 10:08:46。
转载请注明:INFO-SPIDER 是一个帮助用户拿回自己的数据的爬虫工具箱 | 云知道

暂无评论

暂无评论...