基于nodejs的分布式爬虫客户端使用
准备
代码的下载需要 git ,没有的可到 官网 下载安装 代码的运行需要 nodejs ,没有的可到 官网 下载安装
Coding
- 找一个空文件夹,按住
shift
点鼠标右键,在此处打开 cmd/powershell 命令窗口
- Win7 可能没有这种快捷方式,按 Win+R
cmd
然后手动cd
过去也是一样的 - 如果你想手动添加这个快捷方式,可以去看 IAsimov 写的教程
然后在命令窗口输入
git clone https://github.com/uupers/BiliSpider.git
cd BiliSpider/node-spider-dist
npm install
出现这个就表示安装成功(Warning 可以无视)
运行
在刚刚打开的 cmd/powershell 窗口中,键入
node client
- 如果程序显示
Start to fetch member info.
,说明程序正常运行 - 如果程序报
SyntaxError XX
,可能是 nodejs 版本太旧,请到 官网 下载最新版安装
然后,如果程序报 Unhandled promise rejection
等等,请尝试访问 45.32.68.44:16123
看能否看到 Hello World
,如果不能就 GG,可能是你所在的网络有端口访问限制(校园网之类的)
如果程序显示
Get package XX, fetch mids [XX001, XY000]
,说明在正常爬取了如果程序每隔一段时间显示
Send package XX
然后继续领新的任务,说明爬虫正顺利地自动化工作ing~
数据访问
数据存放在 栗子球
的 VPS 服务器上,想欣赏自己的劳动成果的话,可使用任意mongo客户端(e.g. mongodb compass)连接
mongodb://spiderrd:spiderrd@45.32.68.44:37017/bilibili_spider
这个账号是只读权限的,需要写权限账号的话,可以向 栗子球
同学要
ps : 使用python远程访问请参考connect_to_remote_mongodb_demo.ipynb
ps2:如果你只是想获取UP主的用户信息的话,可以使用以下连接
mongodb://spiderrd:spiderrd@45.32.68.44:37017/up_info
里面已经包含了150万的UP主用户信息
相关文章
- 使用NodeJS搭建你的微信机器人
你可以把该程序运行在任何支持 NodeJS 的云平台,或者你自己的 VPS 上。 首先你需要理解几个概念: node.js -使用v8引擎的服务器端 JavaScript npm - nodejs
- webpack和browserify用法
这两种技术都是使用按需加载的模块化的思想来开发项目,让我可以按照node的require模块的方法写前端代码。。 两者用法、思想相差不大 1.webpack的安装及使用方法 安装webpack:
- 基于webpack的前后端分离开发实践
前后端分离开发分析 前后端开发分离,即是前后端除商定 API 接口外,其他的开发工作都不再相互干涉,前端开发进度不再受后端影响。 以开发一个 SPA 单页应用为例,日常开发工作流程变为: 前后端同设
- Node多版本管理
为每个项目指定运行的Node版本 nvm 安装nvm, 用于下载和管理NodeJS的版本$ curl -o- https://raw.githubusercontent.com/creationix
- nodejs的客户端deploy墨客子链
前提条件: 已经在本地建了一个私有链,已经启动了vnode,已经启动两个scs 在vnode上已经有了主账户,并已经启动miner.start(),并且主账户已经有至少200个moac 假设你的主账
随机推荐
- 使用NodeJS搭建你的微信机器人
你可以把该程序运行在任何支持 NodeJS 的云平台,或者你自己的 VPS 上。 首先你需要理解几个概念: node.js -使用v8引擎的服务器端 JavaScript npm - nodejs
- webpack和browserify用法
这两种技术都是使用按需加载的模块化的思想来开发项目,让我可以按照node的require模块的方法写前端代码。。 两者用法、思想相差不大 1.webpack的安装及使用方法 安装webpack:
- 基于webpack的前后端分离开发实践
前后端分离开发分析 前后端开发分离,即是前后端除商定 API 接口外,其他的开发工作都不再相互干涉,前端开发进度不再受后端影响。 以开发一个 SPA 单页应用为例,日常开发工作流程变为: 前后端同设
- Node多版本管理
为每个项目指定运行的Node版本 nvm 安装nvm, 用于下载和管理NodeJS的版本$ curl -o- https://raw.githubusercontent.com/creationix
- nodejs的客户端deploy墨客子链
前提条件: 已经在本地建了一个私有链,已经启动了vnode,已经启动两个scs 在vnode上已经有了主账户,并已经启动miner.start(),并且主账户已经有至少200个moac 假设你的主账