基于nodejs的分布式爬虫客户端使用

技术文档网 2021-05-07

准备

代码的下载需要 git ,没有的可到 官网 下载安装 代码的运行需要 nodejs ,没有的可到 官网 下载安装

Coding

  1. 找一个空文件夹,按住 shift 点鼠标右键,在此处打开 cmd/powershell 命令窗口
  2. Win7 可能没有这种快捷方式,按 Win+R cmd 然后手动 cd 过去也是一样的
  3. 如果你想手动添加这个快捷方式,可以去看 IAsimov 写的教程

然后在命令窗口输入

git clone https://github.com/uupers/BiliSpider.git
cd BiliSpider/node-spider-dist
npm install

出现这个就表示安装成功(Warning 可以无视)

运行

在刚刚打开的 cmd/powershell 窗口中,键入

node client
  • 如果程序显示 Start to fetch member info. ,说明程序正常运行
  • 如果程序报 SyntaxError XX,可能是 nodejs 版本太旧,请到 官网 下载最新版安装

然后,如果程序报 Unhandled promise rejection 等等,请尝试访问 45.32.68.44:16123 看能否看到 Hello World,如果不能就 GG,可能是你所在的网络有端口访问限制(校园网之类的)

  • 如果程序显示 Get package XX, fetch mids [XX001, XY000] ,说明在正常爬取了

  • 如果程序每隔一段时间显示 Send package XX 然后继续领新的任务,说明爬虫正顺利地自动化工作ing~

数据访问

数据存放在 栗子球 的 VPS 服务器上,想欣赏自己的劳动成果的话,可使用任意mongo客户端(e.g. mongodb compass)连接

mongodb://spiderrd:spiderrd@45.32.68.44:37017/bilibili_spider

这个账号是只读权限的,需要写权限账号的话,可以向 栗子球 同学要

ps : 使用python远程访问请参考connect_to_remote_mongodb_demo.ipynb

ps2:如果你只是想获取UP主的用户信息的话,可以使用以下连接

mongodb://spiderrd:spiderrd@45.32.68.44:37017/up_info

里面已经包含了150万的UP主用户信息

相关文章

  1. 使用NodeJS搭建你的微信机器人

    你可以把该程序运行在任何支持 NodeJS 的云平台,或者你自己的 VPS 上。 首先你需要理解几个概念: node.js -使用v8引擎的服务器端 JavaScript npm - nodejs

  2. webpack和browserify用法

    这两种技术都是使用按需加载的模块化的思想来开发项目,让我可以按照node的require模块的方法写前端代码。。 两者用法、思想相差不大 1.webpack的安装及使用方法 安装webpack:

  3. 基于webpack的前后端分离开发实践

    前后端分离开发分析 前后端开发分离,即是前后端除商定 API 接口外,其他的开发工作都不再相互干涉,前端开发进度不再受后端影响。 以开发一个 SPA 单页应用为例,日常开发工作流程变为: 前后端同设

  4. Node多版本管理

    为每个项目指定运行的Node版本 nvm 安装nvm, 用于下载和管理NodeJS的版本$ curl -o- https://raw.githubusercontent.com/creationix

  5. nodejs的客户端deploy墨客子链

    前提条件: 已经在本地建了一个私有链,已经启动了vnode,已经启动两个scs 在vnode上已经有了主账户,并已经启动miner.start(),并且主账户已经有至少200个moac 假设你的主账

随机推荐

  1. 使用NodeJS搭建你的微信机器人

    你可以把该程序运行在任何支持 NodeJS 的云平台,或者你自己的 VPS 上。 首先你需要理解几个概念: node.js -使用v8引擎的服务器端 JavaScript npm - nodejs

  2. webpack和browserify用法

    这两种技术都是使用按需加载的模块化的思想来开发项目,让我可以按照node的require模块的方法写前端代码。。 两者用法、思想相差不大 1.webpack的安装及使用方法 安装webpack:

  3. 基于webpack的前后端分离开发实践

    前后端分离开发分析 前后端开发分离,即是前后端除商定 API 接口外,其他的开发工作都不再相互干涉,前端开发进度不再受后端影响。 以开发一个 SPA 单页应用为例,日常开发工作流程变为: 前后端同设

  4. Node多版本管理

    为每个项目指定运行的Node版本 nvm 安装nvm, 用于下载和管理NodeJS的版本$ curl -o- https://raw.githubusercontent.com/creationix

  5. nodejs的客户端deploy墨客子链

    前提条件: 已经在本地建了一个私有链,已经启动了vnode,已经启动两个scs 在vnode上已经有了主账户,并已经启动miner.start(),并且主账户已经有至少200个moac 假设你的主账