温馨提示:该页面为Windows软件,不支持手机用户安装使用
红叶文章采集器,又名Fast_Spider,是一款功能强大的网络爬虫程序。它专为高效地从指定网站中抓取有价值文章而设计,自动去除无用页面信息,并保存有阅读和访问价值的精华内容,实现HTML到TXT的自动转换。此软件工具易于上手,只需简单设置即可运行。
智能去重: 采用北大天网MD5指纹识别算法,避免重复存储相似网页内容。
内容标记: 采集内容包含网页标题([[HT]])、新闻标题([[HA]])、10个权重关键词([[HC]])、图片地址([[UR]])以及正文([[TXT]])。
高效率: 开启300个进程,确保高采集效率。稳定性测试显示,一般网络环境下,每台计算机一天内可解析200万网页页面,采集20万精华文章,一百万精华文章仅需5天即可完成。
数据存储: 最新版本支持将采集的精华文章内容自动存储为ACCESS数据库。
确保您的计算机可以连接互联网,且防火墙不会阻止软件运行。
运行SETUP.EXE和setup2.exe,以安装操作系统system32支持库。
运行spider.exe,输入网址入口,点击“手动添加”按钮,再点击“启动”按钮,采集过程将自动开始。
爬取深度: 填写0表示不限深度;填写3表示抓取到第三层。
通用蜘蛛与分类蜘蛛: 以“http://youxi.baidu.com/”为例,通用蜘蛛将解析“baidu.com”下的所有网页,而分类蜘蛛仅解析“youxi.baidu.com”下的网页。
导入功能: 使用“从MDB导入”按钮,可以从TASK.MDB中批量导入网址入口。
采集范围: 软件遵循不越站原则,即只在指定的网站内进行爬取。
错误提示处理: 采集过程中可能会弹出错误提示框,请忽略它们,关闭错误提示框可能会导致采集中断。
主题选择: 用户可以根据需要选择采集主题,例如,若要采集“股市类”文章,只需将相关网站作为网址入口即可。
高精度: 精准识别并提取文章中的关键信息。
自动化: 全自动化的采集流程,节省时间和人力成本。
灵活性: 支持多种数据格式和存储方式。
扩展性强: 可根据用户需求定制采集规则和内容。
若需要最新版本的软件,请通过QQ(970093569)联系我们获取更多信息。
安装快捷方式
修改或删除您的SD卡中的内容
拥有完全的网络访问权限
控制振动
查看网络连接
开机启动
防止手机休眠
在其他应用之上显示内容
录音
更改您的音频设置
拍摄照片和视频
连接WLAN网络和断开连接
查看WLAN连接
关闭其他应用
卸载快捷方式
让应用始终运行
修改系统设置
检索正在运行的应用
读取您的通讯录
与蓝牙设备配对
访问蓝牙设置
发送持久广播
写入/删除您的通讯录
使用指纹硬件
更改网络连接性
展开/收拢状态栏
查找设备上的帐号
写入/删除您的通讯录
读取同步设置
启用和停用同步
停用屏幕锁定
允许接收WLAN多播
添加或修改日历活动,并在所有者不知情的情况下向邀请对象发送电子邮件
读取日历活动和机密信息
关闭其他应用
请求安装文件包
连接WLAN网络和断开连接
拥有完全的网络访问权限
查看WLAN连接
查看网络连接
访问确切位置信息(以 GPS 和网络为依据)
访问大致位置信息(以网络为依据)
拍摄照片和视频
防止手机休眠
安装快捷方式
开机启动
发送持久广播
控制近距离通信
对正在运行的应用重新排序
读取您的SD卡中的内容