实时网上采集(内容抓取模块) 快速:网页抓取采用多线程并发搜索技术,并可设置并发线程的最大个数。灵活:可以同时跟踪抓取多个网站,能够提供灵活的网站、栏目或频道的采集策略,以及利用逻辑关系定位采集内容。准确:不多抓与少抓,可自定义需要抓取的文件格式,能够抓取图片和表格信息,抓取过程成熟可靠,容错性强,完成初始设定后可长时间稳定运行。 高效自动分类支持机检分类――能够利用预定义的关键词和规则方法判定类别;支持自动分类――通过机器自动学习或预学习自动分类,并达到80%以上的准确率。支持多种分类标准――比如按地域、内容、来源等。 自动网页分析内容过滤――能够过滤掉广告、导航信息、版权等无用信息,能够剔除反动、色情内容。内容排重――对于不同网站相同或雷同的内容,能够自动判别并标注为雷同,判别的方法可以由用户定义的规则判定及自动按内容的相似度判定。格式转换――自动将HTML格式转换为文本文件。自动标引――对网页自动提取标题、版次、日期、作者、栏目、分类等信息。 系统管理整合的单一界面――系统提供基于Web的用户使用界面和管理员界面,满足系统管理员和用户双重需求,可利用浏览器远程管理分类目录、用户权限并调整、加强分类结果。完整的目录维护――提供完整的对分类目录进行新增、移动、修改、删除等管理维护权限管理,可设定管理目录和单一文件使用权限,加强安全管理。实时的文件管理――可以浏览每个目录分类结果,并实时进行移动、更名等调整。 |