1 3 7 - 1 4 4 1 - 9 7 9 7
您现在的位置:首页 > 产品系列 > 信息采集
文章信息采集系统是网上信息采集系统是根据用户定义的关键词字,从互联网上检索出相关的数据,并对数据进行合理的截取、分类、去重和过滤,并以文件或数据库的方式保存下来。
124.jpg
实时网上采集(内容抓取模块) 快速:网页抓取采用多线程并发搜索技术,并可设置并发线程的最大个数。灵活:可以同时跟踪抓取多个网站,能够提供灵活的网站、栏目或频道的采集策略,以及利用逻辑关系定位采集内容。准确:不多抓与少抓,可自定义需要抓取的文件格式,能够抓取图片和表格信息,抓取过程成熟可靠,容错性强,完成初始设定后可长时间稳定运行。 高效自动分类支持机检分类――能够利用预定义的关键词和规则方法判定类别;支持自动分类――通过机器自动学习或预学习自动分类,并达到80%以上的准确率。支持多种分类标准――比如按地域、内容、来源等。 自动网页分析内容过滤――能够过滤掉广告、导航信息、版权等无用信息,能够剔除反动、色情内容。内容排重――对于不同网站相同或雷同的内容,能够自动判别并标注为雷同,判别的方法可以由用户定义的规则判定及自动按内容的相似度判定。格式转换――自动将HTML格式转换为文本文件。自动标引――对网页自动提取标题、版次、日期、作者、栏目、分类等信息。 系统管理整合的单一界面――系统提供基于Web的用户使用界面和管理员界面,满足系统管理员和用户双重需求,可利用浏览器远程管理分类目录、用户权限并调整、加强分类结果。完整的目录维护――提供完整的对分类目录进行新增、移动、修改、删除等管理维护权限管理,可设定管理目录和单一文件使用权限,加强安全管理。实时的文件管理――可以浏览每个目录分类结果,并实时进行移动、更名等调整。
123.jpg


  • QQ好友
  • QQ空间
  • 腾讯微博
  • 新浪微博
  • 人人网
  • 豆瓣网
  • Facebook
  • Twitter
  • linkedin
  • 谷歌Buzz


线

网软通在线


在线客服: 点击这里给我发消息                        

1231.jpg

留言内容