MSRBot Web Crawler

 
 
 
      我们可以使用MSRBot Web Crawler从网页中收集数据,以用于今后的研究。  
         
      概述:微软研究院研发出了一款非常出色的Web Crawler应用程序,用来支持多种内部研究项目。该  
    程序被命名为MSRBot Web Crawler,微软目前已经对其提供了相应的授权。该web crawler可以通过抓取链接以及离线存储网页内容的方式,来扫描大量的网站和URL。该款web crawler是可以进行升级的,并且可以并行管理新的机器,它有很强的可扩展性,允许用户对数据处理进行定制化。该web crawler是用很先进的代码来编写的,总共只有8800行C#代码。任何需要扫描网页内容或者离线存储扫描过的内容的公司,都可以使用MSRBot web crawler,比如像测试机构,拥有大量图片或多媒体的企业,市场调查公司以及使用搜索引擎的公司等等。  
         
  优势:快速,灵活,具有很强的可伸缩性、扩展性以及可管理性
   
  技术规范:
   

●用C#编写的原型

    ●8800行源代码,二进制应用程序
    ●额外采用NUnit软件单元测试框架编写的2300行测试代码
   
  核心用途:
    1.用户希望开发一个庞大的索引或者存储来自各种网站的文件
    2.用户希望处理大量的网站内容以实现不同的用途,如扫描文字,扫描侵权、盗版信息等
     等
    3. 用户希望对现有的网站进行完全的脱机拷贝  
     
 
 
   
       
       
       
       
       
       
       
       
       
       
       
       
关于中心 | 联系我们 | 招聘信息 | 寻求合作 | 版权说明
本站内容清华大学国际技术转移中心发布维护
CopyRight 2002 All Rights Reserved