Crawler.Engine:爬虫框架

网友投稿 639 2022-10-14

Crawler.Engine:爬虫框架

Crawler.Engine

爬虫框架

主要有4个模块组成:

Crawler.IDownloader

-模块,结果传递给Crawler.IDownloadResultProcesser模块。

Crawler.IDownloadResultProcesser

结果处理模块。 1.找到所有的Url,传递到Crawler.IScheduler模块。 2.把结果传递到Crawler.IPipeline模块。

Crawler.IScheduler

Urls管理模块。

Crawler.IPipeline

结果处理管道。实现了树形管道。

使用:

using (new Engine( new Downloader(), new DownloadResultProcesser(), new Scheduler()) .AddUrls(new List { "https://baidu.com/" }) .AddPipeline( new FindAllUrlsPipeline() .NextPipeline(new WriteUrlsToConsolePipeline()) .NextPipeline(new WriteUrlsToFilePileline("urls.txt")) ).Run()) { while ('y' != Console.ReadKey().KeyChar) ;}

当然,你需要写自己的管道逻辑来处理你的业务,你只需要继承AbstractPipeline即可,适当扩展,就可以。

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:软件测试面试题:如何通过子元素定位父元素?
下一篇:软件测试面试题:如何判断一个页面上元素是否存在?(方法二)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~