Javascript Map堆内存不足-使用Cheerio进行Web抓取请求到数千个页面
我目前正在使用网络抓取工具,以抓取评估人的本地州房屋数据。事情进展得很顺利,但是不幸的是,数据非常嵌套,因此我必须做很多工作才能真正获得所需网页的正确链接。
数据的结构如下:
有81个城镇,因此每个城镇都有一系列链接。
每条街道的开头大约有20-30个字母/符号(因为街道是由本网站上的首个字母分页的),所以我需要获取每个城镇的街道链接(将我们放在大约2500页上)
每个字母大约有20条街道,我需要刮擦这些页面才能在每条街道上获得房屋(45,000页)
每条街道平均有16座房屋,我需要这些URL(75000...