nodejs前端开发案例_妹子图爬虫

nodejs 前端开发环境|前端开发nodejs|前端开发用nodejs干什么?

爬虫用到了几个模块,cheerio,iconv,async,request

cheerio是一个有着jquery类似语法的文档解析模块,你可以简单理解为nodejs中的jquery

iconv是用于解析gbk编码的中文网站

request模块是一个HTTP客户端请求模块,使用非常简单,除支持一般http请求外,还可以更复杂的http请求,如:https请求、请示重定向、数据流转接、form表单提交、HTTP认证、OAuth登录、自定义HTTP header等。

async是一个异步流程控制模块,在这里我们主要用到async的mapLimit(coll, limit, iteratee, callback)

javascript 代码

async.mapLimit(urls, 10, function (url, callback) {
    fetchUrl(url, callback, id)
}, function (err, results) {
    //TODO
})

第一个参数coll是一个数组,保存了请求的url,第二个参数limit是控制并发数,第三个参数iteratee接受一个回调函数,该回调函数的第一个参数就是单独一个url,第二个参数也是一个回调函数,这个回调函数执行后会把结果(此处是每一个地址中的图片地址)保存到第四个参数callback的results中,results是一个数组,保存了所有内容。

代码:
javascript 代码

//引入模块
const http = require(‘http’)
const fs = require(‘fs’)
const cheerio = require(‘cheerio’)
const iconv = require(‘iconv-lite’)
const request = require(‘request’)
const async = require(‘async’);
const urlList = [] //地址列表
var id = 0 //计数器
//由于煎蛋妹子图的地址格式一样,所以只要拼接地址就好了
for (var i = 193; i > 190; i–) {
    urlList.push(‘http://jandan.net/ooxx/page-‘ + i)
}
function getPages(url, callback) {
    http.get(url, res => {
        const html = []
        res.on(‘data’, (chunk) => {
            html.push(chunk)
        })
        res.on(‘end’, () => {
            //如果网站是gbk编码,可以转成utf8,否则可能乱码
            const html1 = iconv.decode(Buffer.concat(html), ‘utf8’)
            //cheerio模块用来一jQuery的语法解析爬取的页面
            const $ = cheerio.load(html1, {
                decodeEntities: false
            })
            const link = []
            $(‘.view_img_link’).each((i, v) => {
                link.push($(v).attr(‘href’))
            })
            callback(null, link)
        })
    })
}
function saveImage(links) {
    if (!fs.existsSync(`images/jiandan`)) {
        fs.mkdirSync(`images/jiandan`)
    }
    //此处links为一个二维数组,每个元素也是数组,保存了每个地址的多张图片地址,所以需要合并
    var newArr = []
    for (var i = 0; i < links.length; i++) {
        newArr = newArr.concat(links[i])
    }
    console.log(‘length:’ + newArr.length)
    async.mapLimit(newArr, 5, function (link, callback) {
        id++ //id充当计数器,保存一张图片就打印一次
        requestAndwrite(link, callback, id)
    }, function (err, results) {
        if (err) {
            console.log(err)
        } else {
            console.log(results)
        }
    })
}
var requestAndwrite = function (link, callback, id) {
    const url = ‘http:’ + link
    request.head(url, function (err, res, body) {
        if (err) {
            console.log(err)
        } else {
            request(url).pipe(fs.createWriteStream(`images/jiandan/${link.split(‘/’).pop()}`)).on(‘close’, function () {
                console.log(id)
                callback(null, ‘result’)
            })
        }
    })
}
//
async.mapLimit(urlList, 5, function (url, callback) {
    getPages(url, callback)
}, function (err, links) {
    saveImage(links)
})

node.js能开发前端吗?|前端开发中运用哪些nodejs?|基于nodejs前端开发案例

» 本文来自:前端开发者 » 《nodejs前端开发案例_妹子图爬虫》
» 本文链接地址:https://www.rokub.com/4077.html
» 您也可以订阅本站:https://www.rokub.com
赞(0)
64K

评论 抢沙发

评论前必须登录!