利用 PHP 爬虫获取淘宝商品 SKU 详细信息实战指南-CRMEB社区

利用 PHP 爬虫获取淘宝商品 SKU 详细信息实战指南

管理

编辑

删除

在电商领域，淘宝商品的 SKU（库存单位）详细信息对于商家优化库存管理、制定价格策略以及进行市场分析具有重要价值。本文将详细介绍如何利用 PHP 爬虫技术获取淘宝商品的 SKU 详细信息，并提供完整的代码示例。

一、前期准备

（一）环境搭建

确保你的开发环境中已经安装了 PHP 7.4+，并配置了环境变量。

（二）安装必要的 PHP 库

通过 Composer 安装以下库，用于发送 HTTP 请求和解析 HTML 数据：

GuzzleHttp：用于发送 HTTP 请求。
DOMDocument：用于解析 HTML 页面。
在 composer.json 文件中添加以下依赖：
JSON

{
    "require": {
        "guzzlehttp/guzzle": "^7.0"
    }
}

运行 composer install 命令来安装依赖。

二、编写爬虫代码

（一）发送 HTTP 请求

使用 GuzzleHttp 库发送 GET 请求，获取商品评论页面的 HTML 内容：

php

<?php
require 'vendor/autoload.php';

use GuzzleHttp\Client;

function getHtml($url) {
    $client = new Client();
    $response = $client->request('GET', $url, [
        'headers' => [
            'User-Agent' => 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
        ]
    ]);
    return $response->getBody()->getContents();
}
?>

（二）解析 HTML 内容

使用 DOMDocument 和 DOMXPath 解析 HTML 内容，提取评论数据：

php

<?php
function parseHtml($html) {
    $doc = new DOMDocument();
    @$doc->loadHTML($html);
    $xpath = new DOMXPath($doc);
    $comments = [];
    $items = $xpath->query('//div[@class="comment-list"]/div[@class="comment-inner"]');
    foreach ($items as $item) {
        $content = $xpath->query('.//div[@class="comment-content"]/p', $item)->item(0)->nodeValue;
        $comments[] = trim($content);
    }
    return $comments;
}
?>

（三）按关键字搜索商品评论

根据商品 ID 构建评论请求 URL，并获取评论数据：

php

<?php
function getTaobaoComments($itemId, $page = 1) {
    $url = "https://rate.taobao.com/feedRateList.htm";
    $params = [
        'auctionNumId' => $itemId,
        'currentPageNum' => $page,
        'pageSize' => 20,
        'rateType' => 1, // 1-全部评价 2-好评 3-中评 4-差评
        'orderType' => 'sort_weight' // 排序方式
    ];
    $headers = [
        'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
        'Referer: https://item.taobao.com/item.htm?id='.$itemId,
        'Accept: application/json'
    ];
    $ch = curl_init();
    curl_setopt($ch, CURLOPT_URL, $url.'?'.http_build_query($params));
    curl_setopt($ch, CURLOPT_HTTPHEADER, $headers);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
    curl_setopt($ch, CURLOPT_COOKIEFILE, 'taobao_cookies.txt');
    curl_setopt($ch, CURLOPT_COOKIEJAR, 'taobao_cookies.txt');
    curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
    $response = curl_exec($ch);
    curl_close($ch);
    // 处理 JSONP 响应
    $response = preg_replace('/^jsonp\d+(/', '', rtrim($response, ')'));
    return json_decode($response, true);
}
?>

（四）解析评论数据

解析返回的 JSON 数据，提取评论内容：

php

<?php
function parseComments($rawData) {
    $comments = [];
    if (!isset($rawData['comments'])) {
        return $comments;
    }
    foreach ($rawData['comments'] as $item) {
        $comment = [
            'id' => $item['id'],
            'author' => $item['user']['nick'],
            'content' => $item['content'],
            'date' => $item['date'],
            'rate' => $item['rate'],
            'photos' => [],
            'append' => null
        ];
        if (isset($item['photos']) && is_array($item['photos'])) {
            foreach ($item['photos'] as $photo) {
                $comment['photos'][] = 'https:'.$photo['url'];
            }
        }
        if (isset($item['appendComment'])) {
            $comment['append'] = [
                'content' => $item['appendComment']['content'],
                'date' => $item['appendComment']['date']
            ];
        }
        $comments[] = $comment;
    }
    return $comments;
}
?>

（五）整合代码

将上述功能整合到主程序中，实现完整的爬虫程序：

php

<?php
require 'vendor/autoload.php';

$goodsId = '1005006'; // 商品 ID
$pageNum = 1; // 评论分页页码
$rawData = getTaobaoComments($goodsId, $pageNum);
$comments = parseComments($rawData);
foreach ($comments as $comment) {
    echo "昵称: " . $comment['author'] . "\n";
    echo "评论内容: " . $comment['content'] . "\n";
    echo "评论时间: " . $comment['date'] . "\n";
    echo "----------------------\n";
}
?>

三、注意事项与优化建议

（一）遵守法律法规

在进行爬虫操作时，必须严格遵守相关法律法规，尊重网站的 robots.txt 文件规定。

（二）合理设置请求频率

避免过高的请求频率导致对方服务器压力过大，甚至被封禁 IP。

（三）应对反爬机制

淘宝平台可能会采取一些反爬措施，如限制 IP 访问频率、识别爬虫特征等。可以通过使用动态代理、模拟正常用户行为等方式应对。

（四）数据存储与分析

将抓取到的评论数据存储到数据库或文件中，以便后续分析和使用。

四、总结

通过上述步骤和代码示例，你可以高效地利用爬虫技术获取淘宝商品评论数据。无论是用于市场调研、竞品分析还是用户体验优化，这些数据都将为你提供强大的支持。希望本文的示例和策略能帮助你在爬虫开发中更好地应对各种挑战，确保爬虫程序的高效、稳定运行。