在电商领域,淘宝商品的 SKU(库存单位)详细信息对于商家优化库存管理、制定价格策略以及进行市场分析具有重要价值。本文将详细介绍如何利用 PHP 爬虫技术获取淘宝商品的 SKU 详细信息,并提供完整的代码示例。
一、前期准备
(一)环境搭建
确保你的开发环境中已经安装了 PHP 7.4+,并配置了环境变量。
(二)安装必要的 PHP 库
通过 Composer 安装以下库,用于发送 HTTP 请求和解析 HTML 数据:
- GuzzleHttp:用于发送 HTTP 请求。
- DOMDocument:用于解析 HTML 页面。
- 在 composer.json 文件中添加以下依赖:
- JSON
{
"require": {
"guzzlehttp/guzzle": "^7.0"
}
}
运行 composer install 命令来安装依赖。
二、编写爬虫代码
(一)发送 HTTP 请求
使用 GuzzleHttp 库发送 GET 请求,获取商品评论页面的 HTML 内容:
php
<?php
require 'vendor/autoload.php';
use GuzzleHttp\Client;
function getHtml($url) {
$client = new Client();
$response = $client->request('GET', $url, [
'headers' => [
'User-Agent' => 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
]
]);
return $response->getBody()->getContents();
}
?>
(二)解析 HTML 内容
使用 DOMDocument 和 DOMXPath 解析 HTML 内容,提取评论数据:
php
<?php
function parseHtml($html) {
$doc = new DOMDocument();
@$doc->loadHTML($html);
$xpath = new DOMXPath($doc);
$comments = [];
$items = $xpath->query('//div[@class="comment-list"]/div[@class="comment-inner"]');
foreach ($items as $item) {
$content = $xpath->query('.//div[@class="comment-content"]/p', $item)->item(0)->nodeValue;
$comments[] = trim($content);
}
return $comments;
}
?>
(三)按关键字搜索商品评论
根据商品 ID 构建评论请求 URL,并获取评论数据:
php
<?php
function getTaobaoComments($itemId, $page = 1) {
$url = "https://rate.taobao.com/feedRateList.htm";
$params = [
'auctionNumId' => $itemId,
'currentPageNum' => $page,
'pageSize' => 20,
'rateType' => 1, // 1-全部评价 2-好评 3-中评 4-差评
'orderType' => 'sort_weight' // 排序方式
];
$headers = [
'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
'Referer: https://item.taobao.com/item.htm?id='.$itemId,
'Accept: application/json'
];
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url.'?'.http_build_query($params));
curl_setopt($ch, CURLOPT_HTTPHEADER, $headers);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_COOKIEFILE, 'taobao_cookies.txt');
curl_setopt($ch, CURLOPT_COOKIEJAR, 'taobao_cookies.txt');
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
$response = curl_exec($ch);
curl_close($ch);
// 处理 JSONP 响应
$response = preg_replace('/^jsonp\d+(/', '', rtrim($response, ')'));
return json_decode($response, true);
}
?>
(四)解析评论数据
解析返回的 JSON 数据,提取评论内容:
php
<?php
function parseComments($rawData) {
$comments = [];
if (!isset($rawData['comments'])) {
return $comments;
}
foreach ($rawData['comments'] as $item) {
$comment = [
'id' => $item['id'],
'author' => $item['user']['nick'],
'content' => $item['content'],
'date' => $item['date'],
'rate' => $item['rate'],
'photos' => [],
'append' => null
];
if (isset($item['photos']) && is_array($item['photos'])) {
foreach ($item['photos'] as $photo) {
$comment['photos'][] = 'https:'.$photo['url'];
}
}
if (isset($item['appendComment'])) {
$comment['append'] = [
'content' => $item['appendComment']['content'],
'date' => $item['appendComment']['date']
];
}
$comments[] = $comment;
}
return $comments;
}
?>
(五)整合代码
将上述功能整合到主程序中,实现完整的爬虫程序:
php
<?php
require 'vendor/autoload.php';
$goodsId = '1005006'; // 商品 ID
$pageNum = 1; // 评论分页页码
$rawData = getTaobaoComments($goodsId, $pageNum);
$comments = parseComments($rawData);
foreach ($comments as $comment) {
echo "昵称: " . $comment['author'] . "\n";
echo "评论内容: " . $comment['content'] . "\n";
echo "评论时间: " . $comment['date'] . "\n";
echo "----------------------\n";
}
?>
三、注意事项与优化建议
(一)遵守法律法规
在进行爬虫操作时,必须严格遵守相关法律法规,尊重网站的 robots.txt 文件规定。
(二)合理设置请求频率
避免过高的请求频率导致对方服务器压力过大,甚至被封禁 IP。
(三)应对反爬机制
淘宝平台可能会采取一些反爬措施,如限制 IP 访问频率、识别爬虫特征等。可以通过使用动态代理、模拟正常用户行为等方式应对。
(四)数据存储与分析
将抓取到的评论数据存储到数据库或文件中,以便后续分析和使用。
四、总结
通过上述步骤和代码示例,你可以高效地利用爬虫技术获取淘宝商品评论数据。无论是用于市场调研、竞品分析还是用户体验优化,这些数据都将为你提供强大的支持。希望本文的示例和策略能帮助你在爬虫开发中更好地应对各种挑战,确保爬虫程序的高效、稳定运行。