首页 > 文章 > php教程

PHP结合CURL高效抓取新闻列表及详情技巧

时间：2025-03-20 17:39:10 424浏览收藏

本文详解如何利用PHP和cURL高效抓取新闻网站的列表和详情。通过cURL获取目标网站HTML，并结合正则表达式提取新闻标题、链接和内容。文章提供详细代码示例，演示如何处理相对路径，并使用正则表达式匹配信息，最终实现新闻数据的完整抓取。文中也提示了正则表达式需根据目标网站结构调整，并建议使用更高级的HTML解析库提升效率和健壮性，例如DOMDocument。学习本文，快速掌握PHP和cURL高效采集新闻数据的方法。

如何用PHP和CURL高效采集新闻列表及详情？

本文将阐述如何利用PHP和cURL高效抓取目标网站的新闻列表和新闻详情，并展示最终结果。关键在于高效运用cURL获取数据，处理相对路径并提取所需信息。

首先，解决第一个挑战：从列表页（例如，页面1）提取新闻标题和完整URL。代码示例如下：

(.+?)<\/a>/i', $html, $matches);

$newslist = [];
foreach ($matches[1] as $key => $href) {
    $title = $matches[2][$key];
    // 处理相对路径
    $completeurl = 'http://www.xx.com' . $href; // 将相对路径转换为完整路径
    $newslist[] = ['title' => $title, 'url' => $completeurl];
}

// 打印新闻列表
print_r($newslist);
?>

这段代码首先使用cURL获取列表页的HTML内容。然后，运用正则表达式/\(.+?)<\/a>/i 提取标签中的href属性（链接）和文本内容（标题）。关键在于将提取到的相对路径与网站根域名拼接成完整的URL。

接下来，解决第二个挑战：对每个新闻链接进行二次抓取，提取新闻内容。我们可以改进上述代码：

(.*?)<\/div>/is', $detailHtml, $contentMatch);
    $content = isset($contentMatch[1]) ? strip_tags($contentMatch[1]) : ''; // 处理内容可能不存在的情况，并去除HTML标签

    // 展示结果
    echo "标题: " . $news['title'] . "

";
    echo "链接: " . $news['url'] . "

";
    echo "内容: " . $content . "


";
}
?>
这段代码遍历$newslist，对每个新闻链接再次使用cURL获取详情页HTML，并使用正则表达式/\
(.*?)<\/div>/is 提取新闻内容（请根据目标网站的实际HTML结构调整正则表达式）。isset($contentMatch[1]) ? strip_tags($contentMatch[1]) : '' 确保即使没有匹配到内容也不会报错，并且使用strip_tags()函数去除HTML标签，只保留文本内容。 最后，代码将标题、链接和内容打印出来。
请注意，http://www.xx.com/news 需要替换为实际的列表页URL，并且正则表达式需要根据目标网站的HTML结构进行调整。  为了提高效率和健壮性，建议使用更高级的HTML解析库，例如DOMDocument。
今天关于《PHP结合CURL高效抓取新闻列表及详情技巧》的内容就介绍到这里了，是不是学起来一目了然！想要了解更多关于的内容请关注golang学习网公众号！