2023-06-11 / 291阅
在 WordPress 中,可以使用 PHP 自带的 cURL 库或者 WordPress 提供的 WP_Http 类来抓取数据。抓取到的数据可以是 HTML 页面、XML 数据、JSON 数据等等,然后需要对这些数据进行进一步的处理才能使用。
以下是一个示例代码,演示了如何使用 WP_Http 类和正则表达式来抓取 HTML 页面,并提取页面中的标题和正文:
$url = 'https://www.example.com/';
// 使用 WP_Http 类抓取 HTML 页面
$request = wp_remote_get( $url );
if ( !is_wp_error( $request ) && wp_remote_retrieve_response_code( $request ) == 200 ) {
// 获取 HTML 页面内容
$html = wp_remote_retrieve_body( $request );
// 使用正则表达式匹配标题和正文
preg_match( '/<title>(.*?)</title>/', $html, $title );
preg_match( '/<body>(.*?)</body>/', $html, $body );
// 显示标题和正文
echo '<h1>' . $title[1] . '</h1>';
echo '<div>' . $body[1] . '</div>';
} else {
echo '抓取页面失败';
}
在这个示例代码中,首先使用 wp_remote_get()
函数抓取了指定 URL 的 HTML 页面,并判断了请求是否成功。如果请求成功,就获取页面的 HTML 内容,并使用正则表达式匹配出页面中的标题和正文。
匹配出来的标题和正文分别存放在 $title
和 $body
数组中,通过 $title[1]
和 $body[1]
可以获取到匹配的结果。最后将标题和正文输出到页面上。
需要注意的是,在使用正则表达式提取数据时,要根据具体的数据格式和标签结构来编写匹配规则,以免出现匹配错误或者漏掉某些内容的问题。
阅读文章或者观看视频过程中有任何问题,请下方留言或者联系我Q248758228