对于新闻、通知、公告之类的信息,对手机设备用户来说,最关心的是文字内容,因此我们的主要工作就是按照一定的格式(比如该换行分段的地方要换行分段)来从原来的 HTML 页面里提取出纯文本信息,并将其转化为 WML。下面的代码演示了如何来实现这个步骤:
function text2wml($content) {
// 将 WML 变量前缀"$"转义
$content = str_replace('$', '$$', $content);
// 转换特殊字符,并将 Windows/DOS 换行符(\r\n)转化为 Unix 换行符(\n)
$content = str_replace("\r\n", "\n", htmlspecialchars($content));
// 通过换行符来将各行分开进行处理(过滤空行)
$content = explode("\n", $content);
for ($i = 0; $i < count($content); $i++) {
// 过滤首尾空格
$content[$i] = trim($content[$i]);
// 如果去掉全角空格为空行,则设为空行,否则不对全角空格过滤。
if (str_replace(" ", "", $content[$i]) == "") $content[$i] = "";
}
//合并各行,转化为 WML,并过滤掉空行
$content = str_replace("
".implode("
\n", $content)."
\n");return $content;
}
function html2wml($content) {
// 过滤掉样式表和脚本
$content = preg_replace("/
$content = preg_replace("/
// 首先将各种可以引起换行的标签(如
、
之类)替换成换行符"\n"
$content = preg_replace("/
/i", "\n", $content);
$content = preg_replace("/<\/?p>/i", "\n", $content);
$content = preg_replace("/<\/?td>/i", "\n", $content);
$content = preg_replace("/<\/?div>/i", "\n", $content);
$content = preg_replace("/<\/?blockquote>/i", "\n", $content);
$content = preg_replace("/<\/?li>/i", "\n", $content);
// 将" "替换为空格
$content = preg_replace("/\ \;/i", " ", $content);
// 某些不规范的网页中可能有" ",在普通网页中显示会按照" "显示,不会引起错误,但是在 WAP 中会原样显示,因此也要替换成空格。
$content = preg_replace("/\ /i", " ", $content);
// 过滤掉剩下的 HTML 标签
$content = strip_tags($content);
// 将 HTML 中的实体(entity)转化为它所对应的字符(WML 仅支持很有现的几个 entity),这里我转化的是中文网页,因此我指定了"GB2312"编码。
$content = html_entity_decode($content, ENT_QUOTES, "GB2312");
// 过滤掉不能转化的实体(entity)
$content = preg_replace("/\&\#.*?\;/i", "", $content);
// 上面是将 HTML 网页内容转化为带换行的纯文本,下面是将这些纯文本转化为 WML。
return text2wml($content);
}
?>