当前位置: 首页 > 图文教程 > 工具软件 > 办公软件 > 巧用WORD导出干净的网页文本

办公软件
源文件有改动 需刷新已导入Excel中的数据
不让Excel图表随源数据改变而改变
实时更新Excel文档外部数据源的数据
实现Excel动态链接外部数据库
从SharePoint列表往Excel导入数据
使用向导将数据从文本文件导入Excel中
Excel和Access间复制、导入和导出数据
Excel工作簿连接(导入)外部数据的方法
巧用宏快速合并200个Excel工作簿
Publisher 2007排版实例 模拟一张火车票
挽救文件 为你的WPS文件上个保险
在线版“PowerPoint”,Google演示文稿初体验
WPS表格提取身份证详细信息
巧用WPS表格制作倒计时
Word 2007自选图形操作技巧三则
Word 2007在文档中插入半页稿纸的小技巧
WPS文字插入表格简单实用技巧
关于Office文档保存的几点小常识
Office文档打印成为TIFF图形文件的步骤
巧用宏随意提取Excel单元格的批注内容

办公软件 中的 巧用WORD导出干净的网页文本


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2009-11-01   浏览: 60 ::
收藏到网摘: n/a

平常爱逛一些音乐坛子,遇到好听的音乐必下之而后快,而且有些帖子附有歌词、介绍,当然也不能放过,将其复制存成文本更方便了我们这些爱好者日后的收藏、练唱。不过最近却发现有的坛子里的网页文字不是那么好保存了。

过去见到需要的网页内容,只需点击浏览器的“文件”-》“另存为”命令并选“文本类型”项即可得到想要的文字,但现在有些坛子似乎并不希望访客那么容易的得到它帖子里的文字内容,虽然浏览时并无任何异常,但当将其存成文本文件时就会发现文件里除了你想要的文字外还多了许多不相干的乱码文字(见图一),导致我们无法正常查看和编辑这些文件的内容了。这到底是怎么回事呢?


分析原因

先将想要的内容存为网页文件(HTML格式),通过查看其源代码便会发现其中的奥秘(见图二)。在帖子每行的文字中间都被加入了一大段的干扰文字,其内容甚至含有低值ASCII码(就是通常指的控制字符)且每段的干扰文字内容也都不尽相同,它们就是我们在导出文本时所看到的那些不相干文字。显然这种处理不是由发贴人所做的,而是由坛子的管理者有意为之的结果。


但是在我们浏览网页时为什么没有看到这些干扰文字呢?看看这些文字前面的HTML语言代码就明白了。经过分析发现,干扰文字被用了两种方式加到了这些网页中:<SPAN>和<FONT>。代码<SPAN STYLE=“DISPLAY:NONE”>。。。</SPAN>中的STYLE语法表明这段文字在浏览时不会被显示出来;而代码<FONT STYLE=“FONT-SIZE:0PX;COLOR:#F8F8F8”>。。。</FONT>中的两语法更限定了它所包含的文字在浏览时显示为0字号、浅色。这也就是我们在网页上看不到而在存为文本时却能发现这些干扰文字的原因了。

问题的解决

要消除这些干扰文字并还原得到我们想要的文字的文本内容,一般都会想到使用各类编辑软件的查找替换功能来实现,而事实并不那么简单。由于这些干扰文字里含有控制字符和回车换行符,就使得许多不支持低值ASCII码操作和多行替换处理的编辑软件只能望之兴叹了。经过笔者的多次测试,最后发现用最常见的WINWORD软件来处理才是最好的选择。

操作步骤如下:

1. 浏览时先将网页内容存为HTML页面格式:点击浏览器“文件”-》“另存为”命令并选“仅HTML页面”项;

2. 用系统自带的记事本软件打开该网页文件:点击“文件”-》“打开”命令并在文件名处输入先前保存好的网页文件全称(带扩展名如ABCD.HTM);

3. 这时你在记事本中看到的是文件的全部源代码,选“编辑”-》“全选”和“复制”命令,接着新建一空白WORD文件并选“编辑”-》“粘贴”命令,将所有源代码转移到WORD文件中;

4. 在WORD程序中点击“编辑”-》“替换”命令进行处理。首先选中“使用通配符”选项,根据前面的分析结果在查找栏处输入要查找的文字并执行替换命令(见图三)。


它们分别是:

\<SPAN STYLE=“DISPLAY:NONE”\>*\</SPAN\>

及\<FONT STYLE=“FONT-SIZE:0PX;COLOR:#F8F8F8”\>*\</FONT\>

其中替换栏处为空,目的是将所涉及文字全部去除。

5. 执行完上述替换命令后,点击“文件”-》“另存为”命令将处理后的文字保存为新的网页文件。注意:保存时“保存类型”处不要选“WEB页”项而选“带换行符的纯文本”项,且“文件名称”处应填入带指定扩展名的名字,如“EFGH.HTM”;

6. 双击打开新保存的网页文件,点击“文件”-》“另存为”命令并选“文本文件”项。最后得到的新文件就是去除了干扰文字后干净的文本内容了(如图四);


提示

不同的网站会加入不同的干扰文字,但其原理大多是一样的,通常都是通过<SPAN>、<FONT>等HTML语言代