2004/12/17 | 搜索引擎优化专栏—PDF文件的优化
类别(技术) | 评论(0) | 阅读(21) | 发表于 15:36

PDF(Portable Document Format)是Adobe公司开发的电子文件格式,使用工业标准的压缩算法,易于传输和储存,且可在各种操作系统平台中通用,因而成为网络上电子文档发行和数字化信息传播的理想文档格式。目前PDF已发展成为数字化信息的一个事实上的工业标准。

PDF具备许多其它电子文档格式无法相比的种种优点,如可将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中,亦可包含超链、声音和动态影像等电子信息,并逐渐成为出版业中的新宠。越来越多的电子书籍、产品说明、技术文档等都开始使用PDF格式。

迄今为止,大多数主流搜索引擎都能支持对PDF格式文件的信息检索,但在搜索引擎的排名算法中PDF文件还没有HTML文件那么得宠,不过既然搜索引擎已然认识到PDF的使用普及性,相信这一状况会逐渐得到改善。

认识到这一点,对网站上所提供的PDF格式的电子图书、产品说明或技术文档等信息资料进行适当的优化,无疑是从搜索引擎那里争取更多访问量的一条出路。

1. PDF文件的优化

在将文件转换成PDF文件前,我们可先进行下面这样一些优化
A. 内容的优化
如果使用的是象MS WORD这样的文字处理软件,则可在文件转换成PDF格式前对内容进行适当优化,优化步骤与普通的HTML文件基本相同:诸如在标题和内容中适当包含关键词,丰富内容的相关性,对标题使用H1、H2、H3格式,内容中重要部分以粗体或大字号显示,等等。完成优化后再把文件转换为PDF格式,然后放到网站的相应内容下供搜索引擎检索。

B. 文件属性的优化
Adobe Acrobat6.0版提供了两个地方供用户自行设置文件属性,我们可利用这一点对对文件属性进行相关性优化:

文件说明 文件元数据说明
文件/文件属性/说明
(File/Document Properties/Description)
高级/文件元数据/说明
(Advanced/Document Metadata/Description)
标题   Title 标题   Title
作者   Author 作者   Author
主题   Subject 描述   Description
关键词   Keywords 描述作者   Description Writer
    关键词   Keywords
    版权声明   Copyright State
    版权注意事项   Copyright Notice
    版权资讯网站   Copyright Info URL
  由于上述两种途径有一些相同设置区域,所以我们有必要了解一下PDF文件是如何存储这些数据的。这一点也能更好地帮助我们猜测搜索引擎如何读取这些数据。
  文件属性说明 文件元数据说明
标题(Title) 同一内容
作者(Author) 同一内容
主题(Subject) 前者“主题”中的内容会出现在后者的"描述"内容中
关键词(Keywords) 内容独立,互不影响
关键词表现形式 关键词(关键词1,关键词2,...) <rdf:li>关键词1</rdf:li><rdf:li>关键词2</rdf:li>....
  2.两组关键词重要性分析

可以看出,上述两种途径虽然在标题、作者、文章描述这些地方相通,但在关键词上却各自独立,互不影响。那么,哪种关键词最可能得到搜索引擎的关注呢?

我们知道,元数据(metadata)有许多存储格式,而Adobe采用的是XML格式。用记事本打开PDF文件,可以发现在“文件属性说明”下的关键词区域中输入的关键词之间是以逗号分割的,形如:

关键词(关键词1,关键词2,关键词3,…)
而我们在“文件元数据说明”下的关键词区域中输入的关键词内容则形如:
<rdf:li>关键词1</rdf:li><rdf:li>关键词2</rdf:li><rdf:li>关键词3</rdf:li>
  按照这种形式看来,搜索引擎更有可能抓取的是“文件属性说明”下的关键词区域中的信息。所以我们建议在这个区域上列出网站最主要的相关关键词。

3.这些信息在搜索引擎中发挥的作用

对于Google和雅虎这两大搜索引擎来说,对于搜索结果中出现的PDF文件列表,Google用PDF文件属性中的“标题”内容作为列表标题。雅虎原来是用PDF正文中出现的最大字号的内容作为标题,但从最近收录的一些PDF文件来看,它也开始采用和Google相同的做法。至于描述,这两大搜索引擎均未使用“文件属性”中的描述/主题信息,而是从正文中随机抽取内容来组成各自特色的描述内容。

从这一点看起来,对PDF文件属性中的“标题”和正文的优化是必不可少的。至于关键词和描述,虽然Google会象对待HTML中的关键词和描述一样忽略掉这两项内容,但目前对雅虎来说还是有效的。

4.PDF的优化意义

我们有理由相信,PDF信息在搜索引擎检索上存在的缺陷只是一个时间问题。随着搜索引擎的搜索功能愈来愈强大,也许不久以后它们就能够象检索HTML文件一样实现对PDF全文信息的检索。另外一方面,Adobe公司可能也会审时度势,开发出相应的补丁程序来弥补这一缺陷,进而改善PDF格式对搜索引擎的友好性。相信不久以后的将来,PDF这个印刷业的新宠儿必将在搜索引擎优化中占据一席之地。亲爱的朋友们,你们准备好了吗?


作者简介:Kevin Kantola,任SEO Resource (SEOResource.net:搜索引擎优化公司,位于加洲)执行总裁,拥有20多年丰富经验并发表了大量相关技术文章。

0

评论Comments

日志分类
首页[1019]
技术[317]
English[3]
下载[59]
IT业界[203]
发现[47]
音乐[17]
网文[322]
blog应用[36]
BLOG参考[15]