热血汉奸吴三桂论坛

Posted: **Sat Feb 12, 2022 7:47 am**

互联网革命谷歌克星RSS原理机制中国全网封杀！
中国封杀电子邮件所以中国网站不能留个人电子邮箱。

互联网革命谷歌克星RSS原理机制中国全网封杀！
RSS原理学习
本文为转载学习，原文地址：http://blog.yam.com/krantas/article/12416873

1、什么是网站联合化

网站联合化（web syndication）或内容联合化（content syndication）是一种新形态的网站内容传播方式。它的基本概念是发布（publish）和订阅（subscribe），使用者无需造访网站，就可以得知名网站的更新内容为何，以及内容在哪里。

2、这与email的区别是

网站联合化是透过（web feed），让所谓的阅读器（reader）读取资料。一些人以为web feed像是电视和收音机一样把资料送过来；但事实上，web feed只是一个类似网站的的档案，从头到尾都放在源网站上，但会定期把网站的更新内容写进来。等使用者打开阅读器时，阅读器便会读取feed的内容，再判断有哪些新的东西存在。

许多关于联合化技术的介绍会说这是一种推送技术（push technology）；也就是网站主动把资料传给订阅者，而不是由使用者去搜寻资料。不过网站实际上虽然发布的文章，却并不把资料丢给它们，而是让阅读器去读取web feed。订阅者所要做的就是记住feed网站就行了。

网站内容发布，然后输出xml形式的摘要；阅读者的阅读器，也就是资料的整合点再取得这些摘要并显示给订阅者看。

3、网站联合化的好处

透过web feed订阅网站的使用者，不需如email版提供自己的地址，免除垃圾邮件的困扰；对内容发布者而言，feed既然会自动产生，亦无需多花时间把内容主动丢给阅读者。阅读器并能按来源网站以一目了然的方式列出内容，不想看的大可跳过。若不想再订阅，只需从阅读器删除feed的网址即可。

4、联合化的更新通知不是自动的

是半自动的。等你登入、打开阅读器或按下更新，阅读器才会捉取可能存在的更新内容，所以不能保证资料发布对你有及时性，除非你随时都开着并检查阅读器的动态。

这也会造成一个潜在的问题：使用者若太久不用阅读器，就会错过较早发布的文章，因为feed的更新范围有限。

5、web feed如何让阅读器得知网站的内容

目前主要的联合化规格，包括Rss 2.0、Atom 1.0等，都使用了xml技术。

6、Rss 2.0 VS Atom 1.0

这期这两种规格大同小异，只不过Atom 1.0在部分功能上比RSS 2.0更丰富、延伸性更强。但RSS 2.0的使用仍更为普遍，也满足一般blog、新闻的基本需求。

7、RSS 2.0格式介绍

第一行告诉浏览器这个是xml文件，编码为utf-8

<?xml version="1.0" encoding="utf-8" ?>

第二行指出这个xml文件使用RSS 2.0的格式（后面通常有一串网址，那是给设计者参考规格之来源文件用的）

<rss version="2.0">

接下来[channel]标签指出来源站的基本资料：

复制代码
1 <channel>
2 <title>卡蘭坦斯蓋普恩基地</title>
3 <link>http://blog.yam.com/krantas</link>
4 <description>Blog of Alan Krantas - SW‧SF‧Reading‧Travel‧Life</description>
5 <language>zh-tw</language>
6 <generator>blog.yam.com</generator>
7 <copyright>All Rights Reserved</copyright>
8 ...
9 </channel>
复制代码
紧接着包含在[channel]标签的则是[item]项目：

复制代码
1 <item>
2 <title>丹‧西蒙斯：海柏利昂（與試閱）</title>
3 <description>
4 丹‧西蒙斯（Dan Simmons）的1989年重量級作品《海柏利昂》（Hyperion），中文版即將於11/1問世。
5 <br />
6 <br />
7 <img src="http://pics5.blog.yam.com/4/userfile/k/ ... 11b827.jpg" alt="" style="border-width: 0; float: left; margin: 0.7em 1.4em 0.7em 0;" /><br />
8 </description>
9 <link>http://blog.yam.com/krantas/article/12289931</link>
10 <category>中譯科奇幻出版報導</category>
11 <pubDate>Fri, 26 Oct 2007 15:06:34 +0800</pubDate>
12 </item>
复制代码
以blog来说，一个[项目]就是一篇文章、一项资料内容，有标题、描述、分类、网址、发布日期等等。阅读器抓的就是这些东西。

8、web feed的更新与输出方式

web feed文件产生方式大致有三种，一种是来源网站定期的读取资料库后产生一份新的文件；二是这个文件本身就是个程序（如asp、jsp等），在使用者读取时才动态抓取最新的文章。第三种是feed并不由来源网站提供，而是如FeedBurner等第三方以其他方式抓取而产生，让本身没提供feed的网站也能提供订阅。

阅读器之所以能指出哪些文章是新的，或者你尚未浏览过的，是因为阅读器帮你记录了站台的阅读历程。

9、可以选择web feed输出符合想要条件的内容吗

不可以，以为feed文件的产生，以及会抓取哪些文章是事先设计好的。一个wen feed通常会包含十到三十篇最新的内容，而这和在某些栏目会丢失什么样的资料，都有文件的产生网站或者程序设计者决定；如文章的描述可能是整篇文章的内容，也可能是一部分的摘要。

10、web feed和email的再次比较

由于web feed包含的篇幅数量有限，过旧的文章会从源网站的feed文件里消失；订阅者太久不开阅读器，就会因而错过了内容。相反，email就算没有收取，也会存储在使用者的邮箱空间之中，直到空间被塞满为止。