学习笔记

时间：2006-11-26 来源：祥子哥哥

1.什么是URI
Web上可用的每种资源 - HTML文档、图像、视频片段、程序等 - 由一个通过通
用资源标志符（Universal Resource Identifier, 简称"URI"）进行定位。

URI一般由三部分组成：

访问资源的命名机制。
存放资源的主机名。
资源自身的名称，由路径表示。
考虑下面的URI，它表示了当前的HTML 4.0规范：

http://www.webmonkey.com.cn/html/html40/

这个URI是这样的：这是一个可通过HTTP协议访问的资源，位于主
机www.webmonkey.com.cn上，通过路径“/html/html40”访问。在HTML文档中
其它资源包括"mailto"（收发email）和"ftp"（FTP访问）。

这是URI的另一个例子，指向一个用户的邮箱：

<A href="mailto:[email protected]">Joe Cool</A>

注：大多数读者可能熟悉"URL"，而不是URI。URL是RUI命名机制的一个子集。

片段标志符
有的URI指向一个资源的内部。这种URI以"#"结束，并跟着一个anchor标志
符（称为片段标志符）。例如，下面是一个指向section_2的URI：

http://somesite.com/html/top.htm#section_2

相对URI
相对URI 不包含任何命名规范信息。它的路径通常指同一台机器上的资源。相
对URI可能含有相对路径（如，“..”表示上一层路径），还可能包含片段标
志符。

为了说明相对URI，假设我们有一个基本的URI http://www.acme.com/support/intro.htm

下面的链接中使用了相对URI：

<A href="suppliers.htm">Suppliers</A>

它扩展成完全的URI就是 "http://www.acme.com/support/suppliers.htm"，
下面是一个图像的相对URI：

<IMG src="../icons/logo.gif" alt="logo">

它扩展成完全的URI就是 "http://www.acme.com/icons/logo.gif"。

在HTML中，URI被用来：

链接到另一个文档或资源(参看A和LINK元素)。
链接到一个外部样式表或脚本(参看LINK和SCRIPT元素)。
在页内包含图像、对象或applet(参看IMAG、OBJECT、APPLET和INPUT
元素)。
建立图像映射(参看MAP和AREA元素)。
提交一个表单(参看FORM)。
建立一个框架文档(参看FRAME和IFRAME元素)。
引用一个外部参考(参看Q、BLOCKQUOTE, INS和DEL元素)。
指向一个描述文档的metadata(参看HEAD元素)。

2.什么是URL：
URL是Uniform Resource Location的缩写，译为“统一资源定位符”。通俗地说，URL是Internet上用来描述信息资源的字符串，主要用在各种WWW客户程序和服务器程序上，特别是著名的Mosaic。采用URL可以用一种统一的格式来描述各种信息资源，包括文件、服务器的地址和目录等。

◇ URL的格式

URL的格式由下列三部分组成：

第一部分是协议（或称为服务方式）；
第二部分是存有该资源的主机IP地址（有时也包括端口号）；
第三部分是主机资源的具体地址。，如目录和文件名等。
第一部分和第二部分之间用“：//”符号隔开，第二部分和第三部分用“/”符号隔开。第一部分和第二部分是不可缺少的，第三部分有时可以省略。

◇ URL示例

文件的URL：
用URL表示文件时，服务器方式用file表示，后面要有主机IP地址、文件的存取路径（即目录）和文件名等信息。有时可以省略目录和文件名，但“/”符号不能省略。
例一：file://ftp.yoyodyne.com/pub/files/foobar.txt
代表存放主机ftp.yoyodyne.com上的pub/files/目录下的一个文件，文件名是foobar.txt。
例二：file://ftp.yoyodyne.com/pub
代表主机ftp.yoyodyne.com上的目录/pub。
例三：file://ftp.yoyodyne.com/
代表主机ftp.yoyodyne.com上的根目录。

Gopher的URL：
Gopher服务器有可能使用特殊的端口，在这种情况下，主机IP地址与端口之间要用“：隔开。
例一：gopher://gopher.yoyodyne.com/
表示主机gopher.yoyodyne.com上的gopher服务器。
例二：gopher://gopher.banzai.edu:1234
表示主机gopher.banzai.edu上的gopher服务器，在端口1234上。

网络新闻的URL：
利用URL表示网络新闻组时，如果是usenet的话只要指定出新闻组的名字即可。
例如：news:rec.gardening
表示usenet上的rec.gardening新闻组（园艺）。

HTTP的 URL：
使用超级文本传输协议HTTP，提供超级文本信息服务的资源。
例一：http://www.peopledaily.com.cn/channel/welcome.htm
其计算机域名为www.peopledaily.com.cn。超级文本文件（文件类型为.html）是在目录/channel下的welcome.htm。这是中国人民日报的一台计算机。
例二：http://www.rol.cn.net/talk/talk1.htm
其其计算机域名为www.rol.cn.net。超级文本文件（文件类型为.html）是在目录/talk下的talk1.htm。这是瑞得聊天室的地址，可由此进入瑞得聊天室的第1室。

标签: 学习笔记 java编程之URI、URL (上) 2006年09月16日 12:46 P.M.

URI、URL和URN是识别、定位和命名互联网上的资源的标准途径。本文分析了URI、URL和URN和Java API的URI和URL类（以及与URL相关的类），并演示了如何在程序中使用这些类。

　　1989年Tim Berners-Lee发明了互联网（World Wide Web）。WWW被认为是全球互连的实际的和抽象的资源的集合--它按需求提供信息实体--通过互联网访问。实际的资源的范围从文件到人，抽象的资源包括数据库查询。因为要通过多样的方式识别资源（人的名字可能相同，然而计算机文件只能通过唯一的路径名称组合访问），所以需要标准的识别WWW资源的途径。为了满足这种需要，Tim Berners-Lee引入了标准的识别、定位和命名的途径：URI、URL和URN。

　　URI、URL和URN是什么？

　　体系中的URI、URL和URN是彼此关联的。URI的范畴位于体系的顶层，URL和URN的范畴位于体系的底层。这种排列显示URL和URN都是URI的子范畴，如图1所示：

图1：URI、URL和URN之间的层次关系。URL和URN是URI的子范畴。

　　URI表示的是统一的资源标识，它是以某种统一的（标准化的）方式标识资源的简单字符串。典型情况下，这种字符串以scheme（命名URI的名字空间的标识符--一组相关的名称）开头，语法如下：

　　[scheme:] scheme-specific-part

　　URI以scheme和冒号开头。Scheme用大写/小写字母开头，后面为空或者跟着更多的大写/小写字母、数字、加号、减号和点号。冒号把scheme与scheme-specific-part分开了，并且scheme-specific-part的语法和语义（意思）由URI的名字空间决定。其中一个例子是http://www.cnn.com，其中http是scheme，//http://www.cnn.com是 scheme-specific-part，并且它的scheme与scheme-specific-part被冒号分开了。
我们可以把URI按照绝对的或相对的分类。绝对的URI指以scheme（后面跟着冒号）开头的URI。前面提到的http://www.cnn.com就是绝对的URI的一个例子，其它的例子还有mailto:[email protected]、news:comp.lang.java.help和xyz://whatever。你可以把绝对的URI看作是以某种方式引用某种资源，而这种方式对标识符出现的环境没有依赖。如果使用文件系统作类比，绝对的URI类似于从根目录开始的某个文件的路径。与绝对的URI不同的，相对的URI不是以scheme（后面跟着冒号）开始的URI。它的一个例子是articles/articles.html。你可以把相对的URI看作是以某种方式引用某种资源，而这种方式依赖于标识符出现的环境。如果用文件系统作类比，相对的URI类似于从当前目录开始的文件路径。

URI可以进一步分为不透明的和分层的两类。不透明的URI指scheme-specific-part不是以正斜杠（/）开头的绝对的URI。其例子有news:comp.lang.java和前面的mailto:[email protected]。不透明的URI并不是用于分解的（超出了识别scheme的范畴），因为不需要验证scheme-specific-part的有效性。与它不同的是，分层的URI可以是以正斜杠开头的绝对的URI或相对的URL。

　　与不透明的URI不同，分层的URI的scheme-specific-part必须被分解为几个组成部分。这些组成部分是什么？分层的URI标识组件的普通子集的scheme-specific-part符合下面的语法：

　　[//authority] [path] [?query] [#fragment]

　　可选的authority组件标识了该URI名字空间的命名机构。如果有这一部分，它就是以一对正斜杠开始的，它可以是基于服务器或基于注册的，并且它以后面的正斜杠、问号或没有其它符号结束。基于注册的授权机构组件有特定大纲的语法（本文没有讨论，因为很少使用它），而基于服务器的授权机构组件的语法如下：

　　[userinfo@] host [:port]

　　按照这种语法，基于服务器的授权机构组件可以随意的以用户信息（例如用户名）开始，后面跟着一个@符号，紧接着是主机的名称，以及冒号和端口号。例如[email protected]:90就是一个基于服务器的授权机构组件，其中jeff包含了用户信息，x.com包含了主机，90包含了端口。

　　可选的path组件根据授权机构组件（如果提供了）或大纲（如果没有授权机构组件）识别资源的定位（或位置）。路径（path）可以分成一系列的路径片断（path segment），每个路径片断使用正斜杠与其它的路径片断隔开。如果路径的第一个路径片断以一个正斜杠开始，该路径就被认为是绝对的。否则路径就被认为是相对的。例如，/a/b/c由三个路径片断--a、b和c组成了一个路径，此外，这个路径是绝对的，因为第一个路径片断（a）的前缀是正斜杠。

　　可选的query组件识别要传递给某种资源的数据。这种资源使用该数据获取或生成其它的传递回调用者的数据。例如，http://www.somesite.net/a?x=y, x=y就是一个查询（query），在这个查询中，x=y是传递给某种资源的数据--x是某种实体的名称，y是该实体的值。

　　最后一个组件是fragment。尽管该组件作为URI的一部分出现，但不是绝对的。当使用URI进行某种检索操作时，后面执行操作的软件使用fragment聚焦于软件感兴趣的资源部分（在该软件成功检索到资源的数据后）。

　　为了实际表现前面提到的组件信息，可以使用下面的URI：

　　ftp://[email protected]:90/public/notes?text=shakespeare#hamlet

　　上面的URI把ftp识别为大纲，把[email protected]:90识别为基于服务器的授权机构（其中george是用户信息，x.com是主机，90是端口），把/public/notes识别为路径，把text=shakespeare识别为查询，把hamlet识别为片断。本质上它是一个叫做george的用户希望通过/public/notes路径在服务器x.com的90端口上检索shakespeare文本的hamlet信息。在shakespeare成功的返回到该程序后，程序定位hamlet段并把它呈献给该用户。
标准化可以通过目录术语来理解。假定目录x直接位于根目录之下，x有子目录a和b，b有文件memo.txt，a是当前目录。为了显示memo.txt中的内容（在微软Windows下），你可能输入type \x\.\b\memo.txt。你也可能输入type \x\a\..\b\memo.txt，在这种情况下，a和..的出现是没有必要的。这两种形式都不是最简单的。但是如果输入\x\b\memo.txt，你就指定了最简单的路径了，从根目录开始访问memo.txt。最简单的\x\b\memo.txt路径就是标准化的路径。

　　通常通过基本的和相对的URI访问资源。基本的URI是绝对的URI，它唯一地标识了某种资源的名字空间，而相对的URI标识了与基础的URI相对的资源。（与基本的URI不同，相对的URI在某种资源的生存周期内可以永远不需要改变）。因为基本的和相对的URI都不能完整的识别某种资源，有必要把两种URI通过解析过程合并。相反地，通过相对化从合并的URI中提取相对的URI也是可行的。

　　注意

　　不透明的URI与其它的URI不同，它不服从标准化、分解和相对化。

　　假定你把x://a/作为基础的URI，并把b/c作为相对的URI。根据基础URI分解这个相对的URI将产生x://a/b/c。根据x://a/相对化x://a/b/c将产生b/c。

　　URI不能定位或读取/写入资源。这是统一的资源定位器（URL）的任务。URL是一种URI，但是它的大纲组件是已知的网络协议（简称协议），并且它把URI组件与某种协议处理程序（一种资源定位器和根据协议建立的约束规则与资源通讯的读/写机制）。

　　URI一般不能为资源提供持久不便的名称。这是统一的资源命名（URN）的任务。URN也是一种URI，但是全球唯一的、持久不便的，即使资源不在存在或不再使用。
使用URI

　　网络API通过提供了URI类（位于java.net程序包中），使我们在源代码层使用URI成为可能。URI的构造函数建立了封装URI的URI对象；URI的方法建立URI对象；如果授权机构组件是基于服务器的就分析它，提取URI组件，决定URI对象的URI是绝对的还是相对的；决定URI对象的URI是不透明的还是分层的；比较两个URI对象中的URI；标准化（normalize）URI对象的URI；根据URI对象的基础URI分解某个相对的URI以得到已分解的URI；根据URI对象的基础URI关联某个已分解的URI以得到相对的URI，把URI对象转换为URL对象。
我们进一步查看URI类，在它里面有五个构造函数。最简单的是URI(String uri)。这个构造函数把URI作为String类型的参数，把URI分解为组件，并把这些组件存储在一个新的URI对象中。如果String对象的URI（通过uri引用）违反了RFC 2396的语法规则，其它的四个构造函数URI(String uri)将会产生一个java.net.URISyntaxException对象。

　　下面的代码片断演示了使用URI(String uri)建立封装了一个简单的URI组件的URI对象：

URI uri = new URI ("http://www.cnn.com");

　　典型情况下URI构造函数用于建立封装用户指定的URI的URI对象。因为用户可能输入不正确的URI，所以URI构造函数产生已检查的URISyntaxException对象。这意味着你的代码必须明确地尝试着调用某个URI构造函数并捕捉异常，或者通过在该方法的Throws子句中列举URISyntaxException以"推卸责任"。

　　如果你知道URI是有效的（例如在源代码中的URI），将不会产生URISyntaxException对象。因为在这种情况下处理某个URI构造函数的异常处理要求可能有困难，所以URI提供了静态的create(String uri)方法。这个方法分解通过uri引用的String对象中包含URI，如果该URI没有违反任何语法规则就建立URI对象（并从方法中返回对它的引用），否则将捕捉到一个内部的URISyntaxException对象，把该对象包装金一个未检查的IllegalArgumentException对象中，并抛出这个IllegalArgumentException对象。因为IllegalArgumentException是未检查的，你不需要明确的尝试代码并捕捉异常或把它的类名称列举在Throws子句中。

　　下面的代码片断演示了create(String uri)：

URI uri = URI.create ("http://www.cnn.com");

　　URI构造函数和create(String uri)方法试图分解出某个URI的授权机构组件的用户信息、主机和端口部分。对于按正常形式形成的基于服务器的授权机构组件，它们是会成功的。对于按拙劣的形式形成的基于服务器的授权机构组件，他们将会失败--并且把该授权机构组件当作是基于注册的。有时你可能知道某个URI的授权机构组件必须是基于服务器的。你可以确保该URI的授权机构组件分解出用户信息、主机和端口，或者你可以确保将产生一个异常（伴随着相应的诊断信息）。你可以通过调用URI的parseServerAuthority()方法实现这种操作。如果成功分解出URI，该方法将返回包含提取的用户信息、主机和端口部分的URI的新URI对象的一个引用（但是如果授权机构组件已经被分解过了，将会返回调用parseServerAuthority()的URI对象的引用。），否则该方法将产生一个URISyntaxException对象。

　　下面的代码片断演示了parseServerAuthority()：

// 下面的parseServerAuthority()调用出现后会发生什么情况？
URI uri = new URI ("//foo:bar").parseServerAuthority();

一旦拥有了URI对象，你就可以通过调用getAuthority()、getFragment()、getHost()、getPath()、getPort()、getQuery()、getScheme()、getSchemeSpecificPart()和 getUserInfo()方法提取多种组件。你也可以通过调用isAbsolute()确定该URI是绝对的还是相对的，通过调用isOpaque()确定该URI是不透明的还是分层的。如果返回值是true意味着该URI是绝对的或不透明的，如果返回值是false意味着该URI是相对的或分层的。

　　列表1中的程序用命令行参数建立了一个URI对象，调用URI组件提取方法来检索URI的组件，并调用URI的isAbsolute()和isOpaque()方法把该URI分类为绝对的/相对性和不透明的/分层的。

　　列表1: URIDemo1.java

// URIDemo1.java

import java.net.*;

class URIDemo1
{
public static void main (String [] args) throws Exception
{
if (args.length != 1)
{
System.err.println ("usage: java URIDemo1 uri");
return;
}

URI uri = new URI (args [0]);

System.out.println ("Authority = " +uri.getAuthority ());
System.out.println ("Fragment = " +uri.getFragment ());
System.out.println ("Host = " +uri.getHost ());
System.out.println ("Path = " +uri.getPath ());
System.out.println ("Port = " +uri.getPort ());
System.out.println ("Query = " +uri.getQuery ());
System.out.println ("Scheme = " +uri.getScheme ());
System.out.println ("Scheme-specific part = " +
uri.getSchemeSpecificPart ());
System.out.println ("User Info = " +uri.getUserInfo ());
System.out.println ("URI is absolute: " +uri.isAbsolute ());
System.out.println ("URI is opaque: " +uri.isOpaque ());
}
}

　　输入java URIDemo1命令后，列表1的输出结果如下：

query://[email protected]:9000/public/manuals/appliances?stove#ge:
Authority = [email protected]:9000
Fragment = ge
Host = books.com
Path = /public/manuals/appliances
Port = 9000
Query = stove
Scheme = query
//[email protected]:9000/public/manuals/appliances?stove
User Info = jeff
URI is absolute: true
URI is opaque: false

　　上面的输出显示该URI是绝对的，因为它指定了一个大纲（query），并且该URI是分层的，因为query后面有/符号。

　　技巧

　　你应该调用URI的compareTo(Object o)和equals(Object o)来决定URI的次序（为了排序目的）和等同性。你可以参考SDK文档，查阅这些方法的更多信息。

URI类支持基本的URI操作，包括标准化（normalization）、分解（resolution）和相对化（relativization）。标准化是通过URI的normalize()方法支持的。调用normalize()时，它返回对新URI对象的引用，该对象包含调用的URI对象的URI的标准的表现。

　　列表2演示了normalize()方法。它把URI作为程序的唯一的参数，URIDemo2打印出标准的相等的URI。

　　列表2: URIDemo2.java

// URIDemo2.java

import java.net.*;

class URIDemo2
{
public static void main (String [] args) throws Exception
{
if (args.length != 1)
{
System.err.println ("usage: java URIDemo2 uri");
return;
}

URI uri = new URI (args [0]);

System.out.println ("Normalized URI = " +
uri.normalize ().toString ());
}
}

　　在编译URIDemo2后，在命令行输入java URIDemo2 x/y/../z/./q，将看到下面的输出：

Normalized URI = x/z/q

　　上面的输出显示y、..和.消失了。这是因为..意味着你想直接在x下面访问名字空间的z部分，.意味着你希望访问与z部分相关的名字空间的q部分。

　　URI通过提供resolve(String uri)、resolve(URI uri)和relativize(URI uri)方法支持反向解析和相对化操作。如果uri引用是空的（null）这三个方法都会产生NullPointerException对象。同样，如果指定的URI违反了RFC 2396语法规则，resolve(String uri)通过的内部的create(String uri)调用间接地产生一个IllegalArgumentException对象。

　　列表3的代码演示了resolve(String uri)和relativize(URI uri)。

　　列表3: URIDemo3.java

// URIDemo3.java

import java.net.*;

class URIDemo3
{
public static void main (String [] args) throws Exception
{
if (args.length != 2)
{
System.err.println ("usage: " +
"java URIDemo3 uriBase uriRelative");
return;
}

URI uriBase = new URI (args [0]);
System.out.println ("Base URI = " +uriBase.toString ());

URI uriRelative = new URI (args [1]);
System.out.println ("Relative URI = " +uriRelative.toString ());

URI uriResolved = uriBase.resolve (uriRelative);
System.out.println ("Resolved URI = " +uriResolved.toString ());

URI uriRelativized = uriBase.relativize (uriResolved);
System.out.println ("Relativized URI = " +uriRelativized.toString ());
}
}

　　在编译URIDemo3后，在命令行输入java URIDemo3 http://www.somedomain.com/ x/../y. ，输出如下：

Base URI = http://www.somedomain.com/
Relative URI = x/../y
Resolved URI = http://www.somedomain.com/y
Relativized URI = y

　　上面的输出显示相对的URI的x/../y根据基础URI http://www.somedomain.com/分解并（在内部）标准化，取得了已分解的http://www.somedomain.com/URI。给定该URI和基础URI，该已分解的URI根据基础URI相对化获得了y，它是原始的但是标准的相对的URI。

　　技巧

　　调用URI的toURL()方法把URI转换为URL。