IDN
java.lang.Object
|—java.net.IDN
public final class IDN
extends Object
提供在普通 Unicode 表示和 ASCII 兼容编码 (ACE) 表示之间转换国际化域名 (IDN) 的方法。 国际化域名可以使用整个 Unicode 范围内的字符,而传统域名仅限于 ASCII 字符。 ACE 是一种仅使用 ASCII 字符的 Unicode 字符串编码,可以与只理解传统域名的软件(例如域名系统)一起使用。
国际化域名在 RFC 3490 中定义。RFC 3490 定义了两种操作:ToASCII 和 ToUnicode。 这两个操作使用 Nameprep 算法,它是 Stringprep 的一个配置文件,以及 Punycode 算法来来回转换域名字符串。
上述转换过程的行为可以通过各种标志进行调整:
- 如果使用 ALLOW_UNASSIGNED 标志,则要转换的域名字符串可以包含在 Unicode 3.2 中未分配的代码点,这是 IDN 转换所基于的 Unicode 版本。 如果未使用该标志,则将此类未分配代码点的存在视为错误。
- 如果使用 USE_STD3_ASCII_RULES 标志,则对照 RFC 1122 和 RFC 1123 检查 ASCII 字符串。如果它们不符合要求,则会出错。
这些标志可以逻辑或在一起。
安全考虑对于国际化域名支持很重要。 例如,英文域名可能是同形异义词——通过替换非拉丁字母而恶意拼写错误。 Unicode 技术报告 #36 讨论了 IDN 支持的安全问题以及可能的解决方案。 应用程序有责任在使用国际域名时采取足够的安全措施。
字段摘要
修饰符和类型 | 字段 | 描述 |
---|---|---|
static int | ALLOW_UNASSIGNED | 允许处理未分配代码点的标志 |
static int | USE_STD3_ASCII_RULES | 标记以打开对 STD-3 ASCII 规则的检查 |
方法总结
修饰符和类型 | 方法 | 描述 |
---|---|---|
static String | toASCII(String input) | 将字符串从 Unicode 转换为 ASCII 兼容编码 (ACE),由 RFC 3490 的 ToASCII 操作定义。 |
static String | toASCII(String input, int flag) | 将字符串从 Unicode 转换为 ASCII 兼容编码 (ACE),由 RFC 3490 的 ToASCII 操作定义。 |
static String | toUnicode(String input) | 将字符串从 ASCII 兼容编码 (ACE) 转换为 Unicode,由 RFC 3490 的 ToUnicode 操作定义。 |
static String | toUnicode(String input, int flag) | 将字符串从 ASCII 兼容编码 (ACE) 转换为 Unicode,由 RFC 3490 的 ToUnicode 操作定义。 |
从类 java.lang.Object 继承的方法 |
---|
clone, equals, finalize, getClass, hashCode, notify, notifyAll, toString, wait, wait, wait |
字段详细信息
ALLOW_UNASSIGNED
public static final int ALLOW_UNASSIGNED
允许处理未分配代码点的标志
USE_STD3_ASCII_RULES
public static final int USE_STD3_ASCII_RULES
标记以打开对 STD-3 ASCII 规则的检查
方法详情
toASCII
public static String toASCII(String input, int flag)
将字符串从 Unicode 转换为 ASCII 兼容编码 (ACE),由 RFC 3490 的 ToASCII 操作定义。
ToASCII 操作可能会失败。 如果任何步骤失败,ToASCII 就会失败。 如果 ToASCII 操作失败,将抛出 IllegalArgumentException。 在这种情况下,不应在国际化域名中使用输入字符串。
标签是域名的独立部分。 RFC 3490 中定义的原始 ToASCII 操作仅对单个标签进行操作。 该方法可以处理标签和整个域名,假设域名中的标签总是用点分隔。 以下字符被识别为点:\u002E(句号)、\u3002(表意句号)、\uFF0E(全角句号)和\uFF61(半角表意句号)。 如果将点用作标签分隔符,则此方法还将在输出翻译字符串中将它们全部更改为 \u002E(句号)。
参数:
参数名称 | 参数描述 |
---|---|
input | 要处理的字符串 |
flag | 进程标志; 可以是 0 或可能标志的任何逻辑或 |
返回:
翻译后的字符串
Throws:
Throw名称 | Throw描述 |
---|---|
IllegalArgumentException | 如果输入字符串不符合 RFC 3490 规范 |
toASCII
public static String toASCII(String input)
将字符串从 Unicode 转换为 ASCII 兼容编码 (ACE),由 RFC 3490 的 ToASCII 操作定义。
这种方便的方法就像通过调用两个参数对应物一样工作,如下所示:
toASCII(input, 0);
参数:
参数名称 | 参数描述 |
---|---|
input | 要处理的字符串 |
返回:
翻译后的字符串
Throws:
Throw名称 | Throw描述 |
---|---|
IllegalArgumentException | 如果输入字符串不符合 RFC 3490 规范 |
toUnicode
public static String toUnicode(String input, int flag)
将字符串从 ASCII 兼容编码 (ACE) 转换为 Unicode,由 RFC 3490 的 ToUnicode 操作定义。
ToUnicode 永远不会失败。 如果出现任何错误,输入字符串将不加修改地返回。
标签是域名的独立部分。 RFC 3490 中定义的原始 ToUnicode 操作仅对单个标签进行操作。 该方法可以处理标签和整个域名,假设域名中的标签总是用点分隔。 以下字符被识别为点:\u002E(句号)、\u3002(表意句号)、\uFF0E(全角句号)和\uFF61(半角表意句号)。
参数:
参数名称 | 参数描述 |
---|---|
input | 要处理的字符串 |
flag | 进程标志; 可以是 0 或可能标志的任何逻辑或 |
返回:
翻译后的字符串
toUnicode
public static String toUnicode(String input)
将字符串从 ASCII 兼容编码 (ACE) 转换为 Unicode,由 RFC 3490 的 ToUnicode 操作定义。
这种方便的方法就像通过调用两个参数对应物一样工作,如下所示:
toUnicode(input, 0);
参数:
参数名称 | 参数描述 |
---|---|
input | 要处理的字符串 |
返回:
翻译后的字符串