[要約] RFC 5051は、Unicodeの簡単なコレーションアルゴリズムであるi;unicode-casemapについての要約と目的を提供しています。このRFCの目的は、Unicode文字列の比較とソートを効率的かつ正確に行うためのアルゴリズムを定義することです。

Network Working Group                                         M. Crispin
Request for Comments: 5051                      University of Washington
Category: Standards Track                                   October 2007
        

i;unicode-casemap - Simple Unicode Collation Algorithm

i; unicode -casemap-単純なユニコード照合アルゴリズム

Status of This Memo

本文書の位置付け

This document specifies an Internet standards track protocol for the Internet community, and requests discussion and suggestions for improvements. Please refer to the current edition of the "Internet Official Protocol Standards" (STD 1) for the standardization state and status of this protocol. Distribution of this memo is unlimited.

このドキュメントは、インターネットコミュニティのインターネット標準トラックプロトコルを指定し、改善のための議論と提案を要求します。このプロトコルの標準化状態とステータスについては、「インターネット公式プロトコル標準」(STD 1)の現在のエディションを参照してください。このメモの配布は無制限です。

Abstract

概要

This document describes "i;unicode-casemap", a simple case-insensitive collation for Unicode strings. It provides equality, substring, and ordering operations.

このドキュメントは、ユニコード文字列の単純なケースに依存しない照合照合である「i; unicode-casemap」について説明します。平等、サブストリング、および順序付け操作を提供します。

1. Introduction
1. はじめに

The "i;ascii-casemap" collation described in [COMPARATOR] is quite simple to implement and provides case-independent comparisons for the 26 Latin alphabetics. It is specified as the default and/or baseline comparator in some application protocols, e.g., [IMAP-SORT].

[Comparator]に記載されている「i; ascii-casemap」の照合は、実装が非常に簡単で、26のラテンアルファベット科学のケースに依存しない比較を提供します。一部のアプリケーションプロトコル(IMAP-SORT]などのデフォルトおよび/またはベースラインコンパレータとして指定されています。

However, the "i;ascii-casemap" collation does not produce satisfactory results with non-ASCII characters. It is possible, with a modest extension, to provide a more sophisticated collation with greater multilingual applicability than "i;ascii-casemap". This extension provides case-independent comparisons for a much greater number of characters. It also collates characters with diacriticals with the non-diacritical character forms.

ただし、「i; ascii-casemap」照合は、ASCII以外の文字で満足のいく結果をもたらしません。控えめな拡張機能を備えて、「i; ascii-casemap」よりも多言語の適用性を高めるより洗練された照合を提供することが可能です。この拡張機能は、はるかに多くの文字のケースに依存しない比較を提供します。また、非透明な文字形式で学門と文字を照合します。

This collation, "i;unicode-casemap", is intended to be an alternative to, and preferred over, "i;ascii-casemap". It does not replace the "i;basic" collation described in [BASIC].

この照合「i; unicode-casemap」は、「i; ascii-casemap」に代わるものであり、好まれることを目的としています。[Basic]に記載されている「I; Basic」照合を置き換えるものではありません。

2. Unicode Casemap Collation Description
2. Unicode Casemap照合説明

The "i;unicode-casemap" collation is a simple collation which is case-insensitive in its treatment of characters. It provides equality, substring, and ordering operations. The validity test operation returns "valid" for any input.

「i; unicode-casemap」の照合は、キャラクターの扱いにおいてケースに依存しない単純な照合です。平等、サブストリング、および順序付け操作を提供します。有効性テスト操作は、任意の入力に対して「有効」を返します。

This collation allows strings in arbitrary (and mixed) character sets, as long as the character set for each string is identified and it is possible to convert the string to Unicode. Strings which have an unidentified character set and/or cannot be converted to Unicode are not rejected, but are treated as binary.

この照合により、各文字列の文字セットが識別され、文字列をUnicodeに変換できる限り、任意の(および混合)文字セットの文字列が可能になります。正体不明の文字セットを持つ文字列、および/またはUnicodeに変換できない文字列は拒否されませんが、バイナリとして扱われます。

Each input string is prepared by converting it to a "titlecased canonicalized UTF-8" string according to the following steps, using UnicodeData.txt ([UNICODE-DATA]):

各入力文字列は、Unicodedata.txt([unicode-data])を使用して、次の手順に従って「titlecased canonicalized utf-8」文字列に変換することにより作成されます。

(1) A Unicode codepoint is obtained from the input string.

(1) Unicode CodePointは、入力文字列から取得されます。

(a) If the input string is in a known charset that can be converted to Unicode, a sequence in the string's charset is read and checked for validity according to the rules of that charset. If the sequence is valid, it is converted to a Unicode codepoint. Note that for input strings in UTF-8, the UTF-8 sequence must be valid according to the rules of [UTF-8]; e.g., overlong UTF-8 sequences are invalid.

(a) 入力文字列がUnicodeに変換できる既知のチャーセットにある場合、文字列のcharSetのシーケンスが読み取り、そのcharSetのルールに従って有効性を確認します。シーケンスが有効な場合、Unicode CodePointに変換されます。UTF-8の入力文字列の場合、UTF-8シーケンスは[UTF-8]のルールに従って有効でなければならないことに注意してください。たとえば、Overlong UTF-8シーケンスは無効です。

(b) If the input string is in an unknown charset, or an invalid sequence occurs in step (1)(a), conversion ceases. No further preparation is performed, and any partial preparation results are discarded. The original string is used unchanged with the i;octet comparator.

(b) 入力文字列が不明なcharsetにある場合、またはステップ(1)(a)で無効なシーケンスが発生した場合、変換は停止します。それ以上の準備は行われず、部分的な準備結果は破棄されます。元の文字列は、i; Octet Comparatorで変更されていません。

(2) The following steps, using UnicodeData.txt ([UNICODE-DATA]), are performed on the resulting codepoint from step (1)(a).

(2) Unicodedata.txt([unicode-data])を使用した次の手順は、ステップ(1)(a)から得られたコードポイントで実行されます。

(a) If the codepoint has a titlecase property in UnicodeData.txt (this is normally the same as the uppercase property), the codepoint is converted to the codepoints in the titlecase property.

(a) CodePointにUnicodedata.txtにTitleCaseプロパティがある場合(これは通常大文字と同じです)、CodePointはTitleCaseプロパティのコードポイントに変換されます。

(b) If the resulting codepoint from (2)(a) has a decomposition property of any type in UnicodeData.txt, the codepoint is converted to the codepoints in the decomposition property. This step is recursively applied to each of the resulting codepoints until no more decomposition is possible (effectively Normalization Form KD).

(b) (2)(a)からの結果のCodePointがunicodedata.txtの任意のタイプの分解プロパティを持っている場合、コードポイントは分解プロパティのコードポイントに変換されます。このステップは、分解ができなくなるまで、結果の各コードポイントに再帰的に適用されます(効果的に正規化フォームKD)。

Example: codepoint U+01C4 (LATIN CAPITAL LETTER DZ WITH CARON) has a titlecase property of U+01C5 (LATIN CAPITAL LETTER D WITH SMALL LETTER Z WITH CARON). Codepoint U+01C5 has a decomposition property of U+0044 (LATIN CAPITAL LETTER D) U+017E (LATIN SMALL LETTER Z WITH CARON). U+017E has a decomposition property of U+007A (LATIN SMALL LETTER Z) U+030c (COMBINING CARON). Neither U+0044, U+007A, nor U+030C have any decomposition properties. Therefore, U+01C4 is converted to U+0044 U+007A U+030C by this step.

例:CodePoint U 01C4(キャロン付きラテンキャピタルレターDZ)には、u 01c5(キャロン付きの小さな文字zを備えたラテンキャピタルレターD)のタイトルケースプロパティがあります。CodePoint U 01C5には、U 0044(ラテンキャピタルレターD)U 017E(ラテンスモールレターZを使用したラテンスモールレターZ)の分解特性があります。u 017eには、u 007a(ラテンスモールレターz)u 030c(combining caron)の分解特性があります。u 0044、u 007a、またはu 030cのどちらも分解特性を持っていません。したがって、U 01C4は、このステップによりU 0044 U 007A U 030Cに変換されます。

(3) The resulting codepoint(s) from step (2) is/are appended, in UTF-8 format, to the "titlecased canonicalized UTF-8" string.

(3) ステップ(2)からの結果のCodePoint(s)は、UTF-8形式で、「タイトルcanonicalized utf-8」文字列に追加されます。

(4) Repeat from step (1) until there is no more data in the input string.

(4) 入力文字列にこれ以上のデータがなくなるまで、ステップ(1)から繰り返します。

Following the above preparation process on each string, the equality, ordering, and substring operations are as for i;octet.

各文字列の上記の準備プロセスに続いて、等式、順序、およびサブストリング操作はi; Octetのようです。

It is permitted to use an alternative implementation of the above preparation process if it produces the same results. For example, it may be more convenient for an implementation to convert all input strings to a sequence of UTF-16 or UTF-32 values prior to performing any of the step (2) actions. Similarly, if all input strings are (or are convertible to) Unicode, it may be possible to use UTF-32 as an alternative to UTF-8 in step (3).

同じ結果を生成する場合、上記の準備プロセスの代替実装を使用することができます。たとえば、ステップ(2)アクションのいずれかを実行する前に、すべての入力文字列をUTF-16またはUTF-32値のシーケンスに変換することがより便利な場合があります。同様に、すべての入力文字列がUnicodeである(または変換可能な)場合、UTF-32をステップ(3)でUTF-8の代替として使用することが可能になる場合があります。

Note: UTF-16 is unsuitable as an alternative to UTF-8 in step (3), because UTF-16 surrogates will cause i;octet to collate codepoints U+E0000 through U+FFFF after non-BMP codepoints.

注:UTF-16のサロゲートは、非BMPコードポイントの後にu e0000からu ffffからcodepoints u e0000を照合するため、UTF-16はステップ(3)のUTF-8の代替として不適切です。

This collation is not locale sensitive. Consequently, care should be taken when using OS-supplied functions to implement this collation. Functions such as strcasecmp and toupper are sometimes locale sensitive and may inconsistently casemap letters.

この照合はロケールに敏感ではありません。したがって、この照合を実装するためにOSサプリド関数を使用する場合は、注意が必要です。StrcasecmpやToupperなどの関数は、時々ロケールに敏感であり、一貫性のない文字を覆い隠すことがあります。

The i;unicode-casemap collation is well suited to use with many Internet protocols and computer languages. Use with natural language is often inappropriate; even though the collation apparently supports languages such as Swahili and English, in real-world use it tends to mis-sort a number of types of string:

i; unicode-casemap照合は、多くのインターネットプロトコルやコンピューター言語で使用するのに適しています。自然言語での使用はしばしば不適切です。照合はスワヒリ語や英語などの言語をサポートしているようですが、実際の使用では、多くの種類の文字列を誤ってソートする傾向があります。

o people and place names containing scripts that are not collated according to "alphabetical order". o words with characters that have diacriticals. However, i;unicode-casemap generally does a better job than i;ascii-casemap for most (but not all) languages. For example, German umlaut letters will sort correctly, but some Scandinavian letters will not. o names such as "Lloyd" (which in Welsh sorts after "Lyon", unlike in English), o strings containing other non-letter symbols; e.g., euro and pound sterling symbols, quotation marks other than '"', dashes/hyphens, etc.

o 「アルファベット順」に従って照合されないスクリプトを含む人と地名。o異文性を持つ文字を持つ単語。ただし、I; Unicode-Casemapは一般に、ほとんどの言語ではASCII-CASEMAPよりも優れた仕事をします。たとえば、ドイツのウムラウトの手紙は正しく並べ替えますが、いくつかのスカンジナビアの手紙は正しく分類されません。o「Lloyd」(英語とは異なり、「Lyon」の後にウェールズ語で並べ替える)などの名前、o他の非文字記号を含む文字列。たとえば、ユーロおよびポンドのスターリングシンボル、「」以外の引用符、ダッシュ/ハイフンなど。

3. Unicode Casemap Collation Registration
3. Unicode Casemap照合登録
   <?xml version='1.0'?>
   <!DOCTYPE collation SYSTEM 'collationreg.dtd'>
   <collation rfc="5051" scope="global" intendedUse="common">
   <identifier>i;unicode-casemap</identifier>
   <title>Unicode Casemap</title>
   <operations>equality order substring</operations>
   <specification>RFC 5051</specification>
   <owner>IETF</owner>
   <submitter>mrc@cac.washington.edu</submitter>
   </collation>
        
4. Security Considerations
4. セキュリティに関する考慮事項

The security considerations for [UTF-8], [STRINGPREP], and [UNICODE-SECURITY] apply and are normative to this specification.

[UTF-8]、[StringPrep]、および[Unicode-Security]のセキュリティ上の考慮事項が適用され、この仕様には規範的です。

The results from this comparator will vary depending upon the implementation for several reasons. Implementations MUST consider whether these possibilities are a problem for their use case:

このコンパレータの結果は、いくつかの理由で実装によって異なります。実装は、これらの可能性がユースケースの問題であるかどうかを考慮する必要があります。

1) New characters added in Unicode may have decomposition or titlecase properties that will not be known to an implementation based upon an older revision of Unicode. This impacts step (2).

1) Unicodeに追加された新しい文字は、Unicodeの古い改訂に基づいて実装にはわかっていない分解またはタイトルケースのプロパティがある場合があります。これはステップ(2)に影響します。

2) Step (2)(b) defines a subset of Normalization Form KD (NFKD) that does not require normalization of out-of-order diacriticals. However, an implementation MAY use an NFKD library routine that does such normalization. This impacts step (2)(b) and possibly also step (1)(a), and is an issue only with ill-formed UTF-8 input.

2) ステップ(2)(b)は、オーバーオーバーディクリティカルの正規化を必要としない正規化フォームKD(NFKD)のサブセットを定義します。ただし、実装では、そのような正規化を行うNFKDライブラリルーチンを使用する場合があります。これは、ステップ(2)(b)およびおそらくステップ(1)(a)にも影響を与え、不正なUTF-8入力のみで問題です。

3) The set of charsets handled in step (1)(a) is open-ended. UTF-8 (and, by extension, US-ASCII) are the only mandatory-to-implement charsets. This impacts step (1)(a).

3) ステップ(1)(a)で処理された充電セットは、オープンエンドです。UTF-8(および拡張により、US-ASCII)は、唯一の必須の充電器です。これは、ステップ(1)(a)に影響します。

Implementations SHOULD, as far as feasible, support all the charsets they are likely to encounter in the input data, in order to avoid poor collation caused by the fall through to the (1)(b) rule.

実装は、実行可能な限り、(1)(b)ルールへの転倒によって引き起こされる劣悪な照合を避けるために、入力データで遭遇する可能性のあるすべての充電器をサポートする必要があります。

4) Other charsets may have revisions which add new characters that are not known to an implementation based upon an older revision. This impacts step (1)(a) and possibly also step (1)(b).

4) 他の充電器には、古い改訂に基づいて実装に知られていない新しい文字を追加する改訂があります。これは、ステップ(1)(a)に影響し、場合によってはステップ(1)(b)にも影響します。

An attacker may create input that is ill-formed or in an unknown charset, with the intention of impacting the results of this comparator or exploiting other parts of the system which process this input in different ways. Note, however, that even well-formed data in a known charset can impact the result of this comparator in unexpected ways. For example, an attacker can substitute U+0041 (LATIN CAPITAL LETTER A) with U+0391 (GREEK CAPITAL LETTER ALPHA) or U+0410 (CYRILLIC CAPITAL LETTER A) in the intention of causing a non-match of strings which visually appear the same and/or causing the string to appear elsewhere in a sort.

攻撃者は、このコンパレータの結果に影響を与えたり、この入力をさまざまな方法で処理したりするシステムの他の部分に影響を与えることを目的として、不明な炭化されていない入力を作成する場合があります。ただし、既知のチャーセット内の適切に形成されたデータでさえ、このコンパレータの結果に予期しない方法に影響を与える可能性があることに注意してください。たとえば、攻撃者はu 0041(ラテンキャピタルレターa)をu 0391(ギリシャのキャピタルレターアルファ)またはu 0410(キリル酸キャピタルレターa)に置き換えることができます。/または文字列を別の場所に表示します。

5. IANA Considerations
5. IANAの考慮事項

The i;unicode-casemap collation defined in section 2 has been added to the registry of collations defined in [COMPARATOR].

セクション2で定義されているi; Unicode-casemap照合は、[Comparator]で定義された照合レジストリに追加されました。

6. Normative References
6. 引用文献

[COMPARATOR] Newman, C., Duerst, M., and A. Gulbrandsen, "Internet Application Protocol Collation Registry", RFC 4790, February 2007.

[Comparator] Newman、C.、Duerst、M。、およびA. Gulbrandsen、「Internet Application Protocol Collation Registry」、RFC 4790、2007年2月。

[STRINGPREP] Hoffman, P. and M. Blanchet, "Preparation of Internationalized Strings ("stringprep")", RFC 3454, December 2002.

[StringPrep] Hoffman、P。and M. Blanchet、「国際化された文字列の準備(「StringPrep」)」、RFC 3454、2002年12月。

[UTF-8] Yergeau, F., "UTF-8, a transformation format of ISO 10646", STD 63, RFC 3629, November 2003.

[UTF-8] Yergeau、F。、「UTF-8、ISO 10646の変換形式」、STD 63、RFC 3629、2003年11月。

[UNICODE-DATA] <http://www.unicode.org/Public/UNIDATA/ UnicodeData.txt>

[unicode-data] <http://www.unicode.org/public/unidata/ unicodedata.txt>

Although the UnicodeData.txt file referenced here is part of the Unicode standard, it is subject to change as new characters are added to Unicode and errors are corrected in Unicode revisions. As a result, it may be less stable than might otherwise be implied by the standards status of this specification.

ここで参照されているUnicodedata.txtファイルはUnicode標準の一部ですが、Unicodeに新しい文字が追加され、Unicode Revisionでエラーが修正されると変更される場合があります。その結果、この仕様の標準ステータスによって暗示されるよりも安定性が低い場合があります。

[UNICODE-SECURITY] Davis, M. and M. Suignard, "Unicode Security Considerations", February 2006, <http://www.unicode.org/reports/tr36/>.

[Unicode-Security] Davis、M。and M. Suignard、「Unicode Security Cansications」、2006年2月、<http://www.unicode.org/reports/tr36/>。

7. Informative References
7. 参考引用

[BASIC] Newman, C., Duerst, M., and A. Gulbrandsen, "i;basic - the Unicode Collation Algorithm", Work in Progress, March 2007.

[Basic] Newman、C.、Duerst、M。、およびA. Gulbrandsen、「I; Basic -Unicode照合アルゴリズム」、2007年3月、進行中の作業。

[IMAP-SORT] Crispin, M. and K. Murchison, "Internet Message Access Protocol - SORT and THREAD Extensions", Work in Progress, September 2007.

[IMAP -SORT] Crispin、M。and K. Murchison、「インターネットメッセージアクセスプロトコル - ソートとスレッド拡張機能」、2007年9月、進行中の作業。

Author's Address

著者の連絡先

Mark R. Crispin Networks and Distributed Computing University of Washington 4545 15th Avenue NE Seattle, WA 98105-4527

マークR.クリスピンネットワークと分散コンピューティングワシントン大学4545 15th Avenue NEシアトル、ワシントン州98105-4527

   Phone: +1 (206) 543-5762
   EMail: MRC@CAC.Washington.EDU
        

Full Copyright Statement

完全な著作権声明

Copyright (C) The IETF Trust (2007).

著作権(c)The IETF Trust(2007)。

This document is subject to the rights, licenses and restrictions contained in BCP 78, and except as set forth therein, the authors retain all their rights.

この文書は、BCP 78に含まれる権利、ライセンス、および制限の対象となり、そこに記載されている場合を除き、著者はすべての権利を保持しています。

This document and the information contained herein are provided on an "AS IS" basis and THE CONTRIBUTOR, THE ORGANIZATION HE/SHE REPRESENTS OR IS SPONSORED BY (IF ANY), THE INTERNET SOCIETY, THE IETF TRUST AND THE INTERNET ENGINEERING TASK FORCE DISCLAIM ALL WARRANTIES, EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO ANY WARRANTY THAT THE USE OF THE INFORMATION HEREIN WILL NOT INFRINGE ANY RIGHTS OR ANY IMPLIED WARRANTIES OF MERCHANTABILITY OR FITNESS FOR A PARTICULAR PURPOSE.

このドキュメントとここに含まれる情報は、「現状のまま」に基づいて提供され、貢献者、彼/彼女が代表する組織(もしあれば)、インターネット協会、IETFトラスト、インターネットエンジニアリングタスクフォースがすべてを否認します。明示的または黙示的な保証。ここでの情報の使用は、特定の目的に対する商品性または適合性の権利または暗黙の保証を侵害しないという保証を含むがこれらに限定されない。

Intellectual Property

知的財産

The IETF takes no position regarding the validity or scope of any Intellectual Property Rights or other rights that might be claimed to pertain to the implementation or use of the technology described in this document or the extent to which any license under such rights might or might not be available; nor does it represent that it has made any independent effort to identify any such rights. Information on the procedures with respect to rights in RFC documents can be found in BCP 78 and BCP 79.

IETFは、知的財産権またはその他の権利の有効性または範囲に関して、この文書に記載されている技術の実装または使用、またはそのような権利に基づくライセンスがどの程度であるかについての使用に関連すると主張する可能性があるという立場はありません。利用可能になります。また、そのような権利を特定するために独立した努力をしたことも表明していません。RFCドキュメントの権利に関する手順に関する情報は、BCP 78およびBCP 79に記載されています。

Copies of IPR disclosures made to the IETF Secretariat and any assurances of licenses to be made available, or the result of an attempt made to obtain a general license or permission for the use of such proprietary rights by implementers or users of this specification can be obtained from the IETF on-line IPR repository at http://www.ietf.org/ipr.

IETF事務局に行われたIPR開示のコピーと、利用可能にするライセンスの保証、またはこの仕様の実装者またはユーザーによるそのような独自の権利の使用のための一般的なライセンスまたは許可を取得するための試みの結果を取得できます。http://www.ietf.org/iprのIETFオンラインIPRリポジトリから。

The IETF invites any interested party to bring to its attention any copyrights, patents or patent applications, or other proprietary rights that may cover technology that may be required to implement this standard. Please address the information to the IETF at ietf-ipr@ietf.org.

IETFは、関心のある当事者に、著作権、特許、または特許出願、またはこの基準を実装するために必要なテクノロジーをカバーする可能性のあるその他の独自の権利を注意深く招待します。ietf-ipr@ietf.orgのIETFへの情報をお問い合わせください。