Internet Engineering Task Force (IETF) T. Haynes Request for Comments: 9737 T. Myklebust Category: Standards Track Hammerspace ISSN: 2070-1721 February 2025
The Parallel Network File System (pNFS) allows for a file's metadata and data to be on different servers (i.e., the metadata server (MDS) and the data server (DS)). When the MDS is restarted, the client can still modify the data file component. During the recovery phase of startup, the MDS and the DSs work together to recover state. If the client has not encountered errors with the data files, then the state can be recovered and the resilvering of the data files can be avoided. With any errors, there is no means by which the client can report errors to the MDS. As such, the MDS has to assume that a file needs resilvering. This document presents an extension to RFC 8435 to allow the client to update the metadata via LAYOUTRETURN and avoid the resilvering.
並列ネットワークファイルシステム(PNFS)により、ファイルのメタデータとデータが異なるサーバー(つまり、メタデータサーバー(MDS)とデータサーバー(DS))にあることができます。MDSが再起動されると、クライアントはデータファイルコンポーネントを変更できます。スタートアップの回復段階では、MDSとDSSが協力して状態を回復します。クライアントがデータファイルでエラーに遭遇していない場合、状態を回復し、データファイルの再販売を回避できます。いかなるエラーでも、クライアントがMDSにエラーを報告できる手段はありません。そのため、MDSは、ファイルに再販売が必要であると想定する必要があります。このドキュメントでは、RFC 8435の拡張機能を提示して、クライアントがlayoutreturnを介してメタデータを更新し、再販売を避けることができます。
This is an Internet Standards Track document.
これは、インターネット標準トラックドキュメントです。
This document is a product of the Internet Engineering Task Force (IETF). It represents the consensus of the IETF community. It has received public review and has been approved for publication by the Internet Engineering Steering Group (IESG). Further information on Internet Standards is available in Section 2 of RFC 7841.
このドキュメントは、インターネットエンジニアリングタスクフォース(IETF)の製品です。IETFコミュニティのコンセンサスを表しています。公開レビューを受けており、インターネットエンジニアリングステアリンググループ(IESG)からの出版が承認されています。インターネット標準の詳細については、RFC 7841のセクション2で入手できます。
Information about the current status of this document, any errata, and how to provide feedback on it may be obtained at https://www.rfc-editor.org/info/rfc9737.
このドキュメントの現在のステータス、任意のERRATA、およびそのフィードバックを提供する方法に関する情報は、https://www.rfc-editor.org/info/rfc9737で取得できます。
Copyright (c) 2025 IETF Trust and the persons identified as the document authors. All rights reserved.
著作権(c)2025 IETF Trustおよび文書著者として特定された人。無断転載を禁じます。
This document is subject to BCP 78 and the IETF Trust's Legal Provisions Relating to IETF Documents (https://trustee.ietf.org/license-info) in effect on the date of publication of this document. Please review these documents carefully, as they describe your rights and restrictions with respect to this document. Code Components extracted from this document must include Revised BSD License text as described in Section 4.e of the Trust Legal Provisions and are provided without warranty as described in the Revised BSD License.
このドキュメントは、BCP 78およびIETFドキュメント(https://trustee.ietf.org/license-info)に関連するIETF Trustの法的規定の対象となります。この文書に関するあなたの権利と制限を説明するので、これらの文書を注意深く確認してください。このドキュメントから抽出されたコードコンポーネントには、セクション4.Eで説明されている法的規定のセクション4.Eで説明されており、改訂されたBSDライセンスで説明されている保証なしで提供されるように、改訂されたBSDライセンステキストを含める必要があります。
1. Introduction 1.1. Definitions 1.2. Requirements Language 2. Layout State Recovery 2.1. When to Resilver 2.2. Version Mismatch Considerations 3. Security Considerations 4. IANA Considerations 5. Normative References Acknowledgments Authors' Addresses
In the Network File System version 4 (NFSv4) with a Parallel NFS (pNFS) flexible file layout [RFC8435] server, during recovery after a restart, there is no mechanism for the client to inform the metadata server (MDS) about an error that occurred during a WRITE operation (see Section 18.32 of [RFC8881]) to the data servers (DSs) in the period of the outage.
ネットワークファイルシステムバージョン4(NFSV4)では、並列NFS(PNFS)フレキシブルファイルレイアウト[RFC8435]サーバーを備えた、再起動後の回復中に、クライアントがメタデータサーバー(MDS)に通知するメカニズムはありません。
Using the process detailed in [RFC8178], the revisions in this document become an extension of NFSv4.2 [RFC7862]. They are built on top of the External Data Representation (XDR) [RFC4506] generated from [RFC7863].
[RFC8178]で詳述されているプロセスを使用して、このドキュメントの改訂はNFSV4.2 [RFC7862]の拡張になります。[RFC7863]から生成された外部データ表現(XDR)[RFC4506]の上に構築されています。
See Section 1.1 of [RFC8435] for a set of definitions.
一連の定義については、[RFC8435]のセクション1.1を参照してください。
The key words "MUST", "MUST NOT", "REQUIRED", "SHALL", "SHALL NOT", "SHOULD", "SHOULD NOT", "RECOMMENDED", "NOT RECOMMENDED", "MAY", and "OPTIONAL" in this document are to be interpreted as described in BCP 14 [RFC2119] [RFC8174] when, and only when, they appear in all capitals, as shown here.
このドキュメント内のキーワード「MUST」、「MUST NOT」、「REQUIRED」、「SHALL」、「SHALL NOT」、「SHOULD」、「SHOULD NOT」、「RECOMMENDED」、「NOT RECOMMENDED」、「MAY」、および「OPTIONAL」は、ここに示すようにすべて大文字で表示されている場合にのみ、BCP 14 [RFC2119] [RFC8174] で説明されているように解釈されます。
When an MDS restarts, clients are provided a grace recovery period where they are allowed to recover any state that they had established. With open files, the client can send an OPEN operation (see Section 18.16 of [RFC8881]) with a claim type of CLAIM_PREVIOUS (see Section 9.11 of [RFC8881]). The client uses the RECLAIM_COMPLETE operation (see Section 18.51 of [RFC8881]) to notify the MDS that it is done reclaiming state.
MDSが再起動すると、クライアントには、確立した状態を回復することが許可されているグレース回復期間が提供されます。オープンファイルを使用すると、クライアントはopen操作を送信できます([RFC8881]のセクション18.16を参照)請求タイプの請求タイプ([RFC8881]のセクション9.11を参照)。クライアントは、Recalime_Complete操作を使用し([RFC8881]のセクション18.51を参照)、MDSに再生状態が行われていることを通知します。
The NFSv4 flexible file layout type allows for the client to mirror files (see Section 8 of [RFC8435]). With client-side mirroring, it is important for the client to inform the MDS of any I/O errors encountered with one of the mirrors. This is the only way for the MDS to determine if one or more of the mirrors are corrupt and then repair the mirrors via resilvering (see Section 1.1 of [RFC8435]). The client can use LAYOUTRETURN (see Section 18.44 of [RFC8881]) and the ff_ioerr4 structure (see Section 9.1.1 of [RFC8435]) to inform the MDS of I/O errors.
NFSV4フレキシブルファイルレイアウトタイプにより、クライアントはファイルをミラーリングできます([RFC8435]のセクション8を参照)。クライアント側のミラーリングを使用すると、クライアントがMDSにミラーの1つで遭遇したI/Oエラーを通知することが重要です。これは、MDSがミラーの1つ以上が破損しているかどうかを判断し、再販売を介してミラーを修復する唯一の方法です([RFC8435]のセクション1.1を参照)。クライアントは、layoutreturn([rfc8881]のセクション18.44を参照)とff_ioerr4構造([rfc8435]のセクション9.1.1を参照)を使用して、i/oエラーをMDSに通知できます。
A problem arises when the MDS restarts and the client has errors it needs to report but cannot do so. Section 12.7.4 of [RFC8881] requires that the client MUST stop using layouts. While the intent there is that the client MUST stop doing I/O to the storage devices, it is also true that the layout stateids are no longer valid. The LAYOUTRETURN needs a layout stateid to proceed, and the client cannot get a layout during grace recovery (see Section 12.7.4 of [RFC8881]) to recover layout state. As such, clients have no choice but to not recover files with I/O errors. In turn, the MDS MUST assume that the mirrors are inconsistent and pick one for resilvering. It is a MUST because even if the MDS can determine that the client did modify data during the outage, it MUST NOT assume those modifications were consistent.
MDSが再起動し、クライアントに報告する必要があるが、そうすることはできないエラーがある場合に問題が発生します。[RFC8881]のセクション12.7.4では、クライアントがレイアウトの使用を停止する必要があります。クライアントはI/Oをストレージデバイスに停止する必要があるという意図ですが、レイアウトStateIDがもはや有効でないことも事実です。Layoutreturnは続行するためにレイアウトStateIDを必要とし、クライアントはレイアウト状態を回復するために、Grace Recovery([RFC8881]のセクション12.7.4を参照)を参照してレイアウトを取得できません。そのため、クライアントは、I/Oエラーでファイルを回復しないしかありません。次に、MDSはミラーが一貫性がないことを想定し、再販売用にそれを選択する必要があります。MDSが停止中にクライアントがデータを変更したと判断できる場合でも、それらの変更が一貫していると仮定してはならないため、必須です。
To fix this issue, the MDS MUST accept the anonymous stateid of all zeros (see Section 8.2.3 of [RFC8881]) for the lrf_stateid in LAYOUTRETURN (see Section 18.44.1 of [RFC8881]). The client can use this anonymous stateid to inform the MDS of errors encountered. The MDS can then accurately resilver the file by picking the mirror(s) that does not have any associated errors.
この問題を修正するには、MDSは、LayoutreturnのLRF_STATEID([RFC8881]のセクション18.44.1を参照)について、すべてのゼロの匿名StateID([RFC881]のセクション8.2.3を参照)を参照)を受け入れる必要があります。クライアントは、この匿名のStateIDを使用して、遭遇したエラーをMDSに通知できます。その後、MDSは、関連するエラーがないミラーを選択することにより、ファイルを正確に再販することができます。
During the grace period, if the client sends an lrf_stateid in the LAYOUTRETURN with any value other than the anonymous stateid of all zeros, then the MDS MUST respond with an error of NFS4ERR_GRACE (see Section 15.1.9.2 of [RFC8881]). After the grace period, if the client sends an lrf_stateid in the LAYOUTRETURN with a value of the anonymous stateid of all zeros, then the MDS MUST respond with an error of NFS4ERR_NO_GRACE (see Section 15.1.9.3 of [RFC8881]).
猶予期間中、クライアントがすべてのゼロの匿名StateID以外の値を備えたlayoutreturnでLRF_STATEIDを送信する場合、MDSはNFS4err_graceのエラーで応答する必要があります([rfc8881]のセクション15.1.9.2を参照)。猶予期間の後、クライアントがすべてのゼロの匿名StateIDの値でLayoutreturnにLRF_STATEIDを送信する場合、MDSはNFS4err_no_graceのエラーで応答する必要があります([rfc8881]のセクション15.1.9.3を参照)。
Also, when the MDS builds the reply to the LAYOUTRETURN with an lrf_stateid with the value of the anonymous stateid of all zeros, it MUST NOT bump the seqid of the lorr_stateid.
また、MDSがすべてのゼロの匿名StateIDの値を持つLRF_STATEIDを使用してLayoutReturnへの返信を構築した場合、Lorr_stateIDのseqidにぶつかってはなりません。
If the MDS detects that the layout being returned in the LAYOUTRETURN does not match the current mirror instances found for the file, then it MUST ignore the LAYOUTRETURN and resilver the file in question.
MDSがLayouTreturnで返されるレイアウトがファイルにある現在のミラーインスタンスと一致しないことを検出する場合、Layoutreturnを無視し、問題のファイルを再販する必要があります。
The MDS MUST resilver any files that are neither explicitly recovered with a CLAIM_PREVIOUS nor have a reported error via a LAYOUTRETURN. The client has most likely restarted and lost any state.
MDSは、請求で明示的に回復していないファイルを再販売する必要があります。クライアントは、おそらく再起動して状態を失いました。
A write intent occurs when a client opens a file and gets a LAYOUTIOMODE4_RW from the MDS. The MDS MUST track outstanding write intents, and when it restarts, it MUST track recovery of those write intents. The method that the MDS uses to track write intents is implementation specific, i.e., outside the scope of this document.
クライアントがファイルを開き、MDSからlayoutiomode4_rwを取得すると、書き込み意図が発生します。MDSは未払いの書き込み意図を追跡する必要があり、再起動すると、それらの書き込み意図の回復を追跡する必要があります。MDSが書き込み意図を追跡するために使用する方法は、実装固有、つまりこのドキュメントの範囲外です。
The decision to resilver a file depends on how the client recovers the file before the grace period ends. If the client reclaims the file and reports no errors, the MDS MUST NOT resilver the file. If the client reports an error on the file, then the file MUST be resilvered. If the client does not reclaim or report an error before the grace period ends, then under the old behavior, the MDS MUST resilver the file.
ファイルを再販するという決定は、グレース期間が終了する前にクライアントがファイルを回復する方法によって異なります。クライアントがファイルを回復し、エラーを報告しない場合、MDSはファイルを再販してはなりません。クライアントがファイルにエラーを報告した場合、ファイルを再販する必要があります。クライアントがグレース期間が終了する前にエラーを取り戻したり報告したりしない場合、古い動作の下では、MDSはファイルを再販する必要があります。
The resilvering process is broadly to:
再販売プロセスは、次のように広く行われます。
1. fence the file (see Section 2.2 of [RFC8435]),
1. ファイルをフェンスします([RFC8435]のセクション2.2を参照)、
2. record the need to resilver,
2. 再販売する必要性を記録し、
3. release the write intent, and
3. 書き込み意図をリリースします
4. once there are no write intents on the file, start the resilvering process.
4. ファイルに書き込み意図がない場合は、再販売プロセスを開始します。
The MDS MUST NOT resilver a file if there are clients with outstanding write intents, i.e., multiple clients might have the file open with write intents. As the MDS MUST track write intents, it MUST also track the need to resilver, i.e., if the MDS restarts during the grace period, it MUST restart the file recovery if it replays the write intent, or else it MUST start the resilvering if it replays the resilvering intent.
MDSは、傑出した書き込み意図を持つクライアントがいる場合、ファイルを再販してはなりません。つまり、複数のクライアントがファイルを書き込み意図で開いている可能性があります。MDSは書き込み意図を追跡する必要があるため、再販売する必要性も追跡する必要があります。つまり、MDSが猶予期間中に再起動する場合、書き込み意図を再生する場合、または再販売の意図を再済みする場合は再販売を開始する必要があります。
Whether the MDS prevents all I/O to the file until the resilvering is done, forces all I/O to go through the MDS, or allows a proxy server to update the new data file as it is being resilvered is all an implementation choice. The constraint is that the MDS is responsible for the reconstruction of the data file and for the consistency of the mirrors.
MDSがすべてのI/Oが再販売が完了するまでファイルへのすべてのファイルを防ぐか、すべてのI/OにMDSを実行するように強制するか、プロキシサーバーが再販売されているために新しいデータファイルを更新できるようにするかどうかはすべて実装の選択肢です。制約は、MDSがデータファイルの再構成とミラーの一貫性を担当することです。
If the MDS does allow the client access to the file during the resilvering, then the client MUST have the same layout (set of mirror instances) after the MDS as before. One way that such a resilvering can occur is for a proxy server to be inserted into the layout. That server will be copying a good mirror instance to a new instance. As it gets I/O via the layout, it will be responsible for updating the copy it is performing. This requirement is that the proxy server MUST stay in the layout until the grace period is finished.
MDSがクライアントが再販売中にファイルにアクセスできるようにする場合、クライアントは以前と同じMDS後に同じレイアウト(ミラーインスタンスのセット)を持つ必要があります。このような再販が発生する1つの方法は、プロキシサーバーをレイアウトに挿入することです。そのサーバーは、良いミラーインスタンスを新しいインスタンスにコピーします。レイアウトを介してI/Oを取得すると、実行されているコピーを更新する責任があります。この要件は、プロキシサーバーが猶予期間が終了するまでレイアウトにとどまる必要があることです。
The MDS has no expectations for the client to use this new functionality. Therefore, if the client does not use it, the MDS will function normally.
MDSは、クライアントがこの新しい機能を使用することを期待していません。したがって、クライアントがそれを使用しない場合、MDSは正常に機能します。
If the client does use the new functionality and the MDS does not support it, then the MDS MUST reply with a NFS4ERR_BAD_STATEID to the LAYOUTRETURN. If the client detects a NFS4ERR_BAD_STATEID error in this scenario, it should fall back to the old behavior of not reporting errors.
クライアントが新しい機能を使用し、MDSがサポートしていない場合、MDSはnfs4err_bad_stateidを使用してlayoutreturnに返信する必要があります。クライアントがこのシナリオでnfs4err_bad_stateidエラーを検出した場合、報告しないエラーの古い動作に戻るはずです。
There are no new security considerations beyond those in [RFC7862].
[RFC7862]のセキュリティを超えた新しいセキュリティ上の考慮事項はありません。
This document has no IANA actions.
このドキュメントにはIANAアクションがありません。
[RFC2119] Bradner, S., "Key words for use in RFCs to Indicate Requirement Levels", BCP 14, RFC 2119, DOI 10.17487/RFC2119, March 1997, <https://www.rfc-editor.org/info/rfc2119>.
[RFC4506] Eisler, M., Ed., "XDR: External Data Representation Standard", STD 67, RFC 4506, DOI 10.17487/RFC4506, May 2006, <https://www.rfc-editor.org/info/rfc4506>.
[RFC7862] Haynes, T., "Network File System (NFS) Version 4 Minor Version 2 Protocol", RFC 7862, DOI 10.17487/RFC7862, November 2016, <https://www.rfc-editor.org/info/rfc7862>.
[RFC7863] Haynes, T., "Network File System (NFS) Version 4 Minor Version 2 External Data Representation Standard (XDR) Description", RFC 7863, DOI 10.17487/RFC7863, November 2016, <https://www.rfc-editor.org/info/rfc7863>.
[RFC8174] Leiba, B., "Ambiguity of Uppercase vs Lowercase in RFC 2119 Key Words", BCP 14, RFC 8174, DOI 10.17487/RFC8174, May 2017, <https://www.rfc-editor.org/info/rfc8174>.
[RFC8178] Noveck, D., "Rules for NFSv4 Extensions and Minor Versions", RFC 8178, DOI 10.17487/RFC8178, July 2017, <https://www.rfc-editor.org/info/rfc8178>.
[RFC8435] Halevy, B. and T. Haynes, "Parallel NFS (pNFS) Flexible File Layout", RFC 8435, DOI 10.17487/RFC8435, August 2018, <https://www.rfc-editor.org/info/rfc8435>.
[RFC8881] Noveck, D., Ed. and C. Lever, "Network File System (NFS) Version 4 Minor Version 1 Protocol", RFC 8881, DOI 10.17487/RFC8881, August 2020, <https://www.rfc-editor.org/info/rfc8881>.
Tigran Mkrtchyan, Jeff Layton, and Rick Macklem provided reviews of the document.
Tigran Mkrtchyan、Jeff Layton、およびRick Macklemは、文書のレビューを提供しました。
Thomas Haynes Hammerspace Email: loghyr@gmail.com
Trond Myklebust Hammerspace Email: trondmy@hammerspace.com