晴耕雨読

working in the fields on fine days and reading books on rainy days

pandocでWordファイル(.docx)をMarkdownへ変換する

Word (docx) で書かれた過去の資産をMarkdown化するには pandoc コマンドを使用します。 pandoc コマンドは別途インストールが必要です。

なお、doc ファイルの場合は Word で docx に変換する作業が必要になります。

$ pandoc -s 入力.docx --wrap=none --extract-media=media -t gfm -o 出力.md

以下は、Markdownへ変換する際のオプションの説明です。

  • --wrap=none
    • 出力時のwrap(枠を超えないように複数行に折り返し指定する処理)の設定をします
    • noneを指定することで、1行を72文字で折り返す処理を無効化します
    • ※デフォルトだと勝手にwrapされてしまう
  • --extract-media=DIR
    • 出力先のフォルダを引数で指定します
    • docxに埋め込まれたpngなどが抽出されて、指定した DIR フォルダ内に格納されます
  • -t gfm
    • 出力形式を指定します
    • gfm (GitHub-Flavored Markdown) はGitHub形式のMarkdownで出力します
    • ※デフォルトだとPandoc形式のMarkdownになってしまう

以上です。

参考資料