工具推荐:markitdown - 转换文件为 Markdown
介绍
一个 Python 工具转换文件为 Markdown,方便自己使用 Markdown 成为的笔记。
支持的文件格式如下:
PDF
PowerPoint
Word
Excel
Images (EXIF metadata and OCR)
Audio (EXIF metadata and speech transcription)
HTML
Text-based formats (CSV, JSON, XML)
ZIP files (iterates over contents)
使用
工具支持多种使用方式:命令行,Python API 以及 Docker等,下面以命令行为主介绍。
# 安装
pip install markitdown
# 转换 pdf
markitdown path-to-file.pdf > document.md
markitdown path-to-file.pdf -o document.md