1. it168资讯网首页
  2. 电脑知识

MinerU 文档数据提取工具

MinerU(文档数据提取工具)简介
MinerU是一个一站式开源免费的文档数据提取工具,主要包括两个模块:Magic-PDF和Magic-Doc。

Magic-PDF是一个PDF文档提取工具,能够…

MinerU(文档数据提取工具)简介

MinerU是一个一站式开源免费的文档数据提取工具,主要包括两个模块:Magic-PDF和Magic-Doc。

MinerU - 文档数据提取工具

Magic-PDF是一个PDF文档提取工具,能够将PDF文档转换为Markdown格式。它支持本地文件或对象存储上的PDF文件。主要特点包括:

1. 支持多种前端模型输入
2. 去除页眉、页脚、脚注和页码
3. 保持原始文档的结构和格式,包括标题、段落、列表等
4. 提取并显示Markdown中的图像和表格
5. 将方程式转换为LaTeX格式
6. 自动检测并转换乱码PDF
7. 兼容CPU和GPU环境
8. 支持Windows、Linux和macOS平台

Magic-Doc是一个网页和电子书提取工具,能够将网页或多种格式的电子书转换为Markdown格式。主要特点包括:

1. 网页提取:精确解析文本、图像、表格和公式信息
2. 电子书提取:支持epub、mobi等多种文档格式,完全适配文本和图像
3. 语言类型识别:准确识别176种语言

MinerU(文档数据提取工具)官网及

原创文章,作者:admin,如若转载,请注明出处:https://www.it168.online/pcinfo/18051/

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注