什么是NuExtract?

NuExtract 是一个创新的平台,专注于从各种类型的文档中提取结构化信息,包括 PDF、图像和电子表格。借助先进的大型语言模型(LLM)的强大功能,NuExtract 不仅实现了数据录入过程的自动化,还通过最小化误报(如幻觉)来确保准确性。

性能优势

NuExtract 的一个关键亮点是其在信息提取任务中超越其他领先 LLM 的能力。它具有较低的幻觉率,这得益于其独特的能力,可以自信地指明何时缺乏所需的信息。与传统模型通常容易出现不准确有关,这代表了一次重大飞跃。

多样化的使用案例

NuExtract 涵盖了包括银行、金融、医疗、物流、市场营销和法律等广泛行业。具体使用案例包括发票解析、简历分析和合同审查。这种多样性确保各个领域的组织能够利用 NuExtract 来提升他们的数据管理流程。例如,金融机构可以自动化身份验证(KYC/KYB)和对账单的提取,而医院可以简化患者接纳和医疗编码。

API 可及性

对于希望将信息提取整合到工作流中的开发者和企业,NuExtract 提供了强大的 API。此功能允许用户通过 API 实时提取信息,提交他们的文档。无论是解析电子邮件还是从扫描文档中提取数据,API 都增强了集成能力和运营效率。

基于令牌的定价结构

NuExtract 采用具有竞争力的基于使用的定价模型,按每百万个令牌收取 NULL 的费用,适用于输入和输出令牌。这个经济的价格使得各组织,尤其是大型企业,能够有效管理他们的支出,同时满足数据提取的需求。用户可以根据预期的令牌使用量来预测成本,从而促进更好的财务规划。

多模态能力

该平台支持多种输入类型,有效处理文本和图像。这种多模态能力实现了对多种文档格式的无缝处理,确保用户能够提取信息而无需显著改变原始文件。管理格式化文档(如 PDF)和原始图像或文本的能力增强了 NuExtract 的用户友好性。

私有托管选项

理解隐私的重要性,NuExtract 提供了完全私有方式部署其模型的选项。用户可以将其实例托管在私有云或自己的本地服务器上,这是优先考虑机密性和遵从数据安全法规的组织的一项关键特征。这种私有部署还允许定制,包括调整模型以满足特定的组织需求。

有效的模板系统

为最大化提取准确性,用户可以使用模板定义提取任务。这些模板提供有关从文档中提取的特定信息的清晰指示,并且可以根据被分析文档的上下文进行定制。这种结构化方法显著提高了输出质量。

学习与改进

NuExtract 还通过其用户引导学习系统促进持续改进。用户可以通过提交示例来增强模型的效能,让模型不断学习,从而形成一个反馈循环,随着时间推移提高准确性。每次交互都有助于模型改善,使得 NuExtract 在持续使用中更加精准。

结论

总之,NuExtract 是一个高质量信息提取的综合解决方案,适用于各种类型的文档。其强大的 API、竞争的定价模型及在各个行业中的适应性,使其成为在数据处理上追求效率和准确性的企业不可或缺的工具。

优缺点

优点

  • 擅长从各种文档类型中提取结构化信息。
  • 低幻觉率,准确指示信息缺失的情况。
  • 支持医疗和金融等多个行业的广泛应用场景。

缺点

  • 由于令牌限制,处理文档的长度最多只能为20页。

常见问题

我们目前没有定价信息,请查看 NuExtract 的网站。

根据我们最新的信息,该工具目前似乎没有终身优惠,很遗憾。

NuExtract 能够处理多种类型的文档,包括原始文本、扫描图像以及格式化文档,如 PDF、电子表格和 PowerPoint 文件。在处理格式化文档时,它们会被转换为图像以保持空间信息。这种灵活性使您能够从多种文档格式中提取结构化信息。

要提高提取性能,您可以在 '示例集' 部分添加文档-提取对的示例,这有助于 NuExtract 从错误中学习。此外,调整模板字段名称以提高清晰度,并包含 '特征字段' 可以有效引导模型。对于格式化的文档,增加光栅化 DPI 或提供文本版本而不是图像也可以帮助改善结果。

要在NuExtract中创建项目,请首先点击项目栏中的“+ 新项目”按钮。您还可以复制与您的需求相符的现有“参考项目”。项目创建后,您可以通过构建一个模板来定义信息提取任务,该模板指定要提取哪些数据以及如何结构化输出。

NuExtract 中的模板定義了要提取的信息以及如何組織輸出。您可以通過在模板字段中描述提取任務來創建一個模板,然後使用魔法棒圖標生成有效的 NuExtract 模板。您還可以進一步編輯此模板,以精煉您想要提取的內容,確保它符合您的數據結構要求。

NuExtract 提供了一个 RESTful API,可通过编程方式访问其功能。您可以使用特定的 API 端点创建、管理项目并执行提取任务。每个项目都有一个唯一的提取端点,您需要包括您的 API 密钥以进行身份验证。有关使用 API 的详细指南和示例,请参见文档中的 API 参考部分。

如果 NuExtract 在处理某些文档类型时遇到困难,可以考虑向 '示例集' 中添加纠正示例,这有助于训练模型更准确地处理这些问题。您还应该分析您的模板,看是否可以进行调整以提高对模型的清晰度或指导性。从挑战模型的文档中添加清晰且多样的示例可以显著提高其准确性。

可以,您可以将NuExtract平台私下部署,无论是在专用实例、私有云还是本地部署。好处包括提高您文件的机密性,有机会微调提取模型以改善性能,以及在处理大量文件时可能降低推理成本。有关私有部署,您需要联系NuMind以讨论选项。

NuExtract 针对其提取 API 按每百万个令牌收费。这个令牌计数包括输入和输出令牌,其中大部分来自您的文档。理解令牌化可能有助于您有效估算成本,因为典型的文本页面平均大约有 600 个令牌。如果您处理大量数据,您可以通过与 NuMind 讨论您的需求来寻找降低每个令牌成本的选项。