计算机视觉帮助我们阅读文本,然后使用 NLP 来理解识别出的文本。在本文中,我将专门讨论文本提取部分
在本文中,我们将学习如何从图像中读取或提取文本,无论它是手写的还是打印的。
为了阅读文本,图片中有两件事。第一个是计算机视觉,第二个是NLP,它是 Natural Language Processing 的缩写。计算机视觉帮助我们阅读文本,然后使用 NLP 来理解识别出的文本。在本文中,我将专门讨论文本提取部分。
计算机视觉如何执行文本提取
为了执行这个文本提取任务,计算机视觉为我们提供了 2 个 API:
OCR API。
读取 API。
OCR API适用于多种语言,非常适合相对较小的文本,但如果您在任何图像中都有大量文本或说文本主导图像,那么Read API是您的选择。
OCR API以区域、线条和单词的形式提供信息。给定图像中的区域是包含文本的区域。
因此,输出层次结构将是 - 区域、每个区域中的文本行,然后是每行中的单词。
Read API,非常适用于图像,文本高度加载。
以文本为主的图像的最佳示例是任何扫描或打印的文档。
这里的输出层次结构是页面、行和字的形式。
由于此 API 处理大量行和单词,因此它是异步工作的。
因此,在读取整个文档之前不要阻塞我们的应用程序,而OCR API以同步方式工作。
这是描述何时使用什么的表格:
文字识别API
读取API
适用于相对较小的文本。
适用于以文本为主的图像,即扫描文档。
输出层次结构为 Regions >> Lines >> Words。
输出层次结构将是页面 >> 行 >> 单词。
以同步方式工作。
以异步方式工作。