自然语言处理服务Amazon Comprehend现支援Word和PDF文件格式

　　过去Amazon Comprehend只能处理純文字dangan，而現在还能处理Word和PDF文件dangan，以及笔记或是列表等数据內容。

　　AWS更新自然語言处理服务Amazon Comprehend，开始支援Word和PDF文件，让用戶可以从這些类型的dangan擷取数据。Amazon Comprehend能夠分析不同語言的文字，並且辨识這些文字的內容，諸如人名、地點、品牌和產品等，同時还能理解文本中的關鍵句子和情緒，或對大量文件的內容，依照主題加以分類。

　　无论是开设銀行帳戶、申請保險或是房屋借款等程序，皆大量使用紙本文件，而這些文件动则超过百頁，對於企业來說，手動处理這些文件是一件繁瑣的工作，不只需要人工，而且速度緩慢容易出錯，而藉由使用Amazon Comprehend，可以大幅加速文件的創建和管理，並且降低出錯機率。

　　Amazon Comprehend新的解決方案，可处理PDF、Word和原始文字等dangan格式，或是笔记和列表等布局，並進行內容擷取和分析，AWS提到，這次推出的解決方案，結合自然語言处理和光學字元辨识技術，能夠減少企业文件的預处理和後处理工作量，用戶不再需要將dangan轉換成原始文本，就能夠使用自定义命名实际辨识（NER）功能。

　　過去Amazon Comprehend只能处理純文字dangan，這需要用戶先將文件整理成机器可读的文本，但用戶現在能夠利用Amazon Comprehend以相同的API，直接從PDF和Word中的文字或是列表等不同文件布局，擷取特定詞語。

　　新的Amazon Comprehend自定义实体辨识模型，綜合分析結構上下文和自然語言上下文，從文件中的任何位置，擷取自定义实体。AWS提到，用戶对于每一種实体类型，只要提供250個文件和100个注解，即可訓練模型並且开始使用該功能，而為了要掃描PDF並擷取空間位置，Amazon Comprehen。d會呼叫Amazon Textract服务，來執行必要的处理。

　　這項新功能有助於企业处理保險、抵押、金融等業務中的文件处理工作流程，通常這些文件布局复杂，用戶也不需要頁面上的每一個数据點，因此擷取特定资讯存在困难，而Amazon Comprehend這項新功能，可以使用机器學習，使用單個模型和API呼叫，快速擷取自定义的詞語，像是处理汽車或健康保險文件中的索賠金額，甚至是在抵押貸款中，擷取申請人姓名、共同签署人或是其他財務文件资讯等

专题

InfoComm China 2021: 北京InfoComm China 2021已于上周五（7月23日）正式落...[详细]

变革时代联络中心...: 　　该系列文章探讨了推动变革的趋势，回顾了当今联络中...[详细]

2021中国呼叫中心...: 2021中国呼叫中心及企业通信大会 4月15日中国·北京 ...[详细]

华为全联接2020: 华为第五届HUAWEI CONNECT大会在上海举办。[详细]

评论排行

推荐阅读

专题

大家都在看

CTI论坛会员企业