OCR

이미지 속 문자 추출하여 컴퓨터 데이터로 변환

복잡하고 다양한 문서나 이미지 속 문자를 추출하여 데이터화하고 관리할 수 있는 서비스입니다.

정확한 데이터 추출

Optical character recognition(OCR, 광학 문자 인식)은 이미지(사진)에서 글자 위치를 찾고 인식하여 컴퓨터 텍스트로 변환하는 기술입니다. 사용된 OCR은 OCR 분야에서 가장 권위 있는 글로벌 챌린지인 ICDAR2019 4개 분야에서 1위, CVPR 및 ICCV 국제 학회 논문에 선정되는 등 독보적인 기술력을 자랑합니다. 특히 인식 대상의 레이아웃을 분석하고 글자를 읽는 순서와 방향을 추정하여 문자를 인식할 수 있습니다. 또한 곡선으로 배열되거나 기울어진 문자, 필기체 등도 인식할 수 있어 정확한 데이터를 추출할 수 있습니다.

차별화된 모델

OCR 서비스는 AI 기술을 사용하여 주요 비즈니스 활용에 최적화된 고성능 OCR 인식 모델을 적용하였습니다. 문자 인식은 한국어, 영어, 일본어를 지원하며 필기체 인식은 한국어와 일본어를 지원합니다.

템플릿 생성

특정 양식을 갖춘 문서나 이미지에서 문자를 추출할 때 해당 양식에 맞는 템플릿을 만들고 지정한 영역에서 필요한 문자만 추출할 수 있습니다. 특정 양식을 디지털 데이터로 변환하는 데 용이하게 활용할 수 있습니다.

문서 처리 자동화

인식한 문서와 생성한 템플릿 간 유사도를 측정하여 문서를 자동으로 분류합니다. 문서 분류 작업이 생략되므로 업무를 효율적으로 처리할 수 있습니다. 또한 인식한 문자(인식 값)를 검증하여 검증 반복 작업을 줄이고 신뢰도를 높일 수 있습니다.