텍스트 검출 및 인식 학습을 위해 사용되는 문서 이미지의 수집 장치 및 방법

Publications

금융권 유일의 연구 조직으로 다양한 신기술 영역에서 하나금융그룹의 위상을 높이고
세계적 권위의 학회에서 대외 성과를 달성하고 있습니다.

본 발명은 학습 데이터의 생성 기술에 관한 것으로서, 상세하게는 이미지 내에 존재하는 텍스트를 검출 및 인식

하는 모델을 학습할 때 사용되는 문서 이미지를 수집하기 위한 장치 및 방법에 관한 것이다. 이를 위해, 본 발명

에 따른 문서 이미지의 수집 방법은 컴퓨팅 장치에서 수행되는 문서 이미지의 수집 방법으로서,

특정 주제와 관련된 단어를 포함하는 PDF 문서를 검색하여 복수 개 선정하는 단계와, 상기 복수 개 선정된 PDF 문서에 포함된

단어의 빈도수를 계산하여 제1 빈도 범위에 속하는 제1 단어 집합, 제2 빈도 범위에 속하는 제2 단어 집합 및 제

3 빈도 범위에 속하는 제3 단어 집합을 추출하는 단계와, 상기 제1 단어 집합에 포함된 각 단어를 포함하는 PDF

문서를 검색하여 단어별로 복수 개 선정하는 단계와, 상기 제2 단어 집합에 포함된 각 단어를 포함하는 PDF 문서

를 검색하여 단어별로 복수 개 선정하는 단계와, 상기 제3 단어 집합에 포함된 각 단어를 포함하는 PDF 문서를

검색하여 단어별로 복수 개 선정하는 단계를 포함한다.

본 발명은 상기와 같은 문제점을 해결하기 위해 창안된 것으로서, 본 발명의 목적은 텍스트 검출 및 인식을

위한 심층신경망 학습에 사용되는 학습 데이터를 사람의 수작업 없이 자동으로 생성하는 것이다.

본 발명의 다른 목적은 사람의 수작업이 필요 없는 학습 데이터를 효율적으로 수집하는 것이다.

본 발명은 PDF 문서에서 문서 이미지, 단어 박스 정보 및 글자열 정보를 추출하여 학습 데이터로 사용하기 때문에

종래 사람이 수작업으로 문서 이지미와 정답 데이터를 만들 필요가 없다. 이에 따라 학습데이터를 정확하고 빠르게 생성할 수 있는 효과가 있다.

또한 PDF 문서를 수집할 때 본 발명에 따른 검색 과정을 통해 특정 주제와 관련한 다양한 문서를 확보할 수 있고,

또한 본 발명에 따른 삭제 과정을 통해 잘못된 정보가 들어 있는 문서를 필터링할 수 있기 때문에 정확한

학습 데이터를 획득할 수 있는 효과가 있다.

2025.03.17

2025.08.29