본문 바로가기
생활기술연구소/무료프로그램

책 또는 이미지에서 텍스트를 95% 이상 정확하게 무료로 추출(OCR)하는 방법

by 식인사과 2021. 10. 12.
반응형

책 내용 일부를 옮겨치는 것은 별로 어려운 일은 아니다. 하지만 분량이 많아질 경우 생각보다 긴 시간이 필요하고 굉장히 지루한 작업이기 때문에 하기 전부터 의욕이 떨어지는 경우가 많다.

이럴 경우 OCR 기술을 적용한 텍스트 추출 프로그램을 이용하면 큰 도움이 된다. OCR은 'Optical Character Recognition'의 약자로 이미지로부터 글자를 인식하는 글자를 뜻한다. 낯선 기술처럼 생각할 수 있지만 PDF 파일에서 글자 드래그가 되는 것 또는 각종 스캔 앱에서 글자를 인식하는 기술이 모두 OCR에 해당된다.

하지만 중요한 문서를 제작하는 과정에서 텍스트 추출 프로그램을 사용하려면 오타가 많을까봐 고민하게 되고 작업이 지루해도 어쩔 수 없이 직접 필사를 택하는 경우도 의외로 많다.

나도 예전에 OCR 프로그램을 이용했다가 오타가 너무 많아서 지금까지 필사를 택했는데 오늘 소개할 서비스를 쓴 이후로는 100% 이 프로그램을 이용하고 있다. 책 또는 이미지에서 텍스트를 95% 이상 정확하게 추출해주는 프로그램은 바로 구글 드라이브다. 비용 역시 100% 무료다.

구글 드라이브 로고


구글 드라이브로 문자를 추출하는 방식은 생각보다 굉장히 간단하다. 구글 드라이브를 웹으로 접속해서 드라이브 안에 이미지 파일을 올리고 그 이미지 파일을 구글 문서로 열면 끝이다.

모든 문서를 비교해 봤을 때 대략 95% 이상 정확하다. 뒷면 글씨가 비쳐서 가끔 오타가 나오기는 하지만 가볍게 수정할 정도로 오타율이 낮아서 작업 속도가 매우 빠르다.

01_이미지 파일 업로드
02_이미지 파일 오른 버튼 -> 구글 문서 열기

구글 드라이브로 텍스트 추출하는 방법

01. 드라이브에 사진 파일 업로드
02. 사진 파일에 마우르를 올린 후 오른쪽 버튼 누르고 구글 문서로 열기

03_구글 문서로 추출된 글자들



한가지 단점은 이미지 한장씩만 작업이 가능하다는 점이다. 나처럼 몇 십 페이지 정도만 추출하려는 사람들에게는 매우 유용한 서비스지만 이보다 분량이 많다면 작업 자체가 번거로울 수 있다.

사진으로 촬영한 책 내용


얼마나 정확한지 아래에 비교할 수 있는 이미지를 올렸다. 줄바꿈과 오타 몇 개를 제외하고는 거의 정확하게 글자를 옮긴 것을 알 수 있다.

왼본(왼)과 추출 문서(오)

급하지 않았다면 쓰지 않았을 것이다. 하지만 오타가 조금 있더라도 우선 옮기는 것 자체가 중요해서 쓰게 되었고 너무 편해서 다음에도 계속 쓰게 될 것 같다.

반응형

댓글