Natural Language Processing
Research AreasIntro
현재 우리는 기계와 대화하는 시대에 살고 있습니다. 아침에는 개인 비서가 나를 깨워주고, 오후에는 챗봇이 우리의 민원을 처리해줍니다. 심
지어는 그들과 대화 중에 나의 감정까지 읽힌 듯한 착각에 빠지기도 합니다.
그렇다면 기계가 어떻게 인간의 언어를 이해할까요?
자연어 처리(NLP, Natural Language Processing)란 컴퓨터가 인간의 언어를 이해하고 처리하며 구사하게 하는 인공지능의 기술 영역을
말합니다. 자연어 처리 기술은 기계 번역이라는 명칭으로 1950년대부터 연구가 시작되었으며, 1990년대 이후에는 대량의 말뭉치 데이터를
활용하는 통계적인 방법과 기계학습 기반 방법에 대한 연구 등으로 활발히 진행되고 있습니다. 또한 최근에는 딥러닝 기술이 발전하면서 방대
한 빅데이터로부터 의미있는 정보를 추출하고 이를 활용하기 위한 자연어 처리 연구개발 활동이 전세계적으로 주목받고 있습니다.
What is NLP?
하나금융융합기술원은 2018년부터 금융 도메인에 특화된 다양한 자연어 처리 기술을 연구하고 딥러닝 등 최신 기술을 적용하기 위해 노력하
고 있습니다.
자연어 처리 분야의 첫 번째 핵심 기술 영역은 상담 로그, 규정 등의 다양한 도메인 비정형 텍스트, 뉴스, 커뮤니티 데이터 등으로부터 형태소
분석, 개체명 인식 등 기본적인 처리를 수행하는 기반 기술 영역입니다. 두 번째는 사용자가 원하는 바를 분석하는 의도 분석 및 분류 기술, 문
서 등에 어떤 주제의 정보가 기술되어 있는지 분석하거나 특정 사건 또는 상황을 분석하는 토픽 및 이벤트 추출 기술, 기계 독해, 감성분석으로
구성되는 자연어 이해(Natural Language Understanding) 기술 영역입니다. 그리고, 최근 이슈가 되고 있는 대규모 생성형 언어모델 관련
하여 금융에 특화된 사전학습 언어모델(PLM)을 연구개발 하고 이를 기반으로 하여 다양한 서비스화를 지원하는 기술 영역이 있습니다.
세 번째로 텍스트 마이닝(Text Mining) 분야는 핵심 키워드를 추출하거나 텍스트 간 관계 추출, 유사도 분석, 군집 및 분류 기술로 이루어진
자연어 이해 및 정보 검색 등을 위한 텍스트 분석 기술에 해당하는 영역입니다. 마지막으로 정보 검색(Information Retrieval) 영역은
최적화된 색인 및 검색 알고리즘을 개발합니다. 또한 검색 결과의 랭킹 모델을 정의하고 학습하는 기술과 검색 기반 질의 응답, 다양한 내·외부
데이터로부터 텍스트 정보를 추출하는 기술을 연구 및 개발하는 영역입니다.
- NLP 핵심 기반 기술
- · 형태소 분석
- · 의미 분석
- · 구문 분석
- · 화용 분석
- Natural Language
- · 비정형 금융 텍스트 데이터
- · 뉴스 데이터
- · SNS 텍스트 데이터
- Natural Language Processing
- · 의도 분석 및 분류
- · 기계 독해 (MRC)
- · 토픽 및 이벤트 추출
- · 감성 (감정) 분석
- · 사전 학습 언어모델(PLM)
- Text Mining
- · 핵심 키워드 추출
- · 텍스트 유사도 분석
- · 텍스트 간 관계 추출
- · 텍스트 군집 및 분류
- Information Retrieval
- · 검색 최적화 알고리즘
- · IR 기반 질의 응답
- · 랭킹 모델 및 학습
- · 텍스트 정보 추출
Future Research
하나금융융합기술원은 현재 서비스 되고 있는 금융 챗봇, 상담 도우미에 사용되는 자연어 처리 기술을 분석하고 개선 방법을 모색하고 있습니
다. 자연어 처리 기술을 보다 나은 최신 기술로 내재화 하고 더 나아가 손님과 직원 모두 만족할 수 있는 텍스트 기반 정보 제공 환경을
구축하는 것이 궁극적인 목표입니다.
이를 위해 딥러닝, 강화학습 등을 적용한 신기술 개발에 지속적으로 도전하고, 체계적인 서비스 구축과 운영을 위한 패키징 및 솔루션화 작업
도 병행해 나갈 것입니다. 이 과정에서 융합기술원 내 투자, 데이터 사이언스, 컴퓨터 비전 분야와 협력하여 보다 나은 금융 서비스를 발굴하고
시너지를 창출할 것입니다.