fnctId=bbs,fnctNo=2336
- 작성일
- 2024.10.18
- 수정일
- 2024.10.18
- 작성자
- 공과대학
- 조회수
- 32
조재혁 교수팀, 소셜 미디어 루머 탐지 AI 알고리즘 개발
가짜뉴스와 각종 루머 등이 소셜 미디어에서 횡횡하는 시대, 이를 효과적으로 탐지하고 분류하는 기술 개발에 대한 관심이 높아지고 있다.
이러한 소셜 미디어상의 루머 텍스트를 분류할 수 있는 하이브리드 딥러닝 모델을 전북대학교 소프트웨어공학과의 적응형 AI 연구팀(연구책임자 조재혁 교수, 박사과정 유서현)이 국제 공동연구를 통해 개발했다.
이 연구 결과를 담은 논문은 SCIE 상위 IF 10% 이내 저널인 『Alexandria Engineering Journal』에 게재됐다. 이 저널은 인공지능 및 엔지니어링 분야에서 높은 학술적 가치를 인정받고 있다. 때문에 이번 연구의 우수성과 중요성이 국제적으로도 입증된 것으로 평가된다.
이번 연구에서 연구팀은 BERT-OPCNN(Bidirectional encoder representations from transformers - Optimized convolutional neural network)과 FIAC임베딩(FastText 임베딩과 Information Gain – Ant Colony Optimization)을 결합한 새로운 하이브리드 모델을 제안, 소셜 미디어에서 급속히 확산되는 잘못된 정보와 루머를 효과적으로 탐지하고 분류하는 것을 목표로 했다.
연구는 두 단계의 특징 추출 기법으로 진행되었다. 첫 번째 단계에서는 자연어 처리(NLP) 분야에서 널리 사용되는 딥러닝 모델인 ‘BERT’와 이미지 처리에 최적화 된 딥러닝 모델인 ‘CNN(BERT-OPCNN)’을 활용해 텍스트 데이터를 임베딩하고 특징을 추출했다. BERT는 문맥 정보를 양방향으로 처리하여 텍스트의 의미를 더욱 정확하게 파악하며, 최적화된 CNN은 다양한 패턴을 학습하여 지역적 및 전역적 특징을 효과적으로 추출하는 데 기여했다.
이어 두 번째 단계에서는 단어 임베딩 기법인 ‘FastText’와 정보이득 기반의 개미군집 최적화(FIAC)를 적용하여 정교한 특징 벡터를 생성하였다. FastText는 단어를 n-gram 방식으로 분해해 드문 단어나 잘못된 단어에 대한 임베딩을 생성하고, 정보이득 기법을 통해 의미 있는 특징들을 선택하여 개미군집 알고리즘으로 최적화하였다. 이렇게 생성된 특징 벡터는 서로 보완적인 정보를 제공하며, 최종적으로 학습에 사용될 특징 벡터를 구성했다.
결합된 특징 벡터는 비선형 장기 기억망(Bi-LSTM)에 적용되어 루머 텍스트를 분류하였으며, Bi-LSTM은 양방향 정보를 모두 고려하여 텍스트의 맥락을 깊이 분석하고 루머와 비루머를 효과적으로 구분하였다. 특히, 비용 민감 학습(Cost-Sensitive Learning, CSL) 기법을 적용해 클래스 불균형 문제를 해결하고, 데이터 불균형에 따른 오류를 줄였다. 이를 통해 루머 탐지 시스템의 정확도와 신뢰성을 크게 향상시켰다.
연구 결과, 제안된 모델은 LIAR와 Fake & Real News (ISOT) 데이터셋에서 각각 98.24%의 높은 정확도를 기록하였다. 정보 증강 기법을 통해 데이터셋의 다양성을 증가시킴으로써 모델의 일반화 능력을 향상시키며, 실시간 루머 탐지 시스템의 성능 개선에 크게 기여할 것으로 기대된다.
조재혁 교수는 “이번 연구가 소셜 미디어에서 잘못된 정보의 확산을 방지하고 신뢰할 수 있는 정보 환경을 조성하는 데 중요한 기여를 할 것”이라며, “향후 다양한 언어와 플랫폼에 적용 가능한 확장 연구를 통해 루머 탐지 기술의 상용화를 목표로 할 것”이라고 밝혔다.
한편, 이번 연구는 한국 환경산업기술원과 과학기술정보통신부의 지원을 받아 진행됐으며, 연구팀은 현재 기술의 상용화를 위해 특허 출원(2024.07)을 마쳤으며, 등록 절차를 진행 중이다.
이러한 소셜 미디어상의 루머 텍스트를 분류할 수 있는 하이브리드 딥러닝 모델을 전북대학교 소프트웨어공학과의 적응형 AI 연구팀(연구책임자 조재혁 교수, 박사과정 유서현)이 국제 공동연구를 통해 개발했다.
이 연구 결과를 담은 논문은 SCIE 상위 IF 10% 이내 저널인 『Alexandria Engineering Journal』에 게재됐다. 이 저널은 인공지능 및 엔지니어링 분야에서 높은 학술적 가치를 인정받고 있다. 때문에 이번 연구의 우수성과 중요성이 국제적으로도 입증된 것으로 평가된다.
이번 연구에서 연구팀은 BERT-OPCNN(Bidirectional encoder representations from transformers - Optimized convolutional neural network)과 FIAC임베딩(FastText 임베딩과 Information Gain – Ant Colony Optimization)을 결합한 새로운 하이브리드 모델을 제안, 소셜 미디어에서 급속히 확산되는 잘못된 정보와 루머를 효과적으로 탐지하고 분류하는 것을 목표로 했다.
연구는 두 단계의 특징 추출 기법으로 진행되었다. 첫 번째 단계에서는 자연어 처리(NLP) 분야에서 널리 사용되는 딥러닝 모델인 ‘BERT’와 이미지 처리에 최적화 된 딥러닝 모델인 ‘CNN(BERT-OPCNN)’을 활용해 텍스트 데이터를 임베딩하고 특징을 추출했다. BERT는 문맥 정보를 양방향으로 처리하여 텍스트의 의미를 더욱 정확하게 파악하며, 최적화된 CNN은 다양한 패턴을 학습하여 지역적 및 전역적 특징을 효과적으로 추출하는 데 기여했다.
이어 두 번째 단계에서는 단어 임베딩 기법인 ‘FastText’와 정보이득 기반의 개미군집 최적화(FIAC)를 적용하여 정교한 특징 벡터를 생성하였다. FastText는 단어를 n-gram 방식으로 분해해 드문 단어나 잘못된 단어에 대한 임베딩을 생성하고, 정보이득 기법을 통해 의미 있는 특징들을 선택하여 개미군집 알고리즘으로 최적화하였다. 이렇게 생성된 특징 벡터는 서로 보완적인 정보를 제공하며, 최종적으로 학습에 사용될 특징 벡터를 구성했다.
결합된 특징 벡터는 비선형 장기 기억망(Bi-LSTM)에 적용되어 루머 텍스트를 분류하였으며, Bi-LSTM은 양방향 정보를 모두 고려하여 텍스트의 맥락을 깊이 분석하고 루머와 비루머를 효과적으로 구분하였다. 특히, 비용 민감 학습(Cost-Sensitive Learning, CSL) 기법을 적용해 클래스 불균형 문제를 해결하고, 데이터 불균형에 따른 오류를 줄였다. 이를 통해 루머 탐지 시스템의 정확도와 신뢰성을 크게 향상시켰다.
연구 결과, 제안된 모델은 LIAR와 Fake & Real News (ISOT) 데이터셋에서 각각 98.24%의 높은 정확도를 기록하였다. 정보 증강 기법을 통해 데이터셋의 다양성을 증가시킴으로써 모델의 일반화 능력을 향상시키며, 실시간 루머 탐지 시스템의 성능 개선에 크게 기여할 것으로 기대된다.
조재혁 교수는 “이번 연구가 소셜 미디어에서 잘못된 정보의 확산을 방지하고 신뢰할 수 있는 정보 환경을 조성하는 데 중요한 기여를 할 것”이라며, “향후 다양한 언어와 플랫폼에 적용 가능한 확장 연구를 통해 루머 탐지 기술의 상용화를 목표로 할 것”이라고 밝혔다.
한편, 이번 연구는 한국 환경산업기술원과 과학기술정보통신부의 지원을 받아 진행됐으며, 연구팀은 현재 기술의 상용화를 위해 특허 출원(2024.07)을 마쳤으며, 등록 절차를 진행 중이다.
- 첨부파일
- 첨부파일이(가) 없습니다.