SNS 소셜 빅데이터 수집·분석해 위험신호 포착
한국데이터산업진흥원 ‘데이터바우처 지원사업’ 우수사례 선정

삼육대 송태민 교수. 사진=삼육대 제공

[스트레이트뉴스=조황재 기자] 삼육대는 보건관리학과 송태민 교수가 SNS상의 빅데이터를 분석해 코로나19 위험요인을 예측하는 인공지능(AI)을 개발했다고 6일 밝혔다.

송 교수는 인공지능 개발을 위해 지난해 1~6월 뉴스사이트, 블로그, 카페, SNS, 인터넷 게시판 등 237개 온라인 채널에서 언급된 코로나 관련 소셜 데이터 총 403만 2883건을 수집했다.

수집된 데이터는 텍스트 마이닝(Text mining)과 오피니언 마이닝(Opinion mining) 등 빅데이터 분석 기법을 통해 코로나19 감정(위험·안전), 대상, 감염경로, 관련 바이러스, 증상, 대처, 예방활동, 이슈, 산업 등 10개 주제로 분류했다.

이후 주요 키워드를 ‘단어빈도’와 ‘문서빈도’로 나눠 분석했다. 단어빈도는 한 문서에서 특정 키워드가 나타난 빈도를 집계하는 것으로, 그 키워드가 얼마나 중요한지를 보여준다. 문서빈도는 전체 문서에서 특정 키워드가 포함된 문서의 수를 집계해, 얼마나 폭넓게 등장하는지 알 수 있다.

송 교수는 이 같은 소셜 빅데이터로 머신러닝 학습데이터를 생성하고, 모델링 과정을 거쳐 코로나 위험예측 인공지능을 개발했다.

이 인공지능은 온라인상에서 특정 키워드의 빈도와 증가율 등을 분석해 ‘잠재신호→약신호→강신호→강하지만 증가율이 약한신호’에 이르는 미래신호(Future Signal) 흐름을 포착할 수 있다. 가령 코로나 관련 키워드 중 ‘무증상’에 대한 약신호가 잡히면, 향후 관련 내용이 강신호와 같은 메가트렌드로 확산될 수 있기에 사전에 대응할 수 있다는 것이다.

송 교수는 “빅데이터 분석은 방대한 양의 데이터를 활용해 사회적 문제를 예측하고, 현상에 대한 복잡한 연관관계를 보다 정확하게 밝혀낼 수 있다”면서 “이 같은 인공지능 개발 방법을 적용함으로써 코로나뿐만 아니라 다양한 사회적 위험요인을 사전에 예측하고, 대응체계를 마련할 수 있을 것으로 기대한다”고 말했다.

한편 이번 연구는 한국데이터산업진흥원이 주관하는 ‘2020년 데이터바우처 지원사업’의 지원을 받아 수행됐으며, 사업 우수사례로 선정돼 한국데이터산업진흥원장 표창을 받았다.

저작권자 © 스트레이트뉴스 무단전재 및 재배포 금지