[알쓸연잡] 알쓸연잡은 ‘알아두면 쓸데있는 연구 잡학사전’의 준말로 우리대학 연구성과를 소개하는 코너입니다.

대화형 인공지능 챗봇 ‘ChatGPT’를 비롯한 빅데이터와 인공지능(이하 AI)의 결합물은 다양한 분야에서 활용되고 있다. 이에 따라 빅데이터와 AI를 전문적으로 연구하는 기관이 우리대학에도 설립됐다. 지난 2019년 ‘빅데이터 연구센터’로 개소한 후 계속된 확장과 승격을 거쳐 지난해 출범한 ‘도시과학빅데이터·AI연구원’(이하 UBAI)이 바로 그 기관이다. 

UBAI는 △빅데이터연구센터 △AI연구센터 △복잡계연구센터 △슈퍼컴퓨팅센터 △빅데이터통합협력센터 △화학물질빅데이터연구센터 △개인정보보호센터 △경영정보연구센터로 구성돼 다양한 분야의 빅데이터와 AI를 연구하고 있다. 

또한 100식의 계산 클러스터 컴퓨터와 6식의 운영 서버 컴퓨터로 이뤄진 슈퍼컴퓨터를 운용 중이다. 이번 알쓸연잡은 UBAI에서 자체적으로 진행 중인 △우리대학 언어모형 개발 △빅데이터 시각화 △분자독성 네트워크 기반 환경성질환 예측에 대해 알아봤다.

우리대학 ChatGPT, ‘KorANI’ 

UBAI를 총괄하는 전종준 원장의 주도로 우리대학 언어모형 ‘KorANI’(이하 코라니)를 개발 중이다. 코라니는 ChatGPT처럼 생성형 AI를 기반으로 한 대화형 인공지능 챗봇이다. 코라니는 ChatGPT와 마찬가지로 질문의 맥락을 파악해 답변을 생성하는 기능을 갖추고 있다. 생성형 AI는 개발자가 학습시킨 질문과 대답을 ‘토큰’이라는 아주 작은 단위로 분리 후 패턴을 습득해 질문과 대답 사이의 상관관계를 분석한다. 사용자가 학습된 질문 그대로 입력하지 않고 대략적인 맥락만 입력해도 그와 맞는 상관관계를 지닌 대답을 생성해 주는 것이다.
 

▲ 코라니에게 질문을 입력했을 때 대답이 생성되는 모습이다.
▲ 코라니에게 질문을 입력했을 때 대답이 생성되는 모습이다.

그러나 UBAI의 컴퓨터들로는 ChatGPT만큼의 성능을 내기 힘들다. 사용자가 많아질수록 필요한 컴퓨터의 대수가 늘어나기 때문이다. 전 원장은 “수많은 사용자를 위해 항상 컴퓨터를 코라니 전용으로 대기시켜야 하는데 그렇게 되면 자원낭비가 심하다”며 “대기시키더라도 사용자가 몰리면 대답에 걸리는 시간이 늘어나거나 과부하로 컴퓨터가 자동 중단된다”고 설명했다. 

이에 코라니는 지속가능성과 경량화에 초점을 맞춰 개발되고 있다. 적은 수의 컴퓨터로 효율적인 프로그램 운영이 가능하게 만드는 것이다. 전 원장은 “질문에는 생성형 엔진을 사용하고 대답에는 그보다 간단한 검색 엔진을 사용할 것”이라며 “사용자가 몰리는 시간과 몰리지 않는 시간에 따라 사용되는 컴퓨터의 양을 조절할 예정”이라고 해결책을 제시했다. 
우리대학 학우들에게도 코라니 개발에 참여할 기회가 올 예정이다. 전 원장은 “교내 행정 시스템 같은 데이터와 달리 학교생활 꿀팁이나 주변 맛집 등은 학생들이 더 잘 안다”며 “커피 쿠폰 등을 증정하는 식으로 학우들에게 질문 공모를 열 생각이다”고 이야기했다.

코라니의 지속가능하고 경량화된 맞춤형 언어모형 기술은 우리대학뿐만 아니라 동사무소와 같은 인근 지역 사회에서 활용할 수 있도록 공유될 예정이다. 전 원장은 “코라니를 여러 기관의 언어모형에 연결해 우리대학을 넘어 더 범용성 있는 언어모형이 될 수 있도록 개발할 것”이라며 포부를 밝혔다. 

서울의 수많은 데이터를 한눈에 

서울시는 수많은 데이터를 수집하고 공개하고 있다. ‘서울 열린데이터광장’의 경우 서울시, 자치구와 그 산하기관에서 보유하고 있는 공공데이터를 계속해 발굴 및 개방 중이다. 현재 7742개 항목의 공공데이터가 서울시민에게 공유돼 있다. 

특히 ‘스마트서울 도시데이터 센서’(이하 S-DoT)가 서울 전역 주거지역, 상업지역, 공업지역, 도로 및 공원 등에 1100대가 설치돼 있다. 센서들은 서울시의 △초미세먼지 △미세먼지 △온도 △습도 등을 1시간 단위로 측정해 서울 열린데이터광장에 실시간으로 공개하고 있다. 
 

▲ 지난 2021년 7월 5일부터 11일까지 S-DoT 유동인구센서 데이터 시각화 자료
▲ 지난 2021년 7월 5일부터 11일까지 S-DoT 유동인구센서 데이터 시각화 자료

빅데이터 시각화 연구는 서울시의 수많은 데이터를 다양한 방식으로 시각화하는 것이다. 강민규 빅데이터연구센터장은 “데이터에 관한 특별한 훈련을 받은 사람들이 아니면 수많은 데이터를 이해하기 상당히 어렵다”고 전했다. 빅데이터 시각화 연구는 데이터 해석의 어려움을 해소하고 활용도를 높이는 것을 목표로 한다. 

강 센터장은 “일반 시민과 정책 관계자들이 이해하고 활용하기 쉬운 자료로 만드는 것이 목표”라며 “복잡한 데이터 구조를 풀어주고 과거에 만들어진 복잡한 통계 모형과 같은 개량적인 데이터 분석 결과를 한눈에 이해할 수 있도록 할 것”이라고 말했다. 

연구는 그래프와 매핑처럼 전통적인 데이터 시각화뿐만 아니라 ‘Interactive Data Visualization’(이하 상호작용 데이터 시각화)를 주목하고 있다. 상호작용 데이터 시각화는 사용자의 요구에 따라 결과물을 보여주는 빅데이터 시각화 방법이다. 사용자가 파라미터*를 조작하는 등의 방식으로 다양한 결과를 확인할 수 있는 것이다.

현재 빅데이터연구센터는 서울시 행정 상담 서비스 ‘120다산콜센터’와 S-DoT의 데이터를 수집해 시각화하는 연구를 수행 중이다. 예를 들어 120다산콜센터로부터 받은 민원 데이터 연구가 있다. 강 센터장은 “민원이 발생한 위치 정보를 가지고 불법주차가 많이 발생한 지역, 불법 쓰레기 투기가 많이 발생한 지역 등을 시각화하는 연구를 진행할 수 있다”고 설명했다. S-DoT 데이터로는 유동인구나 환경정보를 중점적으로 시각화하고 있다. 

강 센터장은 “서울시는 서울 거주 인구를 기준으로 과세하고 있다”며 “그러나 경기도에 거주하며 직장은 서울로 다니는 등 서울의 인프라를 누리는 사람은 훨씬 많아 서울시 거주민에게 과세의 부담이 전가되고 있다”고 이야기했다. 이어 “유동인구 데이터를 분석해 시각화한다면 앞으로 서울의 과세 정책 변화에 적절한 도움이 될 것”이라고 덧붙였다. 

일상에 숨은 독극물을 예방하다

현 인류는 화학물질을 이용한 수많은 물품 속에 살고 있다. 그러나 화학물질에는 건강과 환경을 위협하는 유해한 성분이 숨어있다. 화학물질빅데이터연구센터는 이러한 화학물질 부작용을 예방하고 안전하게 사용하기 위한 독성 규명과 위해성 평가를 빅데이터로 접근해 연구하고 있다. 

현재는 ‘분자독성 네트워크 기반 환경성질환 예측’ 연구를 진행 중이다. 환경성질환이란 유해화학제품이나 미세먼지와 같은 환경오염 물질이 사람의 몸에 흡수돼 촉발하거나 악화하는 질병이다. 환경성질환은 △알레르기성 질환 △대사질환 △심혈관계 질환 △정신질환 등 광범위하다. 최진희 화학물질빅데이터연구센터장은 “유해인자와 질환 간 상관성을 규명하고 예측·평가하는 기술을 확보하는 것이 중요하다”며 “환경산업기술원의 지원을 받아 환경성질환을 예방하고 국민 건강 위해를 최소화하는 것이 목표”라고 알렸다. 

현재 진행 중인 연구에서 센터 연구원들은 화학물질 데이터베이스, 동물실험 데이터베이스, 독성 메커니즘 데이터베이스 등 국내외 다양한 데이터를 통합·분석해 ‘환경유해인자-환경성질환’ 매트릭스를 구축하고 있다. 이를 바탕으로 인공지능을 활용해 예측 모델을 개발하는 것이 목표다. 

최 센터장은 “화학물질을 관리하는 규제 기관에서 빠르게 질환 유발 물질을 방지하는 데 활용할 수 있다”며 “제품을 생산하는 기업에서도 질환 유발 가능성이 적은 안전한 화학물질을 설계해 리스크를 줄일 수 있다”고 설명했다. 

궁극적으로 연구센터는 공공기관과 환경보건 정책에서 활용할 수 있도록 데이터베이스와 예측 모델을 탑재한 플랫폼을 제작할 예정이다. 특히 민간에 화학물질의 위험성을 알리고 정보를 제공하는 프로그램을 개발할 계획도 있다. 최 센터장은 “생활화학제품에 대한 시민의 궁금증을 해결해 주는 생활화학제품 안전성 확인 챗봇과 같은 프로그램을 만들고 싶다”고 전했다. 

이처럼 UBAI에서는 다양한 분야에서의 빅데이터와 AI를 활용한 연구가 이뤄지는 중이다. 전종준 원장은 “슈퍼컴퓨터 증설, 자원 개방 사업, 센터 간 합작 연구 추진 등을 진행하고 있다”며 UBAI에 많은 지지와 관심을 당부했다.


*파라미터: 사용자가 원하는 방식으로 자료가 처리되도록 만들기 위해 명령어를 입력할 때 추가하거나 변경하는 수치 정보


정재현 기자 
kai714@uos.ac.kr

저작권자 © 서울시립대신문 무단전재 및 재배포 금지