AI 신약개발, 이제 모델보다 데이터 운영 싸움?
AI 신약개발, 이제 모델보다 데이터 운영 싸움입니다
AI 신약개발을 이야기할 때 사람들은 먼저 모델 이름을 묻습니다.
어떤 모델을 쓰는지, 단백질 구조 예측 성능이 얼마나 나오는지, 후보물질을 며칠 만에 뽑는지 같은 질문입니다.
그런데 실제 산업 현장에서는 다른 요소에 집중하고 있습니다.
데이터가 어디서 왔는지, 실험 조건이 기록돼 있는지, 실패한 실험도 남아 있는지, 연구팀과 제조팀이 같은 기준으로 데이터를 읽는지입니다.
최근 Evotec이 Rui Wang을 Global In Silico and AI 책임자로 영입한 것도
사례로 볼 수 있습니다.
Evotec은 Rui Wang가 아스트라제네카(코로나 백신)에서 데이터, 분석, AI 업무를 맡았고, R&D와 개발, 제조, 공급망에 걸친 확장형 데이터 운영 경험을 갖고 있다고 밝혔습니다. 이는 단순히 AI 연구 조직을 하나 더 만든다는 얘기라기보다, 신약개발 전 과정에 계산과 데이터를 붙이겠다는 신호에 가깝습니다.
취준생 입장에서도 이 변화는 꽤 중요합니다.
바이오 기업이 갑자기 모든 연구원을 AI 엔지니어로 바꾸지는 않습니다.
대신 wet lab, bioinformatics, cheminformatics, data engineering,
MLOps, CMC, 품질 직무 사이의 경계가 조금씩 흐려집니다.
그러니 자기소개서나 면접에서 “AI를 써봤다”보단 “실험 데이터가 의사결정에 쓰이려면 무엇이 정리돼야 하는가”를 말할 수 있는 사람이 더 설득력 있어집니다.
AI 신약개발은 매력적이나, 데이터 병목이 존재합니다.
AI 신약개발의 매력은 분명합니다.
후보물질 탐색, 타깃 발굴, 독성 예측, 단백질 결합 가능성 분석 같은 작업에서 계산의 역할이 커졌습니다.
사람이 모든 조합을 실험하기 전에 가능성이 낮은 선택지를 줄일 수 있다면,
시간과 비용을 아낄 여지가 생깁니다.
문제는 데이터입니다.
신약개발 데이터는 깨끗한 엑셀 파일 하나로 존재하지 않습니다.
실험실 노트, 장비 로그, 이미지, omics 데이터, assay 결과, 임상 데이터,
제조 공정 데이터가 서로 다른 형식으로 흩어져 있습니다.
어떤 데이터는 잘 정리돼 있지만, 어떤 데이터는 담당자가 퇴사하면 맥락을 잃습니다. 실패한 실험은 아예 기록이 안남는 경우도 있습니다.
Nature Reviews Drug Discovery도 AI 기반 천연물 신약개발을 다루면서
고품질 데이터셋과 알고리즘 검증을 중요한 과제로 짚었습니다.
모델 성능 자체보다 학습 데이터의 품질, 검증 방식, 생물학적 질문의 정확도가 결과를 좌우한다는 뜻입니다. 현장에서는 이게 꽤 큰 차이를 만듭니다. 같은 AI 도구를 써도 데이터가 엉켜 있으면 결과는 정론이 아닌 그럴듯한 추측에 가까워집니다.
Evotec 사례에서 봐야 할 포인트
관찰 포인트 | 산업적 의미 | 직무 연결 |
|---|---|---|
Global In Silico and AI 책임자 영입 | AI를 연구 보조 도구가 아니라 사업 운영 구조 안에 넣으려는 움직임 | AI strategy, computational biology, data governance |
R&D, 개발, 제조, 공급망까지 언급 | 후보물질 탐색만이 아니라 개발 가능성과 생산 가능성까지 연결 | CMC, process development, manufacturing data, 품질 |
확장형 데이터와 분석 경험 강조 | 개별 모델보다 조직 전체의 데이터 파이프라인이 경쟁력이 됨 | data engineering, MLOps, ELN/LIMS 운영, cloud data platform |
여기서 중요한 건 “AI가 신약개발을 대체한다”는 식의 이야기가 아닙니다.
더 정확히는 신약개발 의사결정에 들어가는 근거가 바뀌고 있습니다.
예전에는 실험 경험과 논문 해석, 특정 플랫폼의 노하우가 중심이었다면, 이제는 그 위에 데이터 재사용성과 계산 검증 능력이 붙습니다.
특히 위탁 연구, 공동개발, 바이오텍 파트너십이 많은 기업일수록 이 문제가 중요해집니다.
외부 파트너가 만든 데이터와 내부 실험 데이터를 같이 봐야 하기 때문입니다.
데이터 형식이 다르고 품질 기준이 다르면 AI는 빨라지기보다 오히려 검토할 일을 늘립니다.
산업 밸류체인은 어디서 바뀌나
AI 신약개발의 영향은 후보물질 탐색 회사 하나에만 머물지 않습니다.
밸류체인 전체에서 “데이터가 남는 방식”이 바뀝니다.
구간 | 기존 병목 | AI 도입 후 더 중요해지는 역량 |
|---|---|---|
타깃 발굴 | 질환 생물학 해석, omics 데이터 통합 | bioinformatics, causal inference, 데이터 전처리 |
후보물질 탐색 | 탐색 공간이 너무 넓고 실험 비용이 큼 | cheminformatics, molecular modeling, assay 설계 |
전임상 개발 | 독성, 효능, 재현성 검증 | 모델 검증, GLP 데이터 관리, 실험 설계 |
제조와 CMC | 실험실 결과가 생산 공정으로 잘 넘어가지 않음 | 공정 데이터 분석, scale-up, 품질 시스템 이해 |
공급망 | 원부자재, 위탁 생산, 일정 리스크 | 수요 예측, 공급망 데이터 통합, 리스크 모니터링 |
이 표에서 취준생이 봐야 할 지점은 하나입니다.
AI 신약개발은 “코딩만 잘하면 되는 산업”이 아닙니다.
생물학 질문을 이해하는 사람, 실험 데이터를 정리할 줄 아는 사람, 제조와 품질의 제약을 아는 사람이 같이 필요합니다.
바이오 전공자가 데이터 역량을 붙이면 할 수 있는 일이 늘고, 데이터 전공자가 생물학과 규제 언어를 익히면 지원할 수 있는 포지션이 달라집니다.
기업들은 어떤 사람을 찾게 될까
채용 공고의 표현은 회사마다 다르겠지만, 실제로는 아래 역량이 더 자주 등장할 가능성이 큽니다.
실험 데이터의 출처와 조건을 설명할 수 있는 사람
ELN, LIMS, assay 결과, omics 데이터를 연결해 본 사람
Python이나 R로 데이터를 다루되, 생물학적 해석을 놓치지 않는 사람
모델 결과를 그대로 믿지 않고 검증 실험이나 품질 기준으로 되묻는 사람
R&D와 제조, 품질 조직 사이에서 언어를 바꿔 설명할 수 있는 사람
면접에서는 “AI가 신약개발을 어떻게 바꿀까요?”라는 질문이 나올 수 있습니다.
이때 너무 큰 답을 할 필요는 없습니다.
“후보물질 탐색 속도는 빨라질 수 있지만, 데이터 품질과 검증 설계가 안 되면 실패가 더 빨리 쌓일 뿐”이라고 말하는 편이 낫습니다.
그다음 본인이 다뤄본 데이터, 실험 설계, 프로젝트 경험으로 내려오면 됩니다.
AI 관련 자기소개서를 준비 중이라면 ChatGPT와 취준 특화 AI의 차이를 다룬 글도 같이 보면 좋습니다. 도구 이름보다 중요한 건 내 경험을 직무 언어로 바꾸는 과정입니다.
리스크도 분명합니다
AI 신약개발은 기대가 큰 만큼 실망도 쉽게 생깁니다.
후보물질을 빠르게 찾았다는 발표가 곧 임상 성공을 뜻하지는 않습니다.
전임상에서 좋아 보인 결과가 사람에게서 재현되지 않을 수 있고,
독성이나 약동학 문제로 막힐 수도 있습니다. 규제기관이 요구하는 설명 가능성과 재현성 기준도 무시할 수 없습니다.
또 하나의 리스크는 조직입니다.
AI 팀이 만든 모델을 연구팀이 믿지 않거나, 연구팀이 만든 데이터를 데이터팀이 해석할 수 없으면 도입 효과가 약해집니다.
결국 신약개발 AI의 경쟁력은 모델 성능표 한 장이 아니라 데이터 기록 습관, 실험 설계, 검증 프로토콜, 팀 간 협업 방식에서 갈립니다.
취업 준비생은 무엇을 준비하면 좋을까
바이오, 화학, 약학, 데이터 전공자라면 포트폴리오를 너무 거창하게 잡지 않아도 됩니다. 공개 데이터셋으로 예측 모델 하나를 돌리는 것도 좋지만,
그보다 왜 이 데이터를 골랐는지, 어떤 변수는 제외했는지, 결과를 어떻게 검증했는지를 설명할 수 있어야 합니다.
예를 들어 bioinformatics 프로젝트를 했다면 분석 결과만 보여주지 말고 데이터 전처리 기준과 품질 확인 과정을 같이 적어보세요.
wet lab 경험이 있다면 실험 조건을 어떻게 기록했고, 반복 실험에서 어떤 변수를 통제했는지 정리해두는 편이 좋습니다.
제조나 품질 직무를 준비한다면 AI라는 단어에 끌려가기보다 CMC, 공정 데이터, deviation, CAPA 같은 현장 언어를 먼저 잡는 게 더 강합니다.
AI 신약개발은 멋진 키워드입니다.
하지만 채용에서는 키워드만으로 오래 버티기 어렵습니다. “모델을 안다”에서 멈추지 말고 “데이터가 약 개발 의사결정에 쓰이려면 어떤 조건이 필요하다”까지 말할 수 있어야 합니다.
그게 이 산업에서 더 오래 가는 답입니다.