용어집
79개 용어 · 카테고리별 정렬 · 검색 지원
게놈 기초
단일염기다형성 — 인구의 1% 이상에서 발견되는 한 글자(A/T/G/C) 차이. 한 사람의 게놈에는 약 400만 개의 SNP가 있음.
NCBI dbSNP에서 부여하는 SNP의 고유 번호. rs로 시작하는 숫자.
한 사람이 두 개의 allele(부모로부터 하나씩)에 어떤 글자를 가졌는지. 예: AA, AT, TT.
한 위치에서 가능한 DNA 글자 변이. ref allele(표준)과 alt allele(변형)이 있음.
전장 게놈 시퀀싱 — 30억 자 모두 읽기. 23andMe(60만 SNP)보다 50배 정밀.
소비자 직판 유전자 검사 회사 + 표준 출력 형식. ~60만 SNP를 TXT로 받음.
인구 유전학
게놈으로 추정한 인구 집단 (한국/일본/유럽 등). 외모와는 다를 수 있음.
인구 집단별 빈도 차이가 큰 SNP. 5~10개만 있어도 한국인/유럽인 구별 가능.
특정 인구에서 alt allele이 나타나는 비율. 예: ALDH2 A allele 한국 16%, 유럽 0%.
한국인 1,094명 전장 게놈 프로젝트 (KGP). 한국인 표준 reference로 사용.
한국인 ~4,000명 확장 KGP 데이터.
동아시아인 (한국·중국·일본·베트남 통합). 1000 Genomes Project의 ancestry 분류.
유럽계 (영국·이탈리아·핀란드·이베리아 등). 1000 Genomes 분류.
17만 명+ 게놈의 인구 빈도 데이터베이스 (Broad Institute). v4.1이 최신.
약물 + 임상
약물유전체학 — 유전자에 따라 약물 반응이 어떻게 다른지 연구. 와파린 용량 등.
약물-유전자 상호작용 표준 데이터베이스. NIH 지원, Tier 1/2 임상 가이드.
NCBI의 임상 변이 데이터베이스. Pathogenic/Likely pathogenic/Benign 분류.
임상적으로 질병 유발 가능성이 입증된 변이. ClinVar의 가장 강한 분류.
Apolipoprotein E — ε2/ε3/ε4 3종 alleles의 조합. ε4는 알츠하이머 위험 ↑.
Aldehyde Dehydrogenase 2 — 알코올의 acetaldehyde 분해 효소. *2 변이 시 술 약함.
카페인 대사 효소. *1F = fast metabolizer.
간 효소 (클로피도그렐, PPI 대사). *2/*3 = poor metabolizer.
비타민 K epoxide reductase — 와파린 표적. -1639G>A 변이 시 용량 감량.
면역 인식의 핵심. T세포가 어떤 펩타이드를 인식하는지 결정. 사람마다 다름.
암 + 신생항원
암을 유발하는 핵심 변이 (KRAS, BRAF, TP53 등). Passenger와 구별.
종양의 mutation 개수. 높을수록 면역항암제 반응 좋음. 흑색종 458, 췌장암 35.
암 변이로 새로 생긴 단백질 조각. 정상 세포엔 없어 면역세포가 인식 가능 → mRNA 백신 표적.
여러 신생항원 (보통 20개)을 직렬 연결한 mRNA. 한 번의 백신으로 다중 표적.
NIH의 11,000명+ 암 환자 게놈 프로젝트. 33개 암 종류, mutation/임상 데이터 공개.
Memorial Sloan Kettering의 임상 시퀀싱 cohort (10,945명+).
TCGA + MSK + 외 cancer genomics 데이터의 통합 웹 포털 + API.
단백질 + 구조
Google DeepMind의 단백질 3D 구조 예측 AI. v6 (2024)이 가장 정확.
AlphaFold의 자신감 점수 (0~100). 잔기별 색상으로 표시. 90+ = 매우 신뢰.
잔기가 단백질 표면에 얼마나 노출되어 있는지 (0~100%). 30%+ = surface, 10% 미만 = buried.
ByteDance의 오픈소스 단백질 구조 예측 (2026). AF3 능가, antibody-antigen 특화.
DTU의 MHC binding 예측 도구. 펩타이드의 IC50 nM 추정.
50% 억제 농도 (nM). 작을수록 강한 binding. 50 미만 = strong, 500 미만 = weak.
NeoVax의 4-stage 통합 신생항원 점수: AlphaFold(30%) + Protenix(25%) + NetMHCpan(30%) + Bio-LLM(15%).
기타
자원자가 23andMe 데이터를 자발 공개한 데이터셋 (CC0). 학술/교육 자유 사용.
Protein Data Bank — 단백질 3D 좌표 표준 파일 형식 (.pdb 또는 .cif).
단백질 시퀀스 + 메타 데이터베이스. ID 예: P15056 (BRAF).
추가 학습 자료
- SNPedia — SNP 위키
- PharmGKB — 약물유전체
- ClinVar — 임상 변이
- gnomAD — 인구 빈도
- cBioPortal — 암 환자
- AlphaFold DB — 구조
- Korean Genome Project (KGP)
- KOBIC — 한국생명공학연구원
- KOGES — 질병관리청 코호트
- NeoVax 본 시나리오 — 본 워크스페이스