모든 개발자가 알아야 할 상위 100가지 AI 용어

인공지능은 모든 산업과 우리 삶의 모든 측면을 변화시키고 있는 현실입니다. 여러분이 인지하고 있든 그렇지 않든, 여러분은 이미 매일 AI를 사용하고 있습니다. Siri나 Alexa에게 질문할 때, Facebook이나 Instagram 피드를 스크롤할 때, 온라인 쇼핑을 하거나 Netflix를 시청할 때, Google 지도나 Uber를 사용할 때, 여러분은 AI와 상호작용하고 있습니다. 그리고 이는 빙산의 일각에 불과합니다.

AI는 또한 우리 시대의 가장 중요한 혁신과 돌파구 중 일부의 배후에 있습니다. 의사는 질병을 진단하고, 농부는 농작물을 재배하고, 교사는 학생들을 교육하고, 변호사는 계약서를 검토하고, 예술가는 음악을 만들고, 과학자는 새로운 행성을 발견하는 데 도움을 주고 있습니다. 또한 기후 변화, 빈곤, 기아, 팬데믹 등 인류가 직면한 가장 큰 도전과제를 해결하는 데도 도움이 되고 있습니다.

이것이 여러분에게 어떤 의미가 있을까요? 인공지능의 새로운 경제에서 성공하려면 머신러닝과 인공지능의 기본 용어와 개념을 숙지해야 한다는 뜻입니다. 전문 프로그래머나 머신러닝 엔지니어가 될 필요는 없지만 인공지능이 무엇을 할 수 있고 무엇을 할 수 없는지, 어떻게 작동하는지, 그리고 그것이 여러분과 여러분의 커리어에 어떤 영향을 미치는지 이해해야 합니다.

그래서 머신러닝과 인공지능의 가장 핵심적인 용어와 개념을 쉽고 빠르게 소개하기 위해 이 글을 작성했습니다. 이 포스팅이 끝날 무렵에는 새롭게 알게 된 지식과 자신감을 바탕으로 인공지능의 발전과 기술에 대해 자신 있게 이야기할 수 있을 것입니다. 또한 자신의 업계와 직업에 AI가 가져올 기회와 도전 과제를 파악할 수 있을 것입니다. 그리고 가장 중요한 것은 자신의 이익과 성장을 위해 AI를 활용하는 방법에 대해 정보에 입각한 결정을 내릴 수 있다는 것입니다.

그럼 지금 시작해보세요!

  • Algorithm: 데이터의 패턴을 학습하기 위해 머신 러닝 모델이 따르는 일련의 규칙 또는 지침입니다.
  • 인공 지능(AI): 지능형 기계를 만드는 광범위한 분야.
  • 역전파(Backpropagation): 인공 신경망에서 네트워크에 사용할 가중치 계산에 필요한 기울기를 계산하는 데 사용되는 방법.
  • 편향(Bias): 목표 함수를 더 쉽게 근사화하기 위해 모델에서 만든 단순화 가정입니다.
  • 빅 데이터(Big Data): 기존의 데이터 처리 소프트웨어로는 관리할 수 없는 대량의 데이터.
  • 이진 분류(Binary Classification): 각 입력 샘플을 두 가지 가능한 범주 중 하나로 분류하는 분류 작업의 한 유형입니다.
  • 부스팅(Boosting): 주로 지도 학습에서 편향과 편차를 줄이기 위한 머신 러닝 앙상블 메타 알고리즘입니다.
  • 범주형 데이터(Categorical Data): 여러 범주로 나눌 수 있지만 순서나 우선순위가 없는 데이터입니다.
  • 분류(Classific): 유한한 레이블 세트 중 하나를 출력하는 일종의 머신 러닝 모델입니다.
  • 클러스터링(Clustering): 모집단 또는 데이터 포인트를 여러 그룹으로 나누어 같은 그룹의 데이터 포인트가 다른 그룹의 데이터 포인트보다 더 유사하도록 하는 작업.
  • 컨볼루션 신경망(CNN): 컨볼루션 레이어를 사용하여 유용한 정보를 찾기 위해 입력을 필터링하는 인공 신경망의 일종입니다.
  • 교차 검증(Cross-Validation): 제한된 데이터 샘플에서 머신 러닝 모델을 평가하는 데 사용되는 리샘플링 절차입니다.
  • 데이터 마이닝(Data Mining): 머신 러닝, 통계, 데이터베이스 시스템의 교차점에 있는 방법을 사용하여 대규모 데이터 세트에서 패턴을 발견하는 프로세스입니다.
  • 데이터 전처리(Data Preprocessing): 원시 데이터를 머신 러닝 모델에서 사용할 수 있도록 읽기 쉬운 형식으로 변환하는 프로세스입니다.
  • 데이터 세트(Dataset): 데이터 세트: 개별 요소로 구성되어 있지만 컴퓨터가 하나의 단위로 조작할 수 있는 관련 정보 집합입니다.
  • 딥 러닝(Deep Learning): 인공 신경망이라고 하는 뇌의 구조와 기능에서 영감을 얻은 알고리즘과 관련된 머신 러닝의 하위 분야입니다.
  • 의사 결정 트리(Decision Trees): 의사 결정과 그 가능한 결과에 대한 나무와 같은 모델을 사용하는 의사 결정 지원 도구입니다.
  • 차원 축소(Dimensionality Reduction): 주요 변수 집합을 얻어 고려 중인 무작위 변수의 수를 줄이는 과정입니다.
  • 앙상블 학습(Ensemble Learning): 동일한 문제를 해결하기 위해 여러 모델을 학습시키고 더 나은 결과를 얻기 위해 결합하는 머신 러닝 패러다임.
  • Epoch: 머신 러닝 모델을 학습하는 동안 전체 학습 데이터 세트를 한 번 완전히 통과하는 것을 말합니다.
  • Feature:: 관찰되는 현상의 개별 측정 가능한 속성.
  • Feature Engineering: 도메인 지식을 사용하여 데이터 마이닝 기법을 통해 원시 데이터에서 특징을 추출하는 프로세스.
  • Feature 추출: 대규모 데이터 집합을 설명하는 데 필요한 리소스 수를 줄이는 프로세스.
  • Feature 선택: 모델 구축에 사용할 관련 특징의 하위 집합을 선택하는 프로세스.
  • 경사 하강(Gradient Descent): 기울기의 음수로 정의된 가장 가파른 하강 방향으로 반복적으로 이동하여 특정 함수를 최소화하는 데 사용되는 최적화 알고리즘입니다.
  • 하이퍼파라미터(Hyperparameter): 학습 프로세스가 시작되기 전에 값이 설정되는 매개변수입니다.
  • 불균형 데이터(Imbalanced Data): 분류 문제의 범주에 대해 관찰 횟수가 동일하지 않은 상황.
  • K-최근접 이웃(K-NN): 분류 및 회귀 문제를 모두 해결하는 데 사용할 수 있는 간단하고 구현하기 쉬운 지도 머신 러닝 알고리즘입니다.
  • 커널(Kernel): 머신 러닝에서 데이터를 특정 형태로 변환하는 데 사용되는 함수.
  • 레이블(Label): 신경망의 출력 레이어에서 얻을 수 있는 최종 출력입니다.
  • 잠재 변수(Latent Variable): 통계 모델에서 직접 관찰되지는 않지만 관찰된 다른 변수를 통해 추론되거나 추정되는 변수.
  • 선형 회귀(Linear Regression): 하나 이상의 입력 특징을 기반으로 실제 값의 출력을 예측하는 통계적 방법입니다.
  • 로지스틱 회귀(Logistic Regression): 독립 변수 집합을 기반으로 이진 결과를 예측하는 데 사용되는 분류 알고리즘입니다.
  • 손실 함수(Loss Function): 특정 알고리즘이 주어진 데이터를 얼마나 잘 모델링하는지 평가하는 방법입니다.
  • 머신 러닝(ML): 컴퓨터 시스템이 명시적인 지시 없이 작업을 수행하는 데 사용하는 알고리즘 및 통계 모델에 대한 과학적 연구입니다.
  • 다중 클래스 분류(Multi-Class Classification): 두 개 이상의 클래스가 있는 분류 작업입니다.
  • 나이브 베이즈(Naive Bayes): 예측자 간의 독립성을 가정한 베이즈 정리에 기반한 분류 기법입니다.
  • 자연어 처리(NLP): 기계가 인간의 언어를 읽고, 이해하고, 의미를 도출할 수 있는 능력을 부여하는 AI 분야입니다.
  • 신경망(Neural Network): 일련의 알고리즘으로, 데이터 집합의 기본 관계를 인식하기 위해 노력하는 일련의 알고리즘입니다.
  • 정규화(Normalization): 서로 다른 척도로 측정된 값을 공통 척도로 조정하는 작업입니다.
  • 이상값(Outlier): 다른 유사한 점과 크게 다른 데이터 포인트입니다.
  • 과적합(Overfitting): 함수가 제한된 데이터 포인트 집합에 너무 밀접하게 맞을 때 발생하는 모델링 오류입니다.
  • 매개 변수(Parameter): 학습 알고리즘이 예측을 하는 데 사용하는 모델의 내부 특성 또는 속성입니다.
  • 퍼셉트론(Perceptron): 이진 분류에 사용되는 가장 단순한 형태의 신경망입니다.
  • 정확도(Precision): 정답 수를 정답과 오답의 수로 나눈 값입니다. 분류기의 정확도를 나타내는 척도입니다.
  • 주성분 분석(PCA): 직교 변환을 사용하여 상관 관계가 있을 수 있는 변수들의 관측값 집합을 선형적으로 상관 관계가 없는 변수들의 값 집합으로 변환하는 통계적 절차.
  • 랜덤 포레스트(Random Forest): 분류, 회귀 및 기타 작업을 위한 앙상블 학습 방법으로, 학습 시 다수의 의사 결정 트리를 구성하여 작동합니다.
  • 리콜(Recall): 회상률: 정탐 수를 정탐 수와 오탐 수로 나눈 값입니다. 분류기의 완전성을 나타내는 척도입니다.
  • 회귀: 변수 간의 관계를 추정하기 위한 일련의 통계적 프로세스입니다.
  • 강화 학습(RL): 누적 보상이라는 개념을 극대화하기 위해 소프트웨어 에이전트가 환경에서 어떤 행동을 취해야 하는지에 관한 머신 러닝의 한 분야입니다.
  • 정규화: 손실 함수에 페널티를 추가하여 과적합을 방지하는 데 사용되는 기법입니다.
  • ReLu(Rectified Linear Unit): 신경망과 딥러닝 모델에서 일반적으로 사용되는 활성화 함수입니다.
  • RNN(순환 신경망): 텍스트, 게놈, 손글씨, 음성 등 데이터 시퀀스의 패턴을 인식하도록 설계된 인공 신경망의 일종입니다.
  • 반지도 학습(Semi-Supervised Learning): 소량의 레이블이 지정된 데이터와 대량의 레이블이 지정되지 않은 데이터를 사용하여 학습하는 머신 러닝 기법입니다.
  • SGD(Stochastic Gradient Descent): (linear) 서포트 벡터 머신 및 로지스틱 회귀와 같은 볼록 손실 함수 하에서 선형 분류기와 회귀자를 맞추는 간단하고 매우 효율적인 접근 방식입니다.
  • 지도 학습(Supervised Learning): 라벨이 지정된 예제 세트를 기반으로 예측을 하는 일종의 머신 러닝 모델입니다.
  • 서포트 벡터 머신(SVM): 분류 및 회귀 분석에 사용되는 머신 러닝 모델의 한 유형입니다.
  • TensorFlow: 머신 러닝 및 인공 지능을 위한 오픈 소스 소프트웨어 라이브러리입니다.
  • 시계열 분석: 시계열 분석: 의미 있는 통계 및 데이터의 기타 특성을 추출하기 위해 시계열 데이터를 분석하는 데 사용되는 기술입니다.
  • 전이 학습(Transfer Learning): 전이 학습: 사전 학습된 모델을 다른 관련 문제의 시작점으로 사용하는 머신 러닝 방법입니다.
  • 과소 적합(Underfitting): 함수가 데이터에 너무 느슨하게 맞을 때 발생하는 모델링 오류입니다.
  • 비지도 학습(Unsupervised Learning): 레이블이 지정되지 않은 예제 세트를 기반으로 예측을 하는 머신 러닝 모델의 한 유형입니다.
  • 유효성 검사 집합(Validation Set): 모델의 하이퍼파라미터를 조정하거나 모델 선택을 안내하기 위해 따로 보관된 데이터 집합의 하위 집합입니다.
  • 변수(Variable): 측정하거나 계산할 수 있는 모든 특성, 숫자 또는 수량입니다.
  • 가중치(Weights): 머신 러닝 알고리즘이 학습한 모델의 매개변수입니다.
  • XGBoost: C++, Java, Python, R 및 Julia를 위한 그라데이션 부스팅 프레임워크를 제공하는 오픈 소스 소프트웨어 라이브러리입니다.
  • 제로 샷 학습(Zero-Shot Learning): 모델이 학습 중에 보지 못한 클래스를 예측할 수 있는 머신 러닝 개념입니다.
  • 자동 인코더(Autoencoder): 입력 데이터의 효율적인 코딩을 학습하는 데 사용되는 인공 신경망의 일종입니다.
  • 일괄 정규화(Batch Normalization): 인공 신경망의 성능과 안정성을 개선하기 위한 기법.
  • 편향-분산 트레이드오프(Bias-Variance Tradeoff): 추정된 매개변수의 편향을 증가시킴으로써 표본 간 매개변수 추정치의 분산을 줄일 수 있는 모델의 특성입니다.
  • GAN(Generative Adversarial Network): 비지도 학습에 사용되는 알고리즘 아키텍처로, 특히 실제 데이터로 통과할 수 있는 데이터의 합성 인스턴스를 생성하는 데 사용됩니다.
  • 유전 알고리즘(Genetic Algorithm): 유전 알고리즘: 생물학적 진화를 이끄는 과정인 자연 선택에 기반한 제약 및 비제약 최적화 문제를 모두 해결하는 방법입니다.
  • 그리드 검색(Grid Search): 그리드에 지정된 알고리즘 파라미터의 각 조합에 대해 체계적으로 모델을 구축하고 평가하는 파라미터 튜닝 접근 방식입니다.
  • 추론(Imputation): 누락된 데이터를 대체된 값으로 대체하는 과정.
  • LSTM(Long Short-Term Memory): 순서 예측 문제에서 순서 의존성을 학습할 수 있는 순환 신경망의 한 유형입니다.
  • 다층 퍼셉트론(MLP): 피드포워드 인공 신경망의 한 종류.
  • 원핫 인코딩(One-Hot Encoding): 예측을 개선하기 위해 기계 학습 알고리즘에 제공될 수 있도록 범주형 데이터 변수를 변환하는 프로세스입니다.
  • 과적합(Overfitting): 함수가 제한된 데이터 포인트 집합에 너무 밀접하게 맞을 때 발생하는 모델링 오류입니다.
  • 다항식 회귀(Polynomial Regression): 다항식 회귀 분석: 독립 변수 x와 종속 변수 y 사이의 관계를 n차 다항식으로 모델링하는 회귀 분석의 한 유형입니다.
  • 양자 머신 러닝(Quantum Machine Learning): 양자 물리학 및 머신 러닝을 결합한 학제 간 영역입니다.
  • **Q-러닝: Q 함수를 사용하여 최적의 작업 선택 정책을 찾는 데 사용되는 강화 학습 기법입니다.
  • 정규식(RegEx): 검색 패턴을 형성하는 문자 시퀀스입니다. 정규식은 문자열에 지정된 검색 패턴이 포함되어 있는지 확인하는 데 사용할 수 있습니다.
  • 강화 학습(Reinforcement Learning): 누적 보상이라는 개념을 극대화하기 위해 소프트웨어 에이전트가 환경에서 어떤 행동을 취해야 하는지에 관한 머신 러닝의 한 분야입니다.
  • 순차적 모델(Sequential Model): 머신 러닝에 사용되는 모델 유형으로, 선형 레이어 스택으로 구성됩니다.
  • 소프트맥스 함수(Softmax Function): N차원의 실수 벡터를 받아 1을 더하는 범위(0,1)의 실수 벡터로 변환하는 함수입니다.
  • State-Action-Reward-State-Action(SARSA): 머신 러닝의 강화 학습 영역에서 사용되는 마르코프 의사 결정 과정 정책을 학습하기 위한 알고리즘입니다.
  • T-distributed Stochastic Neighbor Embedding(t-SNE): 제프리 힌튼과 그의 학생들이 처음 개발한 확률적 이웃 임베딩을 기반으로 한 시각화를 위한 머신 러닝 알고리즘입니다.
  • 단변량 분석(Univariate Analysis): 가장 간단한 형태의 데이터 분석. '유니’는 '하나’라는 뜻으로, 데이터에 변수가 하나만 있다는 의미입니다.
  • 분산(Variance): 데이터 집합의 숫자 사이의 분포에 대한 통계적 측정값입니다.
  • Word2Vec: 단어 임베딩을 생성하는 데 사용되는 관련 모델 그룹입니다. 이 모델은 단어의 언어적 맥락을 재구성하도록 훈련된 얕은 2계층 신경망입니다.
  • Yann LeCun: 컨볼루션 신경망과 기타 기계 학습 및 컴퓨터 신경과학 분야에 기여한 컴퓨터 과학자입니다.
  • Z-score: 원시 점수의 값이 관찰 또는 측정 대상의 평균값보다 높거나 낮은 표준 편차 수입니다.
  • 원샷 학습(One-shot Learning): 하나의 훈련 예제만 주어졌을 때의 객체 분류 문제.
  • 매니폴드 학습(Manifold Learning): 비선형 차원 감소를 위한 비지도 추정기 클래스.
  • 노이즈 제거 자동 인코더(Denoising Autoencoder): 데이터에서 노이즈를 제거하도록 설계된 자동 인코더의 한 유형입니다.
  • 차원의 저주(Curse of Dimensionality): 차원이 높은 데이터(많은 수의 특징)에 대한 모델 학습의 어려움을 설명하는 데 사용되는 용어입니다.
  • 협업 필터링(Collaborative Filtering): 일부 추천 시스템에서 사용하는 기술입니다. 협업 필터링에서는 알고리즘이 많은 사용자로부터 선호도를 수집하여 사용자의 관심사를 자동으로 예측하는 데 사용됩니다.
  • 다중 작업 학습(Multi-task Learning): 여러 학습 작업을 동시에 해결하면서 작업 간의 공통점과 차이점을 활용하는 머신 러닝의 한 유형입니다.
  • 지각 해싱(pHash): 멀티미디어 콘텐츠(이미지, 텍스트, 동영상)를 관리 가능한 해시 값으로 변환하는 기술입니다.
  • 생성 모델(Generative Model): 학습 데이터와 유사한 새로운 데이터를 생성하는 일종의 머신 러닝 모델입니다.
Share