
총 12개
-
머신러닝 2024년 2학기 방송통신대 출석수업과제물 과제 슬라이드 1~7의 코드 및 설명을 참조하여 신경망 구성 및 test accuracy 출력2025.01.261. Fashion MNIST 데이터셋 Fashion MNIST 데이터셋은 옷 이미지 데이터셋으로, 10개의 클래스(T-shirt/top, Trouser, Pullover, Dress, Coat, Sandal, Shirt, Sneaker, Bag, Ankle boot)로 구성되어 있습니다. 이 데이터셋을 사용하여 신경망 모델을 구축하고 학습을 진행합니다. 2. 데이터 전처리 데이터 시각화를 통해 이미지 데이터를 확인하고, 픽셀 값을 0~1 사이의 실수로 정규화하여 모델 학습에 사용합니다. 이미지 데이터를 1차원 벡터로 변환하는 과정...2025.01.26
-
태풍의 상관관계와 데이터 분석(A+ 레포트)2025.01.211. 태풍 데이터 분석 이 보고서는 다양한 태풍 간의 상관관계를 분석하여 태풍의 발생, 발달, 이동경로, 소멸 등의 특성을 이해하고자 하는 목적으로 수행되었습니다. 데이터 전처리 과정을 거쳐 태풍의 초기 위도, 경도, 중심기압과 소멸 시 위도, 경도, 중심기압, 그리고 태풍이 꺾이는 지점의 위도, 경도, 중심기압 등을 추출하였습니다. 이를 바탕으로 상관관계 분석을 수행하여 태풍의 특성을 파악하였습니다. 2. 태풍 발생 위도 분포 태풍은 주로 북위 10도~30도, 특히 20도 부근에서 많이 발생하는 것으로 나타났습니다. 이 지역은 태...2025.01.21
-
방통대 [데이터마이닝] 2024 출석과제물 (30점 만점 인증 / 표지제외 12페이지 분량 / 코드 및 해설 포함)2025.01.251. 모수적 모형 접근법 모수적 모형 접근법은 통계를 사용하여 데이터의 특징과 의미를 해석할 수 있는 분석 모델을 만드는 전통적인 방법입니다. 주로 사용하는 모형으로는 선형 회귀분석, 로지스틱 회귀모형이 있으며 모델 내에서 a 또는 b 같은 모수를 최소제곱법 또는 최대우도추정법을 사용하여 추정합니다. 모수적 모형 접근법으로 만들어진 분석 모델은 원인과 결과에 대한 설명이 용이하다는 장점이 있지만, 분석 모델을 만드는데 사용했던 데이터가 아닌 다른 데이터를 사용할 경우 정확도가 낮아지거나 적용 자체가 불가능할 수 있다는 단점이 있습니...2025.01.25
-
텐서플로우 딥러닝 (Tic-Tac-Toe)2025.05.051. 데이터 세트 tic-tac-toe.csv 파일에는 TL, TM, TR, ML, MM, MR, BL, BM, BR 속성과 class 속성이 포함되어 있습니다. TL, TM, TR, ML, MM, MR, BL, BM, BR 속성은 각 게임 보드의 위치를 나타내며, 값은 'x', 'o', 'b'로 표현됩니다. class 속성은 게임 결과를 나타내며, 'TRUE'는 x가 이겼음을, 'FALSE'는 x가 졌음을 의미합니다. 2. 2층 신경망 입력 층은 9D(TL, TM, TR, ML, MM, MR, BL, BM, BR)를 받습니다. 은...2025.05.05
-
데이터 모델링에 관한 소고2025.05.101. 데이터 모델링 데이터 모델링은 예를 들어 제조 공정에서 발생하는 다양한 변수와 상호작용을 이해하고 표현하기 위한 기술입니다. 이를 통해 우리는 불량 발생에 영향을 미치는 주요 변수들을 식별하고, 이러한 변수들 간의 관계를 파악할 수 있습니다. 데이터 모델링을 통해 불량 발생 원인을 정확하게 분석하고, 불량율을 예측할 수 있는 모델을 구축할 수 있습니다. 2. 문제의 단순화: 단일 변수 표현 다변수 데이터를 예를 들어, 면적, 두께 등과 같은 기본적인 물리량으로 하나의 값으로 표현함으로써, 다양한 변수 간의 복잡한 관계를 단순화...2025.05.10
-
R 언어를 이용한 데이터 크롤링 및 가공2025.04.261. R 언어 R 언어는 통계 및 데이터 분석을 위한 강력한 프로그래밍 언어입니다. R 언어를 이용하여 데이터 크롤링, 전처리, 시각화 등 다양한 작업을 수행할 수 있습니다. R 스튜디오는 R 언어를 사용하기 위한 대표적인 IDE로, 기본적인 통계 및 시각화 기능을 제공하며 다양한 패키지를 통해 복잡한 데이터 분석도 가능합니다. 2. 데이터 크롤링 데이터 크롤링은 웹 상의 데이터를 자동으로 수집하는 기술입니다. R 언어의 twitteR 패키지를 이용하면 트위터 데이터를 크롤링할 수 있습니다. 이를 통해 트위터 데이터를 수집하고 전처...2025.04.26
-
데이터 사이언티스트 인터뷰 준비2025.01.201. 데이터 전처리 데이터셋에 존재할 수 있는 결측값과 이상치를 처리하는 것이 중요하다. 결측값은 평균, 중앙값 등으로 대체하거나 제거할 수 있으며, 이상치는 상자 그림이나 Z-점수를 사용해 식별하고 제거하거나 대체할 수 있다. 또한 데이터의 스케일을 맞추기 위해 정규화 작업이 필요하다. 2. 머신러닝 모델 과적합 방지 과적합을 방지하기 위해 교차 검증, 정규화 기법(L1, L2), 조기 종료 등의 방법을 사용할 수 있다. 교차 검증을 통해 데이터를 최대한 활용하고 모델의 일반화 성능을 평가할 수 있으며, 정규화 기법은 모델의 복잡...2025.01.20
-
Data Preparation2025.01.131. Feature Extraction and Portability Feature extraction은 다양한 출처(센서, 이미지, 웹 기록, 침입감지, 문서 등)에서 데이터를 얻는 것을 말한다. Portability는 다른 유형으로 데이터를 변환하는 것을 말한다. 포터빌리티의 예로는 이산화, 이진화, LSA, SAX, DWT, DFT 등이 있다. 이러한 변환 방법들은 데이터의 크기를 줄이거나 다른 형태로 표현하는 데 사용된다. 2. Data Cleaning 데이터 클리닝은 누락되거나 오류가 있는 데이터를 제거하는 것을 말한다. 누...2025.01.13
-
Chat GPT의 장단점2025.01.041. Chat GPT의 정의와 특징 Chat GPT는 Generative Pretrained Transformer의 약자로, 인공지능 분야에서 사용되는 언어 모델 중 하나입니다. 이 모델은 OpenAI에서 개발한 것으로, 대규모의 데이터셋으로 사전학습된 후 다양한 자연어 처리 태스크에 사용될 수 있습니다. 2. Chat GPT의 장점 Chat GPT의 장점으로는 다양한 자연어 처리 태스크에 적용 가능, 대용량 모델, 맞춤형 모델 학습 가능, 유연한 문장 생성 기능, 다양한 데이터셋 사용 가능, 지속적인 업데이트와 발전 등이 있습니다...2025.01.04
-
Regression with an Abalone Dataset 코드2025.01.271. 데이터 로딩 및 전처리 train.csv와 test.csv 파일을 pandas 라이브러리를 사용하여 로드했습니다. LabelEncoder를 사용하여 범주형 변수(sex)를 숫자 값으로 인코딩했습니다. 새로운 특성인 size(length x diameter x height)를 만들기 위해 특성 엔지니어링을 수행했습니다. 높이 값이 0인 행을 제거하여 데이터를 정리했습니다. 2. 데이터 변환 대부분의 특성에 대해 np.log1p 함수를 적용하여 로그 변환을 수행했습니다. 이 변환은 데이터 분포를 정규 분포에 가깝게 만들어 모델 성...2025.01.27