일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 튜플
- 어려웠던 문제
- pandas
- Stack
- fragment identifier
- 쿼드압축 후 개수세기
- 규칙찾기
- 문자열
- python
- 조합
- HashMap
- Dynamic Programming
- HashSet
- 순열
- 후위 표기법
- 완전탐색
- 동적계획법
- 프로그래머스
- 메뉴리뉴얼
- dfs
- Java
- 완전 탐색
- 영문자 확인
- 보이어무어
- 2017 카카오 코드
- 점프와 순간이동
- 최소공배수
- 에라토스테네스의 체
- 반복문
- 알고리즘
- Today
- Total
목록분류 전체보기 (148)
csmoon1010의 SW 블로그

07. 머신 러닝(Machine Learning) wikidocs.net/book/2155 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net 5) 다중 입력에 대한 실습 - 독립 변수 x가 2개 이상인 선형 회귀와 로지스틱 회귀 - 비용함수, 옵티마이저 이용 원리는 동일 1. 다중 선형 회귀 : 독립 변수가 2개 이상 = 입력 벡터의 차원이 2 이상 ex> 중간고사, 기말고사, 추가 점수 --> 최종 점수 - 가설 : - 코드 : 다중 회귀 모델 생성(linear) 훈련 데이터, 테스트 데이터로 예측작업 2. 다중 로지스틱 회귀 ex> 꽃받침(Sepal), 꽃잎(Petal) 길이 --> 꽃 종(Species) _ A/B - 가설 : - 코드 : 다중회귀모델(logistic) - 훈..

07. 머신러닝(Machine Learning) 개요 - AI = 머신 러닝 + 딥 러닝(머신 러닝의 한 갈래) - 규칙을 찾아 프로그래밍 --> 스스로 규칙을 찾아감 - 활용분야 : 이미지 인식, 영상 처리, 알파고, 자연어 처리 - cf> 딥러닝 : 통계 기반보다 더 높은 성능을 보임 wikidocs.net/book/2155 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net 1) 머신 러닝이란(What is Machine Learning?) 1. 머신 러닝(Machine Learning)이 아닌 접근 방법의 한계 ex> 이미지 인식 사진 : 보는 각도, 조명, 타겟의 변형에 따라서 천차만별 --> "공통의 명확한 특징"을 잡아내기 어렵 --> 기존과 같은 명확한 알고리즘이 존재..

06. 토픽 모델링(Topic Modeling) - 토픽 모델링 : 기계학습 및 자연어 처리 분야에서 토픽(문서 집합의 추상적인 주제)를 발견하기 위한 통계적 모델 중 하나 --> 텍스트 마이닝 기법(텍스트 본문의 숨겨진 의미 구조 발견) wikidocs.net/book/2155 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net 1) 잠재 의미 분석(Latent Semantic Analysis, LSA) - LSA : 토픽 모델링 알고리즘인 LDA에 아이디어를 제공한 알고리즘 - DTM, TF-IDF의 단점 : 빈도 수만을 이용한 수치화 방법 --> 단어의 의미(토픽)는 고려하지 않음. - 선형대수학의 특이값 분해(Singular Value Decomposition, SVD)가 필..

05. 문서 유사도(Document Similarity) - 기준 : 문서들 간 동일한 단어 / 비슷한 단어가 얼마나 공통적으로 많이 사용? --> 단어의 수치화 방법(DTM, Word2Vec), 단어들 간 차이의 계산 방법(유클리드 거리, 코사인 유사도) wikidocs.net/book/2155 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net 1) 코사인 유사도(Cosine Similarity) - BoW, DTM, TF-IDF, 워드투벡터로 단어 수치화 --> 코사인 유사도로 문서의 유사도 구하기! 1. 코사인 유사도(Cosine Similarity) - 코사인 유사도 : 두 벡터 간의 코사인 각도를 이용하여 두 벡터의 유사도를 구함. = 벡터가 가리키는 방향의 유사도 - 범..

04. 카운트 기반의 단어 표현(Count based word Representation) - 문자를 숫자로 수치화 할 필요가 있음 --> ch4, 6, 10 wikidocs.net/book/2155 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net 1) 다양한 단어의 표현 방법 카운트 기반을 포함한 다양한 단어의 표현 방법에 대해서 알아본다. 1. 단어의 표현 방법 - 국소 표현(Local Representation) = 이산 표현(Discrete Representation) : 해당 단어 그 자체만 보고 특정값을 맵핑하여 단어를 표현하는 방법 ex) puppy - 1, cute - 2, lovely - 3 - 분산 표현(Distributed Representation) = 연속..

03. 언어 모델(Language Model) 단어 시퀀스(문장)에 확률을 할당하는 모델(문장의 적절/부적절을 따짐) 통계에 기반한 전통적인 언어 모델(Statistical Languagel Model, SLM) 중애서도 n-gram은 자연어 처리 분야에서 활발히 활용되며 언어모델에 대한 전체 시야를 갖기에 적합. wikidocs.net/book/2155 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net 1) 언어 모델(Language Model)이란? - 언어라는 현상을 모델링하고자 단어 시퀀스(문장)에 확률을 할당(assign)하는 모델 - 방법 (1) 통계를 이용한 방법 : 이번 챕터 (2) 인공 신경망을 이용한 방법 : 더 좋은 성능. 신기술(GPT, BERT) _ 딥러닝 ..

02. 텍스트 전처리(Text preprocessing) wikidocs.net/book/2155 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net 8) 단어 분리하기(Byte Pair Encoding, BPE) - 단어 집합(vocabulary) : 기계가 훈련 단계에서 학습한 단어들을 모아놓은 것 - OOV(Out-Of-Vocabulary) = UNK(Unknown Token) : 테스트 단계에서 기계가 배우지 못한 모르는 단어 - OOV 문제 : 모르는 단어로 인해(OOV) 문제를 제대로 풀지 못하는 상황 - 단어 분리 : 기계가 배운 적 없는 단어(OOV)에 대한 대처로 기계 번역 등에서 주요 전처리 과정. ex> BPE(Byte Pair Encoding) 알고리즘, 센텐스..

02. 텍스트 전처리(Text preprocessing) wikidocs.net/book/2155 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net 6) 정수 인코딩(Integer Encoding) 컴퓨터는 숫자를 더 잘 처리할 수 있으므로 텍스트를 숫자로 바꾸는 기법들이 자주 사용된다. 이 때 필요한 전처리가 "각 단어를 고유한 정수 맵핑"시키는 것이다. 이 떄 인덱스를 부여할 때 보통 랜덤보다는 전처리 또는 빈도수가 높은 단어들 기준으로 정렬하여 부여한다. 1. 정수 인코딩(Integer Encoding) 단어를 빈도수 순으로 정렬하여 단어 집합(vocabulary)을 만들고 높은 것부터 순서대로 낮은 숫자부터 정수를 부여한다. (1) dictionary 이용하기 - 문장 단위..