일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- HashSet
- 쿼드압축 후 개수세기
- 완전탐색
- 순열
- 문자열
- Stack
- 2017 카카오 코드
- 영문자 확인
- Dynamic Programming
- 알고리즘
- pandas
- 후위 표기법
- 반복문
- HashMap
- 메뉴리뉴얼
- Java
- 조합
- dfs
- 프로그래머스
- 보이어무어
- 동적계획법
- python
- fragment identifier
- 최소공배수
- 에라토스테네스의 체
- 점프와 순간이동
- 규칙찾기
- 완전 탐색
- 튜플
- 어려웠던 문제
- Today
- Total
목록분류 전체보기 (148)
csmoon1010의 SW 블로그

02. 텍스트 전처리(Text preprocessing) wikidocs.net/book/2155 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net 3) 어간 추출(Stemming)과 표제어 추출(Lemmatization) 두 기법은 정규화 기법 중 "단어의 개수를 줄이기" 기법에 속한다. 보이기엔 다른 단어지만 의미가 같은 단어들을 하나의 단어로 일반화 시켜서 단어 수를 줄여 코퍼스의 복잡성을 줄여준다. 1. 표제어 추출(Lemmatization) (1) 표제어(Lemma) : 기본 사전형 단어 (2) 표제어 추출 : 단어들의 표제어를 찾아서 단어의 개수를 줄임. (ex> am, are, is --> be) (3) 방법_형태학적 파싱 : 형태소의 두 가지 구성 요소를 분리하는 작..

자연어 처리를 이용할 준비를 마쳤으니 본격적인 자연어 처리를 위한 공부들을 시작한다. 첫번째로는 머신 러닝 워크플로우 상 2번째에 해당하는 텍스트 전처리이다. wikidocs.net/book/2155 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net 02. 텍스트 전처리(Text preprocessing) 1) 토큰화(Tokenization) 데이터를 우리가 사용하고자하는 용도에 맞게 토큰화, 정제, 정규화하는 과정이 필요하다. 먼저 토큰화에 대해서 알아보도록 한다. 토큰화는 주어진 코퍼스에서 "토큰(token)"이라 불리는 단위로 나누는 작업을 뜻한다. 토큰화를 파이썬, NLTK 패키지, KoNLPY를 통해 진행해본다. 1. 단어 토큰화(Word Tokenization) 토큰의 ..

01. 자연어 처리(natural language processing)란? 필요한 라이브러리들의 설치를 마치고 이번엔 판다스 프로파일링과 머신 러닝 워크플로우에 대하여 배워본다. 내용은 위키독스를 기반으로 한다. wikidocs.net/book/2155 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net 1. 판다스 프로파일링(Pandas-Profiling) 판다스 프로파일링은 머신러닝을 하기 전 데이터의 성격을 알아보는 과정 즉, 데이터 내 값의 분포, 변수 간의 관계, 결측값(Null)의 존재 유무 등을 판단하는 EDA(Exploratory Data Analysis, 탐색적 데이터 분석)의 일종이다. 판다스 프로파일링은 이 역할을 .profile_report()라는 명령어로 쉽게..
치매 예방 어플 중 일기 쓰기 메뉴에서 회상 일기 테스트를 위해서는 자연어 처리에 대한 공부가 필요하다. 공부 방법을 찾던 중 wikidocs의 딥 러닝을 이용한 자연어 처리 입문이라는 페이지를 발견하였다. 빠르게 이 페이지를 이용해 자연어 처리가 무엇인지 알아보려 한다. wikidocs.net/book/2155 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net 01. 자연어 처리(natural language processing)이란? 우선 아나콘다를 설치한다. 아나콘다 설치는 홈페이지에서 다운로드하면 되므로 어려운 것은 없었다. 아나콘다 설치가 완료되면 관련 라이브러리들을 설치한다. 설치 및 이용할 라이브러리들을 다음과 같다. (1) 텐서플로우(tensorflow) 구글이 20..