AI Basics

머신러닝 이해와 활용 - 3rd.데이터수집(Google Colab)

AI패스파인더 2023. 7. 1. 23:08

Google Colab은 데이터 분석 및 머신러닝을 위한 파이썬 기반의 클라우드 환경입니다. Colab에서 데이터 수집에 사용할 수 있는 몇 가지 방법들은 다음과 같습니다.


1.Google Drive 연동
: Google Colab은 Google Drive와 쉽게 연동이 가능하므로, 먼저 Google Drive에 필요한 데이터를 업로드하고, 이를 Colab에서 불러올 수 있습니다. 이를 위해서는 Google Colab에서 구글 드라이브를 마운트해야 합니다. 마운트는 다음의 코드를 통해 가능합니다.

from google.colab import drive drive.mount('/content/drive')

 

2. 웹에서 직접 다운로드: 만약 데이터가 웹에서 직접 다운로드 가능하다면, Colab의 'wget' 명령어나 'requests' 라이브러리를 사용해 데이터를 직접 다운로드할 수 있습니다.

# wget을 사용하는 경우
!wget [URL]
# requests를 사용하는 경우
import requests response = requests.get([URL])



3. API를 통한 데이터 접근: Colab에서 파이썬 라이브러리를 사용해 API를 통한 데이터 접근이 가능합니다. 예를 들어, Twitter API를 사용해 특정 키워드가 포함된 트윗들을 수집하는 등의 작업이 가능합니다.

 

4. 웹 스크래핑: Beautiful Soup나 Selenium 등의 라이브러리를 사용해 웹 스크래핑을 통해 데이터를 수집할 수 있습니다.

데이터 수집 후에는 Pandas와 같은 라이브러리를 사용해 데이터를 처리하고 분석할 수 있습니다. 이렇게 Colab은 다양한 방법으로 데이터를 수집하고 처리하는데 활용될 수 있습니다.

 1)필요한 라이브러리 설치

!pip install beautifulsoup4
!pip install requests



 2) 웹페이지 요청 및 Beautiful Soup 객체요철

import requests
from bs4 import BeautifulSoup

url = "http://example.com"
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')


 3) HTML 파싱 : Beautiful Soup 객체에서 원하는 데이터를 찾기 위해 HTML을 파싱합니다. find()find_all() 함수를 사용하여 특정 태그나 클래스, 아이디를 가진 HTML 요소를 찾을 수 있습니다.

titles = soup.find_all('h1') # 'h1' 태그를 가진 모든 요소를 찾습니다.
for title in titles:
    print(title.text) # 각 요소의 텍스트 내용을 출력합니다.