본문 바로가기

growth-log

Youtube 데이터 크롤링

빅데이터 수업을 들으면서 과제로서 데이터 수집이 있었다. 

한동안 근무했던 기관에서 데이터를 수집하여 유해 정보를 추출하는 작업을 시도했었기에, 

관련 방법을 적용하여 과제를 해보았다. 

 

YouTube의 API v3에서 search에 검색어를 지정하는 쿼리를 사용했고,

검색기간을 옵션으로 주었다. 데이터 저장하고 편집하는 작업이 번거로와서 

구글 스프레드 시트에 바로 저장되도록 AppScript를 사용하여 연결했다.

 

 

 

-------------------------------------------------------------------------

유튜브에서 관련 정보를 API로 수집하고 테이블로 정리해서 관련 업무 섹션에 공급하고,

모니터 후 문제가 있는 부분을 유튜브쪽으로 통보해서 어떻게 처리되고 있는지 재점검하는

과정 전체를 자동화를 해보려고 시도했었다. 

유튜브의 API는 리소스 제한이 있어, 별도의 심사를 신청해서 검색 관련 API리소스를 늘리는

과정도 진행했었고, 유해 정보처리에 관련한 업무여서 조치되지 않는 부분에 대해 여러가지

번거로운 요청을 끈질기게 드렸는데, 늘 체계적이고 성의있는 대답을 주셔서 인상깊었다.

( 늘 원칙적이었으나 묘하게~ 유연성이 있었다.) 

이런 부분의 문제를 해결해 보려고 Javascript, 조금 더 나가서 DB... 확장해 나가면서

CS공부를 시작했는데, 지금은 공부 자체가 목적이 되어 한동안 관련 코드를 보지 않아서

그런지 API구성을 다시 살펴봐야 했다. 

CS로는 마지막 학기여서, 데이터쪽 과목을 3개 정도 듣고 있다. 

데이터쪽도 재미있어서복전을 해볼까 생각중인데 .. 이러다가 어느 산으로(?) 가게 될까 좀 염려가 된다.