Chrome 용 스크레이퍼 확장에 대한 Semalt 가이드

모든 비즈니스가 생존하고 궁극적으로 성장하려면 경쟁 업체와 다양한 위험보다 앞서 있어야합니다. 분석 데이터를 기반으로 결정을 내리면 이러한 문제를 잊을 수 있습니다. 이러한 데이터는 데이터 폐기를 통해 얻을 수 있습니다. Chrome을위한 간편한 스크레이퍼 확장 기능 이 제공됩니다. 데이터 수집 프로세스를 용이하게 할뿐만 아니라 복잡한 설정 없이도 이동 중에 스크래핑 할 수 있습니다.

스크레이퍼를 사용하는 방법

    1. 가장 먼저해야 할 일은 확장 프로그램을 설치하는 것이므로 크롬 웹 스토어로 가서 "스크래퍼"를 검색하고 크롬에 추가를 클릭하십시오.

    2. 데이터스크랩 하려는 웹 사이트로 이동하여 관심있는 항목을 강조 표시하여 표시하십시오. 마우스 오른쪽 버튼으로 클릭하고 나타나는 메뉴에서 "scrape similar"를 선택하십시오.

    3. 이렇게하면 별도의 스크레이퍼 콘솔 창이 시작됩니다. 여기에 스크랩 된 데이터 목록이 표시 됩니다 .

    4. 내용을 저장하려면 "Google 문서에 저장"을 클릭하십시오. 그러면 데이터가 자동으로 Google 스프레드 시트로 내보내집니다.

스크래핑 연장

더 많은 데이터를 스크랩하려는 경우 고급 접근 방식을 사용할 수 있습니다. HTML에 대한 지식이 있으면 도구를 사용하는 것이 훨씬 쉬울 것입니다. 시계열 데이터를 기반으로하는 아카이브가있는 소스에서 데이터를 긁으려고한다고 가정하십시오. 이 경우 위에서 설명한 방법을 시도하면 잘못된 데이터가 표시됩니다.

이 문제를 해결하기 위해 XPath라는 HTML 및 XML 쿼리 언어를 사용할 수 있습니다. 무엇을합니까? XPath는 각 선택에 포함 된 다른 요소에 관한 데이터를 인식합니다. 다음은 그 방법에 대한 안내서입니다.

1. Scraper 콘솔로 이동하여 왼쪽 상단에 "XPath"버튼이 표시되어 클릭 한 후 초기 테이블을 조립하십시오.

2. 올바른 요소에 대한 XPath를 작성해야합니다. 전체 정보를 포함하는 현재 XPath는 "// div [3] / div [3] / div [2] / div"와 같은 형식으로 표시됩니다. <div> 요소는 컴퓨터에 의해 HTML 문서에서 인식됩니다.

3. 인식 된 데이터를 분리하려면 스크레이퍼 열을 사용해야합니다. 그렇게하려면 사용 가능한 여러 유형의 정보를 찾아야합니다. 스크랩하는 데이터에 따라 제목이있을 수 있습니다. 이 제목은 모든 데이터 세트 옆에 있습니다. 이 태그에는 <b> 태그가 동반됩니다.

4. inspect 요소를 사용하여 <b> 태그를 찾아 XPath에 추가하십시오. 이제 첫 번째 열에 "제목 열"이라는 레이블을 붙일 수 있습니다. 필요한 각 컬럼마다 다른 XPath를 작성하십시오.

5. 스크랩을 클릭하면 확장 프로그램이 자동으로 데이터를 수집하여 설정 한 다른 열로 구성합니다.