Výukový program Chrome Web Scraper od společnosti Semalt Expert

Pokud používáte prohlížeč Google Chrome, existuje rozšíření pro váš prohlížeč, které může pomoci při škrábání webových stránek. Je znám jako Scrapper a lze jej bez problémů využívat. Scrapper vám pomůže seškrabat obsah webových stránek a nahrát výsledky do dokumentů Google.

Jak sešrotovat web pomocí rozšíření Scraper?

1. V prohlížeči Google Chrome vyberte Internetový obchod Chrome;

2. V rozšířeních vyhledejte vyhledávání '' Scrapper '';

3. Prvním výsledkem vyhledávání je přípona známá jako '' Scrapper '';

4. Vyberte tlačítko uvedené jako „Přidat do Chromu“;

5. Vraťte se na seznam britských poslanců;

6. Klikněte na následující odkaz ;

7. Nyní vyhledejte jednoho MP a ujistěte se, že je položka označena;

8. Klepnutím pravým tlačítkem myši vyberte možnost „Scrape Podobné ...“;

9. V dalším okně se objeví konzola pro škrabky;

10. Zobrazte seškrábaný obsah v konzole škrabky;

11. Chcete-li zajistit, aby byl obsah uložen jako tabulka Google, vyberte možnost „Uložit do Dokumentů Google ...“

Rozšířené škrábání

Než se budete držet tohoto receptu, je užitečné porozumět základům HTML. Prostřednictvím tohoto odkazu si můžete například přečíst krátký úvod do HTML

Představme si, že nás zajímají všechny filmy, které hrály Asii Argento, slavnou italskou herečku.

1. V IMDB je velmi podrobný archiv herců. Stránka Asia Argento je: http://www.imdb.com/name/nm0000782/;

2. Zde si můžete prohlédnout všechny role, které herečka hraje. Začněme sešrotováním informací, které nás zajímají;

3. Zkuste to poškrábat tak, jak bylo popsáno výše;

4. Uvidíte, že seznam je trochu zkreslený. Důvodem je skutečnost, že zde uvedený seznam může být strukturován odlišně;

5. Zaměřte se na konzoli škrabky. Vlevo nahoře uvidíte malou krabičku, která říká XPath;

6. Xpath je druh dotazovacího jazyka, který pracuje pro XML a HTML;

7. XPath může pomoci najít části stránky, o které se zajímáte. Další věcí je najít vhodný prvek a napsat pro něj XPath;

8. Nyní uspořádáme náš stůl;

9. Uvidíte, že náš stávající XPath, který má všechna potřebná data, je "// div [3] / div [3] / div [2] / div";

10. XPath informuje systém, aby si prohlédl dokument HTML a vybral třetí prvek, poté druhý prvek a poté všechny;

11. Rádi bychom však nechali naše data oddělit;

12. Využijte sekci sloupců v konzole pro škrabky, abyste toho dosáhli;

13. Pojďme nejprve najít náš titul – Použijte Inspect Element pro zobrazení názvu;

14. Zkontrolujte název v rámci značky. Přidejte značku k XPath;

15. Zdá se, že výraz funguje správně, takže je to náš první sloupec;

16. V části „Sloupce“ nahraďte název prvního sloupce na „název“;

17. Přidejte k tomu XPath;

18. Ve sloupci jsou XPathy relativní a to znamená, že "./b" vybere element <b>

19. Ve sloupci XPath pro záhlaví sloupce přidejte „./b“ a vyberte „scrape“;

20. Nyní pojďme na rok. Roky lze nalézt v jednom rozpětí;

21. Vytvořte nový sloupec výběrem malého plusu vedle sloupce pro svůj titul;

22. Pomocí XPath "./span" vytvořte sloupec pro "rok";

23. Klikněte na odkaz a podívejte se, jak byl přidán rok;

24. Hotovo!