Fantasy Football — игра для ботаников. Сказав это, вы не сможете выиграть чемпионат, не изучив его. Вот как пригодится веб-скрапинг. В этом руководстве вы узнаете, как создать инструмент для очистки веб-страниц для выполнения этой работы.
Теперь вы можете автоматически собирать ценные данные в одну электронную таблицу. Вместо того, чтобы искать статистику из различных источников путем копирования и вставки, это намного проще и быстрее.
Почему веб-парсинг?
Согласно отчету, среднестатистические игроки тратят 3 часа в неделю на управление своими командами, а девять дополнительных часов читают о тенденциях. Около 30% игроков управляют своими командами во время своей повседневной работы.
Тонны информации у вас под рукой. Трудно сделать точный прогноз игры игроков команды. Как вы можете выбрать игроков второго уровня и добиться лучшего результата? Вам необходимо отслеживать статистику игры и находить скрытые значения.
Что такое веб-парсинг?
Веб-скрапинг — это метод автоматизации процесса извлечения данных с веб-сайтов. Традиционно для написания сценария потребуется программист.
На данный момент инструмент для очистки веб-страниц заменяет собой работу по написанию кода. Парсинг больше не является привилегией программиста. Любой желающий может извлечь ценную информацию из Интернета и сохранить ее в локальном хранилище или в облаке.
В этой статье я расскажу, как извлекать точки прогнозов фэнтези-футбола со спортивных сайтов, таких как fantasypros.com, с помощью инструмента для сбора данных.
Нет необходимости документировать всю страницу. Вы можете проявить еще больше творчества и получить преимущество, проведя параллельное сравнение с командами соперника для тщательного анализа.
Затем мы сравниваем это со скриптом Python. Так вы поймете, насколько легко всем нам, особенно игрокам в фэнтези-футбол, отслеживать статистику.
Отказ от ответственности : я новичок в фэнтези-футболе. Эта статья не дает профессиональных советов по черновикам стратегий. Напротив, это обмен знаниями со статистической точки зрения.
Веб-парсинг с помощью Octoparse
Предпосылка:
Octoparse, очень интуитивно понятный инструмент для очистки веб-страниц. Это помогает мне преодолевать множество препятствий в проектах анализа данных. Лучшее на рынке. Вы можете скачать это здесь.
Создайте проект:
Откройте Octoparse и щелкните маленький знак плюса, чтобы создать новую задачу с помощью расширенной модели. Введите URL-адрес, и Octoparse откроет веб-страницу со встроенным браузером. Мы можем взаимодействовать и извлекать данные, нажимая на страницу.
Сначала щелкните игрока в первом ряду. Обратите внимание, что Octoparse разбирает веб-сайт на отдельные элементы. Он нашел похожие элементы и выделил их красным.
Это здорово. Следуйте подсказке к действию и нажмите «выбрать все подэлементы». Выбрана вся строка. Затем Octoparse напомнит вам, что он нашел похожие строки, которые готовы к выбору. Следуйте инструкциям, нажмите «Выбрать все». И последнее, но не менее важное : сохраните задачу и начните извлечение в выбранных типах извлечения. Вы можете извлекать файлы локально, в облаке или по расписанию. В этом случае я настоятельно рекомендую установить расписание. Сканер будет своевременно очищать веб-сайты. Так что вы всегда в курсе.
Извлеченные данные будут доставлены в виде структурированных форматов, включая Excel, txt и JSON. Поскольку нам нужно проанализировать точки, я экспортирую их в Excel, и это выглядит так.
Веб-парсинг с помощью Python
Вы можете прочитать полную версию Python здесь . Я разбил процесс на несколько шагов:
- Перейдите на нужную страницу и скопируйте URL-адрес для дальнейшего использования.
- Используйте запросы Python и пакеты bs4 ( Beautiful Soup), чтобы получить всю веб-страницу в формате синтаксиса HTML.
- Внимательно изучите HTML-код, чтобы найти данные, которые вы хотите извлечь. В этом случае мы ищем «TR» (Table Row).
- Найдите, какие уникальные идентификаторы, такие как ссылки href, имена классов, строки таблицы и данные таблицы, окружают нужные вам данные.
- Попробуйте извлечь разные поля из одной строки данных.
- Пройдите несколько итераций методом проб и ошибок.
- Регулируйте форматы данных (поскольку мы извлекаем необработанные данные, данные могут выглядеть забавно со странными форматами. Вам необходимо очистить форматы символов и сделать их согласованными и удобочитаемыми.)
В заключении
Создание спортивных прогнозов в Интернете выполняется быстро и легко. Тем не менее, с помощью инструмента для очистки веб-страниц вы выполняете весь процесс за несколько кликов. Я потратил 1 час на чтение документации Beautiful Soup, экспериментирование с тем, как найти точные поля, и написание кода Python.
Тем не менее, я потратил менее 10 минут на настройку экстракции с помощью Octoparse. Самое приятное то, что когда у вас есть сканер, вы можете установить расписание и позволить ему автоматизировать извлечение данных.
Для игроков вы можете отслеживать разные источники сайта одновременно, намного проще настроить поисковые роботы:
- Accuscore
- CBS — Джейми Айзенберг
- CBS — Дэйв Ричард
- CBS — средний
- ESPN
- Фэнтези
- ФэнтезиАкулы
- FFtoday
- FOX Sports
- ком
- Yahoo
Чем больше данных вы соберете, тем более всеобъемлющим будет ваш анализ. Теперь вы получите данные из первых рук еще до выхода новостей!
Octoparse проводит свои лучшие ранние предложения в Черную пятницу с дополнительными 10% скидками на все 26 ноября. Им определенно стоит несколько минут вашего времени, чтобы проверить их товары и предложения.