В общем смысле – это линейное сопоставление
последовательности слов с правилами языка. Понятие «язык» рассматривается в
самом широком контексте. Это может быть человеческий язык (например, русский),
используемый для коммуникации людей. А может и формализированный язык, в
частности, любой язык программирования.
Парсинг сайтов – последовательный синтаксический анализ
информации, размещённой на интернет-страницах. Что представляет из себя текст
интернет-страниц? Иерархичный набор данных, структурированный с помощью
человеческих и компьютерных языков. На человеческом языке предоставлена
информация, знания, ради которых, собственно, люди и пользуются Интернетом.
Компьютерные языки (html, JavaScript, css) определяют как информация выглядит
на мониторе.
Зачем это все нужно?
Создавая веб-сайт, его владелец неизбежно сталкивается с
проблемой – где брать контент? Оптимальный вариант: найти информацию там где её
очень много – в Интернете. Но при этом приходится решать такие задачи:
Большие объёмы. В эпоху бурного роста Сети и жесточайшей
конкуренции уже всем ясно, что успешный веб-проект немыслим без размещения
большого количества информации на сайте. Современные темпы жизни приводят к
тому, что контента должно быть не просто много, а очень много, в количествах,
намного превышающих пределы, возможные при ручном заполнении.
Частое обновление. Обслуживание огромного потока динамично
меняющейся информации не в силах обеспечить один человек или даже слаженная команда
операторов. Порой информация изменяется ежеминутно и в ручном режиме обновлять
её вряд ли целесообразно.
Парсинг сайтов является эффективным решением для
автоматизации сбора и изменения информации.
По сравнению с человеком, компьютерная программа-парсер:
- быстро обойдёт тысячи веб-страниц;
- аккуратно отделит техническую информацию от
«человеческой»;
- безошибочно отберёт нужное и отбросит лишнее;
- эффективно упакует конечные данные в необходимом
виде.
Результат (будь то база данных или электронная таблица),
конечно же, нуждается в дальнейшей обработке. Впрочем, последующие манипуляции
с собранной информацией уже к теме парсинга не относятся.
Языки
программирования
Какие языки программирования используются для написания
парсеров?
Любые, на которых создаются программы для работы со
Всемирной Паутиной. Веб-приложения для парсинга обычно пишут на C++, Delphi,
Perl, Ruby, Python, PHP.
Данный сайт создавался для того, чтобы продемонстрировать
методы парсинга на самых популярных языках веб-программирования – PHP, Ruby и
Python.