ГОРИЗОНТЫ И ОГРАНИЧЕНИЯ BIG DATA В ПОЛИТИЧЕСКОМ АНАЛИЗЕ
Аннотация и ключевые слова
Аннотация (русский):
Постоянное увеличение объема интернет-данных обозначает актуальность проблемы выбора адекватного методологического инструментария для анализа такого рода информации. Феномен Big Data оказывает серьезное влияние на политическую жизнь. Его специфику вынуждены учитывать все политические акторы – от государства до политических партий. В западной политической науке происходит методологическая революция, когда к традиционным социально-демографическим подходам (социологическому анкетированию, фокус-группам) добавляются психометрические приемы анализа интернет-коммуникаций. Целью данной работы является исследование возможностей и ограничений web-сервиса Google Trends для политической аналитики больших данных. Основным изучаемым методологическим инструментарием является функционал сервиса Google Trends. Автор разбирает существующие исследования по данной методологии. Важное значение уделяется графической визуализации изучаемого ресурса. Показано, что к возможностям сервиса относятся его бесплатные опции, интерактивность, визуализация полученных данных и географическое распределение поисковых запросов, перспективы ретроспективного анализа и выявления корреляций для политического прогноза выборов, аналитики политической повестки, рисков и потенциалов имиджа государства. Тогда как среди слабых сторон ресурса выявлены недостаточная репрезентативность данных из-за феномена «цифрового неравенства», восприимчивость системы к сетевым атакам и манипуляциям, невозможность получения корректных результатов при выборе большого числа переменных и малом объеме поисковых данных. В работе даны рекомендации по совершенствованию оптики Google Trends.

Ключевые слова:
Google Trends, партии, методология, Big Data, выборы, политический анализ
Текст
Текст (PDF): Читать Скачать

Переход политического дискурса в современные интернет-коммуникации ставит перед ученым сложную проблему его качественного и количественного измерения. Различные компоненты публичной политики – идеологии, месседжи, пропаганда, имидж лидеров, министров, бренд партий, символика – становятся органичными элементами киберпространства. Такая цифровизация политического универсума определяет актуальность изучения отражения политики в сетевом пространстве. Тогда как рост объема подобного рода данных обозначает методологические вызовы их глубокого изучения и понимания. Отсюда целью работы будет исследование возможностей и ограничений для политической аналитики такого web-сервиса как Google Trends.

 

Google Trends как аналитический инструмент Big Data

Научно-технические метаморфозы и революционные открытия воздействуют не только на само общество, но и дают ученым дополнительный методологический инструментарий, позволяющий изучать социальные процессы и политические явления в условиях распространения коммуникаций нового типа. Как пишет сотрудник Центра психометрии Кембриджского университета М. Косински, активные пользователи интернет-коммуникаций регулярно оставляют в киберпространстве так называемые «цифровые следы» – журналы просмотра интернет-ресурсов, комментарии, посты, лайки, репосты, фото, видео, голосовые вызовы, благодаря которым исследователь может постараться определить их поведенческие модели [10]. В действительности накопление такого рода «цифровых следов» позволяет говорить о феномене Big Data (или «больших данных») [2]. Категория Big Data стала распространяться в академической среде после того, как в журнале Nature от 2008 г. было предложено под ней подразумевать специальные и методологические инструменты, помогающие анализировать огромные объемы информации и презентовать их в понятном виде. При этом в западной политической науке уже появились первые попытки использовать растущий объем больших интернет-данных для лучшей интерпретации электоральных процессов и разнообразных политических феноменов [7]. Особенно возрос запрос на получение более достоверной информации. Что, несомненно, важно для оценки электоральных настроений, порога узнаваемости партий, симпатий граждан по отношению к различным идеологиям и проектам общественного устройства [1; 3].

Одним из видов «цифровых следов», представляющих интерес для политического анализа, являются поисковые запросы. Среди поисковых систем известны Bing, Baidu, Excite, Яндекс, Yahoo! Наибольшей же популярностью пользуется поисковая система корпорации Google. В 2008 г. корпорация запустила первый инструмент по анализу поисковых запросов Google Insights for Search, а в 2012 г. объединила его с более совершенной системой Google Trends. Перейдем к описанию механизмов этого ресурса.

Специальный web-сервис Google Trends представляет из себя сайт, при обращении к которому открывается разнообразный функционал. При заходе на портал система сразу предлагает два варианта – пассивный и активный. В первом случае можно посмотреть готовую информацию по «Популярным запросам», выбрав «Поисковые запросы за сутки» или «Поисковые запросы сейчас». Во втором случае предлагается самостоятельный «Анализ». Основная его опция – возможность сравнения объема поисковых запросов по двум и более ключевым словам или словосочетаниям. Во-первых, есть временной ограничитель. То есть анализ можно осуществлять либо в режиме реального времени, либо, устанавливая нужный временной лаг: с 2004 г. по настоящее время, за последние пять лет, год, за 90, 30, 7 дней, а также за последний день, 4 часа и час. Доступны и свои рамки. Во-вторых, установлен географический ограничитель, предлагающий провести анализ по всему миру или по конкретной стране. В-третьих, существует ограничитель по специфике веб-поиска (анализ новостного, графического материала, YouTube и др.). В-четвертых, можно ограничить анализ поисковых наборов, выбрав определенные категории (новости, люди и общество, интернет-сообщества, интернет и телекоммуникации, законодательные и правительственные органы и др.). Причем, из данных категорий также можно выбрать подкатегории. Например, законодательно-правительственная категория дает возможность выбрать подкатегории правительства, вооруженных сил, общественной безопасности, социальных служб и др. Но и это не предел – выбрав, к примеру, подкатегорию правительства, можно уточнить поиск, выбрав окончательный ограничитель – законодательная власть, исполнительная власть, судебная власть, лоббирование, предупреждение и борьба с терроризмом, государственные подряды и закупки, королевские семьи и т.п. На этом круг уточнения заканчивается.

После выбора ограничителей и необходимых для анализа поисковых слов, появляется визуализация результатов обследованных больших данных в виде цветной карты мира или страны, которую выбрал исследователь. С мирового и национального уровня можно перейти на региональный. Здесь появляется опция еще одного ограничителя обработки поисковых запросов – переключение с субрегионов на города. Это позволяет, к примеру, сравнить интерес к той или иной политической партии в стране. Само исследование поисковых наборов партий, политиков, политических новостей, реформ, политических заявлений можно проводить в режиме реального времени.

Принципиально важно отметить, что визуализация данных в виде географического распределения запросов в конкретной стране и ее регионах учитывает баллы – от 0 (самые низкие запросы графически изображены светлыми цветами) до 100 (наиболее темные цветовые тона означают максимальный интерес к изучаемому запросу). Смысл такой – чем больше баллов, тем крупнее доля изучаемых запросов от всех поисковых запросов, а не абсолютное число запросов. Следовательно, небольшой стране, в которой запросы по ключевому слову «власть» составляют 80% от остальных запросов, системой присваивается в два раза больше баллов, в отличие от крупной страны, где лишь 40% всех поисковых запросов имеют такое же слово.

Кроме картографической визуализации данных Google Trends выстраивает отдельные графики пиковых запросов по каждому заданному системе слову с числовым значением от 0 до 100 на ординате и с временным значением на абсциссе (месяцы, годы). Наконец, аналитический отчет web-сервиса предлагает посмотреть наиболее схожие популярные темы. Ограничитель дает возможность выбрать «тренды» или «лидеры» (по другому «топы»). Если в «трендах» выявляются те поисковые запросы, интерес к которым серьезно возрос по сравнению с предыдущим периодом, то в «лидерах» показаны самые популярные вопросы (практикуется та же 100-балльная шкала – чем меньше баллов, тем менее интересна данная тема для интернет-пользователей). Отдельно выделяются «Сверхпопулярные» темы. Как правило, это темы, интерес к которым резко возрос, хотя раньше поисковых запросов по ним практически не было. «Тренды» и «лидеры» имеют определенный интерес для изучения актуальной политической повестки дня в стране и ее регионах.

Ресурс не останавливается в своем развитии и постепенно снабжается новым функционалом. Недавно появилось дополнение Google Hot Trends, задачей которого является фиксация 20 сверхпопулярных и быстрорастущих поисковых запросов за один час. В качестве ограничителя можно выбрать страну (пока либо анализ одной из 48 стран, либо анализ всех сразу). Когда «горячие тренды» выявлены, можно перейти на основной ресурс Google Trends по специальной гиперссылке и обратиться к их истории, которая аккумулируется в опции «Поисковые запросы за сутки». Google Hot Trends также может быть любопытен в анализе политической повестки дня.

 

Оценка методологической оптики в политологической литературе

Остановимся более подробно на методологических преимуществах и недостатках Google Trends. Начнем с рассмотрения возможностей этой системы для политической аналитики. Доктор философии и экс-сотрудник корпорации Google С. Стивенс-Давидовиц пишет, что через такого рода web-ресурсы на основании сбора больших данных можно вычленить новые разновидности факторов, анализировать поведенческие модели избирателей, их сообщества, а также организовывать быстрые контролируемые эксперименты с целью понимания не только корреляций, но и причинно-следственных цепочек политических явлений [5, с. 73–74]. Изначально обратились к данному ресурсу финансовые аналитики, пытавшиеся на основании актуальной повестки изучить страхи и предпочтения людей в экономической плоскости. Довольно быстро заинтересовались системой и медики, ставшие анализировать текущие тренды для определения рисков распространения эпидемий. В настоящее время к Google Trends стали обращаться и политические аналитики. Но у всех специалистов-политологов, социологов, экономистов, медиков – внимание сосредоточено именно на функционале системы по обнаружению трендов, составляющих актуальную повестку. Тренды же через процедуру экстраполяции могут помочь составить политический прогноз.

Ряд авторов, на основании проведенных исследований, полагают, что выявление с помощью этого ресурса интереса электората к некоторым темам способно обнаружить соотношение этих тем с уровнем популярности политических партий [6]. Анализ немецкой политической повестки показал, что поисковые наборы о проблемах сельского хозяйства и рыночной экономики связаны с их употреблением в партийных программах, а также повышают популярность партии ХДС, но снижают интерес к СДПГ. Рост поисковых наборов по аспектам справедливости повышает интерес к DIE LINKE за счет СДПГ. Последняя, наоборот, выигрывает в популярности при росте запросов о проблематике минимальной зарплаты и платы за медицинские консультации, которая присуща ее партийным программам. Запросы пользователей о ядерной энергии, генной инженерии поддерживают их интерес к партии Зеленых, тогда как рост поисковых наборов об армии, напротив, оказывает негативное влияние на образ этой традиционно мирной политической силы. Возможно, это происходит потому, что если есть рост поисковых наборов по определенной теме, пересекающейся с программными тезисами конкретной партии, то растет популярность обращения пользователей и к ее web-ресурсам и аккаунтам ее представителей.

Несомненным плюсом сервиса является сам факт бесплатного обследования поисковых запросов и формирования временных рядов [9]. Еще одним преимуществом Google Trends логично назвать его интерактивность и экстерриториальность. Не секрет, что социологические опросы в ряде стран проводятся эпизодически. Сервис же помогает исследователю загружать и анализировать большие данные практически со всех стран из любой точки мира при условии доступа к Интернету. Что особенно привлекательно в случае проведении аналитических процедур по изучению интереса населения различных стран к тем или иным международным событиям. Аргентинские исследования также доказывают, что благодаря оптикам Google Trends можно выявлять текущие или прошлые политические стратегии кандидатов на основе анализа предвыборных дебатов (будь то административные, коррупционные вопросы, тактика защиты или агрессивного нападения) [14]. Американские ученые на примере анализа выборов в Сенат выявили, что Google Trends показывает корреляцию между ростом общественного внимания к кандидату и увеличением сборов средств на его политическую компанию [8].

Помимо этого, сервис Google Trends позволяет проводить ретроспективный анализ изменений в идеологических предпочтениях людей. Тем самым можно проследить тенденции роста или снижения интереса части электората к какой-либо проблематике, чтобы на основании этого, во-первых, постараться спрогнозировать уровень популярности тезисов предвыборной программы конкретной партии, во-вторых, провести соответствующий консалтинг о необходимости корректировок для ее политической борьбы в плане агитации, пропаганды, микроцелевого таргетирования в социальных сетях и т.п. В-третьих, путем обращения к ретроспективным данным возможно сделать определенные выводы из реакции интернет-пользователей на конкретные заявления и предвыборные обещания политических лидеров. В итоге, партия может принять решение сменить некоторые свои идеологические и программные приоритеты, чтобы не иметь сильных расхождений со своими потенциальными избирателями.

Хорошим подспорьем для ученых является попытка разработчиков поисковой системы Google преодолеть психологические барьеры. Если в традиционных опросах таковые могут возникать между исследователями и респондентами, когда последние могут стараться ответить на вопросы так, как, по их мнению, ответило бы большинство. Дж. Вольф в качестве примера описывает один случай некорректности социологических опросов [16, с. 13]. Во время американских президентских выборов 2016 г. ряд опросов общественного мнения последовательно показывали лидерство в народном голосовании и Коллегии выборщиков Х. Клинтон над Д. Трампом. После того как итоги выборов опровергли эти опросы, ученые обратили внимание на то, что некоторые сторонники Трампа в процессе предвыборных исследований скрывали свою истинную поддержку к данному кандидату, так как опасались негативной оценки своего выбора со стороны окружающих. Напротив, исследование через оптику Google Trends хорошо спрогнозировало низкую явку афроамериканских избирателей, которые первоначально заявляли, что не будут голосовать за Трампа [5, с. 23]. Индивиды в большей степени готовы делать правдивые ответы, если находятся наедине с собой, без оглядки на цензуру и социальные ограничения. Следовательно, с помощью Google Trends можно узнать у людей то, что они предпочитают скрывать в другой ситуации.

Кроме достоинств у web-сервиса Google Trends есть определенные недостатки. Начнем с того, что система позволяет сравнивать только пять тем или поисковых запросов одновременно. Очевидная проблема связана и с репрезентативностью данных. Принимая в расчет поисковые запросы интернет-пользователей, нельзя забывать про феномен «цифрового неравенства», когда по социально-экономическим и технологическим причинам сохраняются категории населения, которые не пользуются сетевыми коммуникациями и не имеют доступа к Интернету. Вдобавок пользуются Интернетом больше молодежь и люди, обладающие элементами компьютерной грамотности [13]. Поисковые наборы в качестве единицы измерения имеют еще одну слабую сторону. Как пишет Дж. Меллон, запросы сами по себе не содержат никакой дополнительной информации кроме как самого факта набора чего-то. В отрыве от контекста, интерпретации и сравнительного анализа, действительно, сложно из них понять некие закономерности.

Минусом сервиса Google Trends можно определить проблему точности запрашиваемых слов, терминов. Может случиться так, что неоднозначные поисковые слова приведут к вводящим в заблуждение выводам. Вывести истинные мнения и намерения интернет-пользователей на основании лишь запросов является довольно непростой задачей, когда есть, к примеру, схожие по названию термины, запросы, но расходящиеся по смыслу. Так, изучая парламентские выборы в Италии, нужно учитывать текущий информационный фон страны, связанный, к примеру, с проведением футбольных матчей, показом фильмов и т.п. Интерпретация результатов затрудняется и по той причине, что снижение одних запросов может быть вызвано внезапным ростом интереса населения к иным темам. Такое может происходить, когда кандидат или партия во время предвыборной кампании начинает резко менять политическую тактику и стратегию либо политический лидер делает неожиданное заявление. Из-за этих фоновых эффектов, мешающих точности и объективности политического анализа, ключевые слова для поисковых запросов должны быть тщательно отобраны, проверены, использованы и интерпретированы.

Эпизодически погрешности политического анализа могут возникать не из-за Google Trends, а по причине кибератак на саму его материнскую структуру – поисковую систему Google. Иногда возникает так называемая Google bombing (бомбардировка Google), связанная с деятельностью интернет-пользователей и хакеров, нацеленной на обеспечение высокого рейтинга какого-нибудь сайта. Но самая опасная манипуляция с большими данными проводится через технику изменения поискового механизма. Американские ученые Р. Эпштейн и Р. Робертсон даже разработали методику выявления «эффекта тенденциозного ранжирования» (search engine manipulation effect, сокращенно – SEME) [4]. Согласно оценке этих авторов, пристрастность с ранжированием поиска в Интернете способна изменить предпочтения неопределившейся части избирателей до 20%.

Какие угрозы представляет тенденциозное ранжирование для Google Trends на практике? Дело в том, что риски некорректного политического анализа возрастают при манипуляции полным соответствием между поисковым набором пользователя и предлагающимися ему результатами поиска. Приведем пример грубой манипуляции с поисковой системой. Так, избиратель набирает в поисковой строке запрос «Демократическая партия». Далее происходит автоматический подбор вариантов, предлагающий выбрать «Демократическая партия и коррупция», «Демократическая партия теряет позиции» и т.п. А может быть и наоборот, позитивные продолжения наборов. Соответственно, ряд пользователей могут выбрать эти варианты. Но Google Trends не может определить, где проходит граница пропаганды и рассчитать точную погрешность, произошедшую из-за SEME. Конечно, Google вводит дополнительные системы защиты и заверяет об отсутствии контактов с партиями или политиками, но полностью риски исключить нельзя.

Не во всех случаях удается добиться и корреляции. Группа исследователей из Колледжа Уэллсли сравнила кандидатов, выигравших на выборах в американский Конгресс 2008 г. и 2010 г., со спецификой поисковых наборов и не выявила сильной корреляции между популярностью поиска и вероятностью выигрыша [11]. Полностью не отбрасывая эту методологическую оптику, авторы пришли к выводу, что традиционные опросы дают лучший результат. Поисковые запросы успешно предсказывали итоги выборов только в 33,3% случаев в 2008 г. и 39% в 2010 г. Сложность заключается и в определении тех обстоятельств, в зависимости от которых интернет-пользователь ищет аккаунт конкретного политика для составления о нем своего мнения. Авторы не смогли объяснить, почему интернет-пользователь заинтересовался именно определенным кандидатом и стал искать информацию о нем в сети. Справедливости ради стоит отметить, что это исследование проводилось в 2011 г. С того времени увеличилось количество интернет-пользователей и дополнился функционал самого Google Trends.

Гораздо более существенным недостатком является то, что динамику поисковых запросов можно узнать не по всем странам либо регионам отдельных стран. Основными причинами этого является плохое развитие интернет-коммуникаций либо недостаточное число самих поисковых наборов. Причина технической критики заключается в том, что система не предоставляет абсолютный объем поисковых запросов [15]. Трудность существует и с интерпретацией резких подъемов и спадов поисковых запросов.

С. Стивенс-Давидовиц к недостаткам Google Trends причисляет: а) «проклятие числа размерностей» (эффект возникает, когда политолог берет много переменных («размерностей») при сравнительно скромном числе подготовительных замеров)); б) несоответствие подходящих анализу больших данных итоговому пониманию выявленной проблемы (ставка на количественные данные); в) этический аспект использования итогов анализа (риски применения выявленных корреляций для манипуляции общественностью) [5, с. 23]. Тем не менее, несмотря на ряд перечисленных недостатков, все большее количество ученых и целых исследовательских коллективов обращается к методологической оптике Google Trends (или к цифровым платформам, анализирующим большие данные по схожим принципам) для выявления политических корреляций.

 

Выводы

Таким образом, в целом к методологическим возможностям сервиса Google Trends относятся его бесплатные опции, интерактивность, визуализация полученных данных и географическое распределение поисковых запросов, перспективы ретроспективного анализа и выявления корреляций для политического прогноза выборов, аналитики политической повестки, рисков и потенциалов имиджа государства. Но есть и серьезные недостатки – недостаточная репрезентативность данных из-за феномена «цифрового неравенства», восприимчивость системы к сетевым атакам и манипуляциям, невозможность получения корректных результатов при выборе большого числа переменных и малом объеме поисковых данных. Поэтому хорошей методологической точности в политическом анализе через Google Trends можно достичь только при совпадении нескольких условий: роста объема поисковых данных, а также появления отдельного приложения для организации именно научной, а не маркетинговой работы.

Потенциал подобного рода цифровых платформ может возрасти с возможностями расчета разных коэффициентов (к примеру, Пирсона), разнообразным функционалом, позволяющим интегрировать данные статистики, опросов и высчитывать погрешности. Отдельные авторы уже предпринимали довольно продуктивные попытки политического прогнозирования результатов референдумов в Греции, Шотландии, Великобритании, Италии и Турции [12], но все они до сих пор жалуются на погрешности. Появление и адаптация такого скачиваемого приложения для исследователей откроют новые горизонты в прогнозировании итогов референдумов, экзитполов, выборов, аналитике рисков и потенциалов по формированию имиджа правительства.

 

Список литературы

1. Алексеев Р., Абрамов А. Электоральный абсентеизм на президентских и парламентских выборах в России (избирательные кампании с 1993 по 2018 г.): причины, последствия, способы преодоления //Постсоветский материк. - 2018. - № 4 (18). - С. 43-57.

2. Володенков С.В. Big Data как инструмент воздействия на современный политический процесс: особенности, потенциал и акторы // Журнал политических исследований. - 2019. - Т. 3. - №1. - С. 7-13.

3. Матюхин А.В. Проект общественного устройства М.А. Бакунина //Журнал политических исследований. - 2019. - Т. 3. - №2. - С. 3-10.

4. Роговский Е. Выборы в США: успех технологических инноваций //Международная жизнь. - 2017. - № 3. - С. 107-122.

5. Стивенс-Давидовиц С. Все лгут. Поисковики, Big Data и Интернет знают о вас все / пер. с англ. Л.И. Степановой. - М.: Эксмо. - 2018. - 382 с.

6. Calahorrano L., Seithe M. Analysing Party Preferences Using Google Trends //CESifo Working Paper, - 2014, - №4631, - P. 1-25.

7. Clark W.R., Golder M. Big Data, Causal Inference, and Formal Theory: Contradictory Trends in Political Science? //PS: Political Science & Politics, - 2015. - Vol. 48. - №1. - P. 65-70. https://doi.org/10.1017/S1049096514001759

8. Ellis W.C., Ripberger J.T., Swearingen C.D. Public Attention and Head-to-Head Campaign Fundraising: An Examination of U.S. Senate Elections //American Review of Politics, - 2017. - Vol. 36. - №1. - P. 30-53. https://doi.org/10.15763/issn.2374-779X.2017.36.1.30-53

9. Jun S.-P., H.S. Yoo, Choi S. Ten years of research change using Google Trends: From the perspective of big data utilizations and applications //Technological Forecasting and Social Change, - 2018. - Vol. 130. - P. 69-87. https://doi.org/10.1016/j.techfore.2017.11.009

10. Kosinski M., Wang Y., Lakkaraju H., Leskovec J. Mining Big Data to Extract Patterns and Predict Real-Life Outcomes //Psychological Methods, - 2016, - Vol. 21, - № 4. - P. 493-506. https://doi.org/10.1037/met0000105

11. Lui C., Metaxas P.T., Mustafaraj E. On the predictability of the U.S. elections through search volume activity //IADIS International Conference on e-Society. - 2011. URL: https://repository.wellesley.edu/scholarship/23/ (дата обращения: 10.02.2019).

12. Mavragani A., Tsagarakis K.P. Predicting referendum results in the Big Data Era //Journal of Big Data, - 2019. - № 6(3), - P. 2-20. https://doi.org/10.1186/s40537-018-0166-z

13. Mellon J. Where and When Can We Use Google Trends to Measure Issue Salience? //PS: Political Science & Politics, - 2013. - Vol. 46. - №2. - P. 280-290. https://doi.org/10.1017/S1049096513000279

14. Moraes Th.P. de. Os debates presidenciais no Brasil e as buscas no Google (2006-2010). Revistade Ciências Sociais, - 2018. - Vol. 49. - P. 501-536.

15. Nghiem L.T., Papworth S.K., Lim F.K., Carrasco L.R. Analysis of the Capacity of Google Trends to Measure Interest in Conservation Topics and the Role of Online News //PLoS One, - 2016. - Vol. 11. - №3 https://doi.org/10.1371/journal.pone.0152802

16. Wolf J. Trending in the Right Direction: Using Google Trends Data as a Measure of Public Opinion During a Presidential Election. Blacksburg: Virginia Polytechnic Institute and State University. - 2018. 65 p.

Войти или Создать
* Забыли пароль?