среда, 30 сентября 2015 г.

PewResearch: Трудности нахождения локальных новостей в твиттере (методология исследования)

Перевожу "как могу" заметку от Кеннета Олмстеда (Kenneth Olmstead) "On Twitter, local news is hard to find". В этой заметке описывается как проводилось исследование новостного контента в локальном масштабе исследователями PewResearch.

Данные об использовании американцами социальных медиа очень интересны современным исследователям, для понимания как пользователи делятся и обсуждают информацию на этих новых платформах. Масса различных твитов, начиная от политических комментариев до рассказов о своем "отношении" к компаниям, их продукции или услугам, ставят задачу перед маркетинговыми и научными кругами по изучению коллективного потока сознания в твиттере.

Но насколько точен Twitter как индикатор общественного настроения и как он может использоваться? В 2008 году в исследовательском центре Pew, мы были сильно заинтересованы в эксперименте с Twitter, как новостной платформой. Поэтому, когда мы запустили в прошлом году проект мониторинга местных (локальных/региональных) Новостей в трех городах в течение года, мы протестировали несколько разных подходов по использованию данных Twitter, для лучшего понимания его, как источника новостей и его возможности по включению местных жителей.

Наш вердикт? В то время как анализ Twitter все еще находится на экспериментальной стадии и данные полученные в этом исследовании накладывают определенные ограничения, он все равно является новым ценным инструментом для анализа медиа-среды. Благодаря Твиттеру мы смогли понять, какое мест он занимает в работе новостных организаций. Понятно, что местные локальные новости - это лишь одна маленькая тема из многих, которые обсуждаются на этой платформе. И нас сильно ограничивало то, что не все пользователи твиттера указывают свое местоположение при твитах. 

Вот краткое изложение того, что нам удалось, и что не удалось узнать про Twitter в нашем исследовании:


Что мы сделали:


Мы хотели понять, какую роль Твиттер играет в качестве источника новостей для местных жителей. Для исследования мы выбрали три города: Денвер, Мейкон и Су-Сити, Айова.

Мы исследовали и мониторили традиционные новостные организации в Twitter: 
  • газеты, 
  • телевидение,
  • радиостанции, 
  • самих ньюсмейкеров (политиков, руководителей общин и правительственных чиновников). 
Для этого мы в основном использовали сервис Gnip для доступа в твиттер "через пожарный шланг", т.е. имели доступ ко всем твитам и метаданным на Twitter.

Мы не относились к пользователям Twitter, как к неким прокси-серверам их более крупных сообществ, а рассматривали их раздельно, как пользователя Twitter в конкретном городе и как аккаунт сообщества. Мы провели комплексный аудит поставщиков новостей в каждом городе и обнаружили, что большинство из них имели аккаунты в Твиттере. Даже если относительно небольшая часть местного населения пользуется Twitter, для новостных организаций использование твиттера может стать полезным инструментом, для понимания как информация распространяется через местные сообщества.

Во-вторых, мы хотели узнать, могут ли жители каждого города, которые используют Twitter, прокомментировать, обсудить и даже принять участие в новостных событиях. Мы экспериментировали с несколькими разными методами, прежде чем остановиться на сочетании определенных подходов, которые помогли найти ответ на эти вопросы. 

Проводя этот анализ, мы помнили об общих ограничениях, связанных с использованием Twitter, и учитывали их при формировании своих выводов о том, что общественность думает, делает или чему придает значение. Понятно, что в отличие от телефонных опросов, которые мы проводим, пользователи твиттера не являются представителями населения в целом (не репрезентативная картина). В целом, наши исследования показывают, что примерно 23% взрослых используют Твиттер, а те, кто получают свои новости с сайта напрямую - более молодые, более образованны и лучше владеют смартфоном, чем население в целом.

Как мы провели анализ:


Первая задача была в создании образца твитов для каждого из городов, чтобы найти надежный способ создания географических границ для твитов из исследуемых городов.

Это оказалось нелегко, хотя логичным казалось ориентироваться на геотэги или указание  в твите пользователем, где он находится – эти очевидные решения не помогли найти необходимые нам ответы. На Twitter, пользователи должны при регистрации указывать, что их твиты автоматически показывали местоположение, но так делают немногие: только около 2% твитов имеют геометки. Для нашего исследования это оказалось верным тоже: в трех городах, была неделя, когда практически отсутствовали твиты с геотегами.

Мы решили определять местоположение пользователя, через его профиль в твиттере, где пользователи указывают место проживания. К сожалению, большинство пользователей либо вообще не заполняют эту графу или заполнять ее информацией, которая не соответствует действительности. Например, часто указывают место проживания "луна" и "космос". Даже в тех случаях, когда было указано подходящее местоположение, у нас не было простого способа проверить, что пользователи на самом деле жили там, где они указали. 

В итоге мы обратились к технике, которая называется "снежный ком" или "цепочка" проб.

Поскольку мы уже в ручную отобрали в Твиттере поставщиков новостей в каждом городе, мы вытащили из этого первоначального списка все их твиты, ретвиты и упоминания их аккаунтов во время периода исследований (сделанные в ручную, без автопостов). Мы сделали это для того, чтобы отметить или выбрать ту новость, которая указывает на то, что пользователь твиттера связан с ней, либо как потребитель или кто-то, кто хочет распространить эту новость. Мы понимали, что не можем гарантировать, что все новые маркеры будут напрямую соединены с локальным сообществом, но это дало нам отправную точку для дальнейшего улучшения результатов исследования. 

Этот подход позволил увеличить общее количество пользователей Twitter в исследовании от нескольких сотен до свыше 30 000 участников. Наконец, исследователи проанализировали все твиты от каждого маркера, которые были выявлены либо в качестве поставщика новостей или их потребителя в течение исследуемого периода времени для каждого из городов. В результате мы получили свыше 4,7 млн. твитов.

Когда мы стали анализировать выборку 4.7 млн. твитов, с целью определить, которые из них имеют прямое отношение к нашему исследованию местных новостей в Twitter, то обнаружили, что подавляющее большинство еженедельного новостного контента в твиттере не имело отношения к локальным и региональным событиям. 

Мы постарались обработать результаты, анализируя URL-адреса для каждого из городов, а так же ориентируясь на ключевые слова. Примерно 40% из твитов был включен URL-адрес, или ссылка на другую веб-страницу. Исследователи создали программу, которая анализировала каждую страницу через сканирование ее на ключевые слова, что бы сгруппировать страницы для каждого города. Для теста этого подхода мы взяли город Мейкон, создали список ключевых слов, характерный для этого городского статистический района (Macon’s metropolitan statistical area, MSA). В 26 ключевые слова были включены названия всех графств и городов, которые официально входят в данный район.  На практике эти ключевые слова не сработали. Несмотря на то, что они были уникальны для конкретного географического района, они оказались слишком общими, чтобы быть полезными для нашего исследования.

Но если предположить, что этот метод сработал, то это не решило бы проблему с 60% твитов, которые не содержали URL-адреса. Провал стратегии по использованию ключевых слов и отсутствие методов анализа дополнительных 60% твитов привел нас к окончательному варианту методики, которую мы использовали для исследования.

Что получилось:


В конце концов, мы использовали платформу по анализу социальных медиа под названием Crimson Hexagon, которая проанализировала всю нашу выборку твитов по наиболее распространенным ключевым словам и хэштегам. Crimson hexagon - это программное обеспечение, которое может использоваться для анализа больших объемов твитов и извлечения различных коррелирующей информации. В данном случае, мы использовали инструмент для удаления твитов, которые не имеют отношения к нашему исследованию. Сюда попали твиты, отправленные из стран за пределами США и твиты, которые не были на английском языке.

После их удаления, мы использовали Crimson hexagon, чтобы найти наиболее часто используемые слова и фразы в содержании твитов. Это показало нам, что местный новостной контент в твиттере очень сильно отстает от национальных новостей и другого контента. Ключевые слова о местных новостях было практически невозможно найти для слов с любой частотой.

Несмотря на полезность таких инструментов, как Crimson hexagon, в итоге мы нашли самое простое и менее технологическое решение - использование человека. Мы просто прочитали твиты – десятки тысяч из них – и нашли местные новости. Этот процесс также позволил нам лучше понять, где местные новости появляются и как они распространяются (перепощиваются). 

В сочетании с контент-анализом местных источников новостей, наши результаты показали, что даже то немногое из местных новостей, что размещается в Твиттере, часто отличается от того, что было транслировано через новостные агентства в каждом городе. Например, в городе Мейкон, наиболее популярная история в Твиттере была о местной музыкальной группе, которая попала на конкурс канала VH1. Однако эта история почти не нашла отображения в массовой прессе в течение недели исследования.

Существует много технических инструментов, доступных для картографирования больших трендов в Twitter, через мониторинг глобальных хэштэгов. Но для наших целей это не подошло, т.к. в небольших населенных пунктах твиттер крайне слабо используют для распространения локальных новостей.

Фото из www.shutterstock.com

Комментариев нет:

Отправить комментарий