Реєстрація
Забули пароль?

RSS 2.0

Версія для друку

Партнери УАВПП

11 серпня 2010

Журналистка данных: как Guardian превратила информационное сырье в золотую жилу

«Я думаю, что традиционно мы не считали журналистику данных собственно журналистикой. Это было исследование или поиск информации. «Публиковать цифры — это разве журналистика?» Ну, вы знаете…», – говорит редактор отдела Guardian Саймон Роджерс (Simon Rogers).

Пару лет назад он задумался о том, что данные, которые он собирает для своих заметок, возможно, достойны лучшей участи, чем умереть в забвении на жестком диске. Вдруг они сами по себе могут быть интересны читателям? В конце-концов, тут не обвинишь СМИ в пресловутой «интерпретации», а у читателя есть масса собственных задач, для которых ему могут пригодиться ваши данные. За всех не угадаешь.

Так появились на свет The Guardian Data Blog и проект Open Platform, который предоставляет заинтересованным разработчикам доступ к контенту и информации The Guardian для создания собственных приложений.

Несмотря на то, что эти данные легкомысленно зовутся «сырыми», вываливать их на голову читателю «как придется» не получается. Как это делают в Guardian, как современному СМИ надо работать с информацией, что, кроме заметок, из нее можно сделать, что такое data journalism, и как вовлекать в это читателей – в интервью, которое Саймон Роджерс дал Nieman Journalism Lab.

Расскажите, что такое Guardian Data Blog, как он появился?

Я был редактором отдела новостей и много работал с инфографикой, в какой-то момент мы поняли, что аккумулируем огромное количество данных. Мы подумали, а вдруг нашим читателям эти данные тоже могут быть интересными? А когда запустили Open Platform, показалось, что это хороший повод стать еще более открытыми.
Кроме того, мы все больше и больше замечали интерес людей к исходной информации. В интернете много сырой информации, но если вы ищете что-то конкретное, то натыкаетесь на миллионы вариантов и копий одних и тех же баз данных. Так откуда вы знаете, какая из копий настоящая? А ведь мы уже проделали эту работу для наших читателей, потому что нам нужно было найти верную информацию для материалов газеты.
А еще мы изначально думали, что наши данные будут браться разработчиками различных приложений как исходные. Было ощущение, что многие разработчики нуждаются в сырой информации, и именно они будут использовать наш Data Blog и Open Platform, чтобы получить больше трафика на свои приложения.
А на самом деле вышло, что обычные люди стали использовать Data Blog так же часто, как и девелоперы. Возможно, даже чаще, чем девелоперы.

Что вы имеете в виду, говоря «обычные люди»?

Я имею в виду читателей, которые ищут конкретные цифры. Например, сейчас у нас большая история о программе строительства новых школ, которую только что урезало новое правительство. Программу запустило предыдущее правительство, оно инвестировало миллионы фунтов стерлингов в строительство новых школ. Так, у нас есть полный список всех школ в привязке к избирательному округу, их местоположению и т.п. И сегодня это очень популярный материал, один из самых популярных у нас — это большая история. И я предполагаю, что 90% людей, которые смотрят на эти данные, это просто люди, которые ищут достоверную информацию.

То есть, вы публикуете все оригинальные цифры, которые получаете от правительства?

Так и есть. Единственное, я стараюсь сделать эти данными максимально похожими на новости (newsy). Так что часто эти данные соотносятся с главными темами дня. Частично, кстати, из-за того, что это помогает наращивать трафик. Так что в итоге получается весьма эклектичный набор данных. Давайте я вам на экране покажу.
Так, ну вот это Data Blog сегодня. Очевидно, что наверху у нас Афганистан. Тут полный список, все Британские потери ранеными и убитыми. Я люблю использовать разные сервисы третьих производителей. Есть компания Timetric, они делают очень хороший инструмент для визуализации временных рядов. Примерно пять минут нужно, чтобы создать вот такую интерактивную графику.

И это бесплатный сервис?

Да, абсолютно бесплатный, нужно только зарегистрироваться. Работает примерно так же, как сервис IBM Many Eyes.
Кроме того, сами данные мы публикуем в формате Google Docs, мы используем их таблицы, потому что они по сути провоцируют людей скачивать данные, и скачать их можно фактически в любом формате — Excel, XML, CSV и т.д. Поэтому мы и используем Google Docs, это делает данные легкодоступными.
Мы поощряем сообщество, которое формируется вокруг данных и информации. Так что в каждом посте у нас есть возможности обсудить данные. Так вот, возвращаясь к сегодняшнему блогу, у нас здесь Афганистан, академические школы в UK.

Поясните для небританской аудитории, что с этими школами?

В UK большинство школ — государственные, эти школы содержатся на наши налоги, из регионального бюджета, что хорошо, потому что налогоплательщики, вкладывают в развитие своей территории. Новое правительство предлагает любой школе возможность получить статус академической, что означает, что она сможет вести свою собственную финансовую деятельность, не отчитываться перед местными властями, при этом, продолжая получать государственное финансирование.
И у нас есть данные — правительство опубликовало информацию, в PDF, конечно, правительства всегда публикуют данные в PDF, по крайней мере, в этой стране — оно опубликовало список всех школ, которые выказали интерес к этому.

То есть, вы вручную перепечатывали эти цифры из PDF-файла? Или «копиастили»?

Слава богу, нет. У нас есть команда поддержки. Эти ребята, благодаря блогу, стали уже большими специалистами по извлечению данных из PDF-файлов. Дело в том, что каждый правительственный департамент публикует свои данные в PDF, так что они делают вид, что они открыты, а на самом деле, до открытости далеко. А мы хотели получить таблицы, чтобы иметь возможность сделать, например, такую карту школ, заинтересованных в программе, по районам. Вообще, правительство всегда говорило, что на участие в этой программе заявятся в основном «не выдающиеся» школы. Но на самом деле, если вы посмотрите на цифры (что мы можем сделать, благодаря тому, что они в таблицах, а не в PDF), большинство из школ – как раз-таки выдающиеся школы. То есть, это школы, в которых и так все хорошо, а это не являлось целью программы. Вот такой вот анализ — это и есть журналистика данных (data journalism). Такое использование цифр, чтобы раскопать историю и чтобы рассказать историю.

И как много времени у вас заняла подготовка этой истории — получить информацию, сделать графики и т.д.?

Как я сказал, у меня есть помощники, которые перевели данные из PDF в формат таблицы. А для создания графиков у нас есть фантастический инструмент, созданный нашей технической поддержкой, он позволяет создавать карты регионов UK по различным параметрам, просто загружая табличную информацию. Так что карта была нарисована, по сути, автоматически, а коллега из отдела графики довел ее до ума — сделал подписи к данным, и т.п. Так что в целом это заняло у меня не более 2 часов на все про все.

Сколько человек в целом работает над данными?

Для меня это основная работа, и, к счастью, вокруг много людей, кому это все интересно, и я могу подойти, попросить помочь что-то сделать. Но пока это все очень неформально, и как раз сейчас мы хотим сделать процессы более формальными, сформировать общую стратегию в области данных. Но сейчас я должен вписываться в рабочие обязанности других людей.

Кроме Data Blog у вас есть еще Data Index. Что это?

Здесь такая идея — правительства по всему миру стали открывать свою информацию. И мы подумали, что мы могли бы из этого сделать что-то полезное для людей, потому что в какой-то момент оказалось очень много сайтов, на которых были правительственные данные, и если бы мы их все свели в одно место, то получился бы такой единый поисковик по правительственной информации. Мы начали с Австралии, Новой Зеландии, Соединенного Королевства и США. То есть, по сути это поисковик по официальным базам данных.
Несмотря на то, что поиск осуществляется по внешним сайтам, пользователь все время остается на сайте The Guardian. Мы просим читателей дополнять данные, строить свои визуализации и приложения. Мы хотим, чтобы этот сайт стал точкой входа для тех, кому нужна какая-то информация.

Вы планируете поиск по базам всех стран?

Для всех стран, которые запустят официальные сайты с правительственной информацией. И мы работаем над этим — сейчас в мире около 20 стран имеют сайты с хорошей правительственной информацией, и мы их присоединяем к своему «индексу». Мы не скачиваем к себе информацию с этих сайтов, это было бы бессмысленно, она быстро бы устаревала, но мы помогаем людям эту информацию находить, в этом наша миссия.

Выходит, у вас два более или менее отдельных проекта — блог, в который вы отбираете информацию…

Которую находим интересной. Выборочно.

В процессе сбора данных для The Guardian?

Да, а также информацию, интересную саму по себе. Например, про Доктора Ху — это не та тема, о которой бы мы сделали историю в «большом» The Guardian, но это просто интересно, это так по-британски.

А The Guardian делает что-то еще с этими данными?

Мы изначально делаем много исследовательской работы для Guardian, что мы хотели, так это привлечь читателей к этому процессу. Например, мы делаем много проектов, в основе которых лежат данные. Например, ежегодное исследование зарплат высокопоставленных сотрудников крупнейших компаний. Мы делаем его в течение 10 лет, но теперь мы сделали эти данные доступными людям. Раньше мы называли это исследованием, а теперь это журналистика данных, потому что мы получаем истории из цифр.
Более того, мы сейчас стали экспертами внутри самого The Guardian, к нам приходят люди, и спрашивают: «Вот у меня есть таблица с информацией, что я могу из нее получить?» Так было в случае со школами, например. И это интересный побочный эффект, потому что раньше журналисты побаивались цифр и данных. А сейчас они стараются по-максимуму использовать их, начинают понимать, что из цифр можно получить истории.

Это очень интересно, как вы правильно заметили, журналисты традиционно боятся цифр.

Да, абсолютно. Даже можно сказать, что раньше они в какой-то мере гордились этим, гордились тем, что слабы в математике.

Большинство наших читателей из маленьких, по сравнению с The Guardian, ньюсрумов, скажите для них, какие ресурсы нужны, какие технические способности, чтобы начать отслеживать данные и публиковать базы данных?

Абсолютный минимум. Дело в том, что все, с чем мы работаем, как правило, не выходит за рамки функционала обычных таблиц, эксель или что там у вас есть. Эксель проще всего, но вы можете использовать любую программу таблиц. Для публикации мы используем Google Spreadsheets, которая доступна всем бесплатно. Мы используем инструменты для визуализации, которые тоже широко доступны – Many Eyes и Trimetric.
Я думаю, что традиционно журналисты не считали журналистику данных собственно журналистикой. Это было исследование или поиск информации. Ну, вы знаете, публиковать цифры — это разве журналистика?
Раньше мы стояли на страже своей информации, мы ее оставляли себе, чтобы она не досталась нашим конкурентам, чтобы они не могли сделать историю. Наружу выходили только готовые истории. И мы не верили, что люди могли бы что-то добавить к этой информации. Теперь все меняется. Теперь мы начинаем понимать, что мы не всегда и не во всем эксперты. Будь это Доктор Ху или академические школы, есть кто-то, кто знает гораздо больше, чем вы, и поэтому может что-то добавить. Так что вы получаете истории в ответ от читателей, и в итоге имеете гораздо больше информации.

То есть, вы публикуете данные, а другие люди потом делают из них истории?

Ну, например, возвращаясь к примеру про школы, нам пишут люди, что вот они живут в Дербишире, и все школы в достаточно состоятельных районах. Так что мы начинаем думать, и оказывается, что школы в состоятельных районах участвуют в этой программе, а школы в более бедных районах — нет.
Это дает вам новые истории и новые повороты в текущих историях, о которых вы сами и не подумали бы. Это следствие публикации данных самих по себе, следствие того, что они интересные. Это журналистика, потому что вы применяете журналистские приемы к этим данным. Вы должны отбирать данные с редакторской точки зрения. Вы должны обработать данные так, чтобы людям было легко их использовать, и чтобы они стали полезными для людей.

Давайте поговорим о трафике и деньгах. Как все это отражается на бизнесе The Guardian?

Это эксперимент для нас, но с точки зрения трафика все выглядит неплохо. Во время выборов у нас было порядка миллиона просмотров в месяц. Не очень впечатляет по сравнению с 36 миллионами, которые получает The Guardian в целом, но если смотреть по отдельным проектам, то это не так плохо. И это после одного года существования.
Так что это генерирует трафик, это хорошо для бренда и хорошо для сайта The Guardian. В долгосрочной перспективе, можно будет делать деньги на управлении и интерпретации данных. Я не очень пока понимаю, как, но мы должны быть уж совсем глупыми, чтобы не придумать что-то – здесь огромный потенциал.
Я считаю, что с журналистской точки зрения, делать такие вещи так же важно, как и писать репортажи с недели высокой моды или еще откуда-то. А в каком-то смысле это даже более важно, так как в The Guardian мы всегда боролись за открытость информации и свободный доступ к ней, а Data Blog это настоящее выражение этой идеи.

Оригинал интервью:

Simon Rogers on The Guardian’s data journalism from Nieman Journalism Lab on Vimeo.

Источник: mediapedia.ru

назад Загальний список далі

Інформація для членів УАВПП

Партнери УАВПП

Журналистка данных: как Guardian превратила информационное сырье в золотую жилу

Коментарі

Додати коментар

Проекти УАВПП