|
|||||||||||
Партнери УАВПП |
13 липня 2018
Копаем глубже: краткое руководство по бесплатным и недорогим инструментам обработки данных«Поначалу казалось, что не все из 11 участников, у которых не было или почти не было начальных знаний об этой захватывающей области журналистики, заразятся идеей использования мышления, ориентированного на данные, при работе с новостями. Но очень быстро эта идея стала для них очевидной», сказала Анушка Делич после начала тренинга. Знакомство с инструментами по обработке данныхПомимо демонстрации базовых интернет-запросов (см. ниже), продвинутого владения Excel, Google Fusion, OpenRefine и Helium Scraper, которые я также включил в программу тренинга на Европейской конференции журналистики данных «Data Harvest», я предложил обучение по извлечению данных из PDF-файлов с помощью CometDocs, DocumentCloud, Datawrapper и CartoDB. Оказывается, в Словении есть масса качественных материалов и публичных данных, которые можно использовать для создания новостей. Например, данные из статистического управления. Вся эта информация даже может быть отсортирована по муниципальным округам, что потенциально актуально и для других стран Европейского Союза. Советы по поиску в Интернете (ссылки)
Исследовательская клиника Пола Майерса (Paul Myers researchclinic) Инструменты Google (ссылки)
Двухэтапная авторизация (Two-step verification) Импорт PDF файловМы извлекали данные из PDF-файлов, используя CometDocs и OnlineOCR.net. Но советуем также ознакомиться с данным обзором удобных инструментов для импорта PDF-файлов (http://46.38.172.73/unv/dh14/tipsheet-pdf.pdf). В целом, CometDocs решает большинство задач, связанных с импортом PDF, а также распознает специальные символы в алфавитах разных стран. Для членов Организации журналистов и редакторов-расследователей (Investigative Reporters and Editors) CometDocs является бесплатным. DocumentCloudDocumentCloud является бесплатным ПО. Это хороший инструмент для встраивания заметок в документ, который предоставляет пользователям возможность рецензировать весь файл. OpenRefineOpenRefine (ранее Google Refine) – это бесплатный мощный инструмент для работы с неструктурированными данными, их очистки и преобразования из одного формата в другой. Вот хороший учебник по OpenRefine (http://2016.uncoveringasia.org/wp-content/uploads/sites/5/2013/10/refine.pdf). Скрейпинг данныхБазовая версия Helium Scraper, которая является хорошим инструментом для этих целей, стоит 100 дол. США. Я думаю, что это программа является неплохим способом освоить скрейпинг. Helium Scraper работает на всех ПК, кроме компьютеров Mac. Здесь вы также можете найти другие инструменты для скрейпинга данных из Интернета. Google FusionGoogle Fusion — это отличный инструмент для визуализации данных на основе интерактивной карты, который в большинстве случаев доступен бесплатно. Важно попытаться получить правильную версию карты городов/районов вашей страны и импортировать ее в качестве стандартной карты в Google Fusion. Ниже приведены некоторые полезные ссылки для работы с Fusion:
Поиск таблиц для Fusion (Search for fusion tables)
Таблица «безопасных» цветов для отображения на мониторах (http://www.december.com/html/spec/colorsafe.html) Data WrapperData Wrapper — это очень простой инструмент для визуализации данных в виде интерактивных графиков, но для использования услуги встраивания графиков с сервера компании требуется оплата. Вместо этого вы можете запускать графики на своем собственном сервере и использовать WinSCP в качестве системы для передачи файлов. WinSCP является бесплатным ПО и работает на всех ПК, кроме Mac. Собственный сервер может также использоваться и для карт, созданных с помощью Google Fusion, но не забывайте правильно структурировать свое дисковое пространство. CartoDBCartoDB — это отличная альтернатива Google Fusion со множеством возможностей для создания карт совершенно по-новому. В бесплатной версии можно загрузить неограниченное количество карт и таблиц, однако общий предел загружаемых данных составляет 50 МБ, чего как правило достаточно в большинстве случаев. В бесплатной версии программы ограничен доступ к геокодированию, которое затем необходимо выполнить с помощью другого инструмента или же можно приобрести хотя бы один платный аккаунт на CartoDB для получения доступа к этой функции. TimelineJSTimelineJS – это бесплатный инструмент с открытым исходным кодом, который позволяет пользователям создавать красочные интерактивные тайм-линии. Он доступен на 40 языках. Вы можете легко создать контент в электронной таблице Google, а затем импортировать его в TimelineJS. Удачи в раскопках данных! Нильс Мулвад – соучредитель и член совета Глобальной сети журналистов-расследователей, а также организации Investigative Reporting Denmark (Дания). Он также является редактором в Kaas & Mulvad, консалтинговой фирме по журналистике данных, и доцентом в Датской школе медиа и журналистики. Нильс Мулвад был генеральным директором Датского международного центра аналитической отчетности в 2001-2006 годах и европейским журналистом года в 2006 году. КоментаріДодати коментар |
Редакциям новостей больше не нужны огромные бюджеты для анализа данных – можно легко получить доступ к бесплатными или недорогим базовым инструментам обработки данных. Ниже приведен список, созданный по результатам пятидневного тренинга в редакции газеты «Дело» – ведущей ежедневной газеты Словении. Анушка Делич, журналист и руководитель проекта DeloData в этой газете, начала обучение сотрудников с целью подтолкнуть команду к использованию легко доступных инструментов обработки данных и множества новых источников информации при работе над сюжетами.