Чому погана аналітика гірша за її відсутність

Дмитро Артемчук, Head of Research в LOOQME, ділиться своїм експертним поглядом на візуалізацію даних.

Оскільки інформація — це абстрактне поняття, її можна по-різному зображати. Єдиного стандартного формату не існує, просто одна візуалізація буде більш релевантною, інша — менш релевантною. Втім існує проблема маніпуляції даними у випадку їх некоректного зображення. Це може бути з двох причин:

  • свідома маніпуляція;
  • некоректне зображення через брак знань.

Хибну візуалізацію можна розподілити на групи за кількома критеріями. Розглянемо кожну з них.

1. Побудова графіку не «від нуля»

Журнал Time свого часу опублікував інфографіку, де порівнював марки автомобілів, що були продані за останні 10 років та досі на ходу. Очевидно, що машини  Chevrolet демонстрували переконливу перевагу в надійності у порівнянні з іншими марками.

Проте якби графік був побудований від нуля, то різниця між брендами сприймалася б інакше. Стовпчики на графіку виглядали б майже рівними. Подивіться самі:

Цей графік вже не настільки показовий. Різниця між брендами мізерна, хоча і присутня. Тому, на мою думку, це була свідома маніпуляція даними. Добре, що хоч показали 5%-ву шкалу, проінформувавши читачів, що це лише верхівка графіку. Однак люди зазвичай дивляться просто на стовпчики, і порівнюють їх «на око». Тож це один із найстаріших та найвідоміших прикладів того, як маніпулюють даними у графіках «не від нуля».

У 2017 році Google презентував нові смартфони Pixel 2 та Pixel 2 XL. Одна з переваг — суттєво покращена камера у порівнянні з попередніми моделями.

Та сама історія: коли дивимось на графік, нам здається, що якість покращилась майже у 2 рази. А тепер будуємо той самий графік, починаючи з нуля.

Різниця справді є, але вона не демонструє таку круту й очевидну конкурентну перевагу, як це намагалися показати в Google. Висновок: свідома маніпуляція даними.

2. Нерівномірність інтервалів у динаміці

Коли ви будуєте лінійний графік, то правильно візуалізувати дати через однаковий проміжок часу. Наприклад: якщо починаєте з 1995 року, а наступний — 2000 рік, то логічно далі зображати 2005 і т. д. Якщо ви працюєте з даними, що нерівномірно розподілені за датами, то їх необхідно коректно візуалізувати.

Подивимось на графік російського видання Meduza, що зображає зростання частки православного населення в Росії.

Динаміку візуалізовано з 1991 по 2016 роки. Перша проблема — початкова точка графіку стартує з невідомого періоду. Друга — однакові за розміром інтервали містять різну кількість років. Інтервал між 1991 і 1992 роками візуально такий самий, як між 1992 та 1997 і так далі. За логікою Meduza виходить наступне: 1 рік = 5 років = 3 роки = 2 роки = 6 років = 4 роки = 1 рік = 3 роки.

Як такий графік має виглядати правильно:

 

У цьому варіанті зберігається масштабність, підписані саме ті точки, де є інформація, а крива починається з 1991 року.

Ось ще один графік від Meduza.

З проміжками тут все коректно, вони рівні. Але чомусь крива графіку прямує далі за 2015 рік. І наступна точка за логікою має бути вже 2020 року. Питання: як Meduza вміє передбачати майбутнє? Не зрозуміло.

Для графіків, що показують динаміку, важливо завжди вказувати чіткі дати, визначати точку старту і точку кінця. Як правило, друга точка — це кінець досліджуваного періоду або сьогоднішній день для даних у режимі реального часу. Для того, аби все ж таки коректно показати прогноз, використовуйте інші кольори, пунктири, виноски тощо.

Також на цьому графіку дивно побудована вертикальна шкала за числовим розподілом. Як правило, вона будується в сотнях, по п’ятсот одиниць або по тисячах. Тут один крок дорівнює чомусь 750. В принципі, за такою схемою можна було брати, наприклад, 756, аби вже майстерно познущатись з людей.

Ось так мав би виглядати цей графік:

3. Хибне співвідношення часток

Нижче на малюнку показаний яскравий приклад графіків, котрі не будуються, а малюються. Здається, що тут не використовували таблицю з даними, на основі якої спеціальна програма будує логічну візуалізацію. Це варіант використання Adobe Illustrator або іншого графічного редактора. Не скажу, що користуватись графічними інструментами забороняється. В цьому випадку просто треба чітко розуміти співвідношення чисел та часток. Адже 3% ніяк не можуть займати частину більшу за 6,4%. Хоча, судячи з цього зображення, буває всяке.

Тож коли ви будуєте кругові графіки, так звані, донати, слідуйте від найбільших значень до найменших. Так ви систематизуєте інформацію, котру потім легко сприймати. Спочатку більші частки, далі зменшуйте їх по колу.

Ось така версію буде більш коректною.

Наступний графік, як і попередній донат, я знайшов у відео ресурсу «Известия». Напевно, вони спеціально посилаються на «Деловая Россия», бо самі бачили халепу з картинкою.

Якщо провести лінію і подивитись, як співвідносяться між собою числа 9, 21 та 80, то видно — графік побудовано неправильно. Тут незрозуміло, чи це була свідома маніпуляція, чи прикра помилка.

На цьому малюнку показано, в чому проблема візуалізації даних.

Висновки 

1. Перший випадок з нульовою шкалою — найпростіший та найбільш розповсюджений метод свідомої маніпуляції даними. Щороку подібні інфографіки можна зустріти у відомих кампаній. Один із недавніх та гучних кейсів — передвиборча кампанія Дональда Трампа. Подивіться на графіки, що він викладав у Twitter, у статті The Washington Post. У деяких випадках інформація була викривлена навіть не на його користь. Цікаво, правда?

В штаті Колорадо (справа вгорі) різниця між Трампом та Клінтон склала всього 2%, а в Джорджії (справа внизу) — аж 13%. Втім, візуально різниця між результатами в Колорадо та Джоржії — майже однакова. Це той випадок, коли маніпуляція даними була скоріш не на користь Трампу

В штаті Колорадо (справа вгорі) різниця між Трампом та Клінтон склала всього 2%, а в Джорджії (справа внизу) — аж 13%. Втім, візуально різниця між результатами в Колорадо та Джоржії — майже однакова. Це той випадок, коли маніпуляція даними була скоріш не на користь Трампу

2. Графіки з помилково зображеною динамікою скоріше створюють через брак знань. Адже вони не демонструють переваги, які слід гіперболізувати. Це просто некоректна інформація. Все одно, що плутати місцями букви у словах — суть зрозуміла, але написано з помилкою. Коли у вас є дані за нерівні проміжки часу, краще будуйте не лінію, а стовпчики. Тоді вони можуть стояти поруч. Це, до речі, загальноприйнятий варіант

3. Хибне співвідношення часток на кругових діаграмах може пояснюватись і маніпуляцію, і нехтуванням правилами побудови. Головне, що слід пам’ятати — візуалізація має зображати, а не «робити» дані. Вона покликана транслювати їх, а не викривлювати.

ЧИТАЙТЕ ТАКОЖ: