(no subject)
2025-11-19 06:56Многочасовой сбой Cloudflare оказался результатом некорректной обработки ошибок
Компания Cloudflare опубликовала разбор одного из крупнейших инцидентов в своей инфраструктуре, из-за которого вчера большая часть сети доставки контента оказалась неработоспособной на протяжении более 3 часов. Сбой произошёл после изменения в структуре БД, размещённой в хранилище ClickHouse, после которого файл с параметрами для системы противодействия ботам в два раза увеличился в размере. В БД были образованы дублирующиеся таблицы, при том, что SQL-запрос для формирования файла просто выводил все данные из всех таблиц по ключу, без отсеивания дубликатов.
https://www.opennet.ru/opennews/art.shtml?num=64282
Компания Cloudflare опубликовала разбор одного из крупнейших инцидентов в своей инфраструктуре, из-за которого вчера большая часть сети доставки контента оказалась неработоспособной на протяжении более 3 часов. Сбой произошёл после изменения в структуре БД, размещённой в хранилище ClickHouse, после которого файл с параметрами для системы противодействия ботам в два раза увеличился в размере. В БД были образованы дублирующиеся таблицы, при том, что SQL-запрос для формирования файла просто выводил все данные из всех таблиц по ключу, без отсеивания дубликатов.
https://www.opennet.ru/opennews/art.shtml?num=64282
Источник:https://twinkle.lol/item/02d85792-9ddb-48b7-b6fa-a3a20a068a7a
(no subject)
Date: 2025-11-19 08:25 (UTC)(no subject)
Date: 2025-11-19 08:48 (UTC)(no subject)
Date: 2025-11-19 10:10 (UTC)(no subject)
Date: 2025-11-19 10:25 (UTC)И вот в этом случае кто будет виноват? Не менеджеры же. Виноваты будут джуны. А они выполняли приказ.
(no subject)
Date: 2025-11-19 10:54 (UTC)А потом они решили соптимизировать процесс и дать скрипту право читать нижележащие базы, не нагружая Distributed table engine. Но при этом они оставили скрипту право на работу через Distributed.
Как только они дали скрипту право на чтение прочих таблиц - оно и бомбануло. Потому что они читали в объект фиксированного размера и не обрабатывали многократные последовательные ошибки чтения.
Я бы ввёл в обработку ошибок экспоненциальную задержку, если ошибка случается много раз подряд. Ну и откат на последнюю правильную конфигурацию.
(no subject)
Date: 2025-11-20 07:48 (UTC)А также обязательно см. https://how.complexsystems.fail/#3