Проектирование систем обработки больших данных (Big Data) - тест МОИ (МТИ)

Студенты университета МОИ (МТИ) регулярно проходят тестирование по предмету Проектирование систем обработки больших данных (Big Data). Иногда задания требуют знания теории и внимательности. Наш сервис помогает пройти тест быстро и получить высокий балл. Работа выполняется оперативно, конфиденциально и без предоплаты. Стоимость — 350 рублей.

Как называется архитектурный подход к проектированию систем Big Data, при котором поток данных проходит через три стадии: «Приём -> Хранение -> Обработка», а сами данные неизменяемы после записи?
Архитектура Lambda
Архитектура Kappa
Архитектура Data Mesh
Архитектура Data Lakehouse +

Какой принцип проектирования систем хранения больших данных подразумевает физическое разделение вычислительных ресурсов и ресурсов хранения?
Принцип ACID
Принцип разделения вычислений и хранения (disaggregated compute and storage) +
Принцип локальности данных (data locality)
Принцип единого кластера

Какой шаблон проектирования потоковой обработки данных обеспечивает гарантию обработки «ровно один раз» (exactly-once) за счёт идемпотентных записей и транзакционной фиксации смещений?
Шаблон «источник-приёмник» (source-sink)
Шаблон «микропакетная обработка» (micro-batching)
Шаблон «транзакционное логирование смещений» (transactional offset logging) +
Шаблон «оператор окна» (windowing operator)

При проектировании Data Lakehouse ключевым компонентом, обеспечивающим ACID-транзакции поверх озёр данных, является:
Метастор Hive
Формат таблицы (table format), такой как Apache Iceberg, Delta Lake или Hudi +
Файловая система HDFS
Движок исполнения Spark

Какой метод партиционирования данных в распределённой системе минимизирует необходимость в перетасовке (shuffle) при выполнении соединений (join) по одному и тому же ключу?
Хеш-партиционирование
Совместное партиционирование (co-partitioning) +
Круговое партиционирование (round-robin)
Диапазонное партиционирование (range partitioning)

Какая гарантия согласованности данных в распределённых системах Big Data позволяет клиенту видеть свои собственные записи сразу после их выполнения, но не гарантирует немедленной видимости записей других клиентов?
Согласованность «в конечном счёте» (eventual consistency)
Согласованность «в рамках сессии» (session consistency) +
Линейная согласованность (linearizability)
Причинная согласованность (causal consistency)

При проектировании системы обработки больших данных в режиме реального времени, какой анти-паттерн следует избегать для обеспечения низкой задержки?
Использование асинхронных неблокирующих ввода-вывода
Применение идемпотентных продюсеров
Чтение данных непосредственно из базы данных-источника на каждый запрос без кэширования или материализованных представлений +
Буферизация сообщений в очереди

Какой подход к обработке больших данных характерен для архитектуры Lambda?
Обработка только потоковых данных с единой кодовой базой
Параллельное выполнение одного и того же вычисления двумя путями: пакетным (batch) и скоростным (speed), с последующим слиянием результатов +
Обработка всех данных строго один раз в сутки
Хранение всех данных только в оперативной памяти кластера

Какой формат сжатия и хранения колоночных данных оптимизирован для высокопроизводительных запросов в системах Big Data и поддерживает встроенную статистику по страницам?
Avro
JSON
Parquet +
CSV

При проектировании схемы базы данных для аналитической обработки больших данных (OLAP) какая модель является предпочтительной?
Нормализованная модель (3NF)
Звёздчатая схема (star schema) +
Схема «снежинка» (snowflake schema)
Плоская таблица без связей

Какой механизм в распределённых системах обработки данных позволяет продолжить выполнение задания при отказе одного из узлов без полного перезапуска всего задания?
Контрольные точки (checkpointing) + линеаризуемость
Спекулятивное выполнение (speculative execution) и повтор воспроизведения (replay) +
Журнал упреждающей записи (WAL)
Репликация «ведущий-ведомый»

Какое свойство проектируемой системы Big Data означает, что система может быть расширена путём добавления новых узлов без существенного изменения архитектуры или остановки сервиса?
Отказоустойчивость
Доступность
Горизонтальная масштабируемость +
Консистентность

Что является ключевым требованием при проектировании промежуточного слоя сообщений (message broker) для обработки больших потоковых данных?
Гарантия строгой очередности сообщений от одного продюсера
Сохранение сообщений на диске и поддержка воспроизведения (replay) для потребителей +
Удаление всех сообщений сразу после их прочтения первым потребителем
Обязательная проверка уникальности каждого сообщения

При проектировании системы для хранения больших объёмов временных рядов (метрик, логов) какой метод шардирования наиболее эффективен для запросов последних данных?
Шардирование по значению метрики
Шардирование по временному интервалу (time-based sharding) +
Шардирование по хешу идентификатора устройства
Шардирование по случайному числу

Какой протокол используется для координации распределённых транзакций и выбора лидера в таких системах, как Apache ZooKeeper или etcd?
HTTP/2
gRPC
Zab (ZooKeeper Atomic Broadcast) или Raft +
MQTT

Какая стратегия кэширования в системах Big Data предполагает обновление кэша асинхронно после записи нового значения в базовое хранилище?
Сквозное кэширование (look-aside cache)
Сквозная запись (write-through)
Отложенная запись (write-behind / write-back) +
Обновление кэша за счёт инвалидации

При проектировании конвейера (pipeline) обработки больших данных каким термином называется явление, при котором один из этапов обработки работает медленнее остальных, создавая «узкое место» и накапливая данные?
Гонка данных (data race)
Тупик (deadlock)
Разрастание обратного давления (backpressure buildup) +
Потеря партиций (partition loss)

Какая модель развёртывания Big Data решения предполагает использование сервисов облачного провайдера (S3, Kinesis, EMR) без непосредственного управления физическими серверами?
Локальное развёртывание (on-premise)
IaaS (Infrastructure as a Service)
Serverless (бессерверные вычисления) +
PaaS с выделенными узлами

При проектировании схемы данных для системы рекомендаций, где критична скорость чтения, какая техника денормализации наиболее уместна?
Создание отдельной таблицы для каждой сущности с внешними ключами
Создание предварительно собранных материализованных представлений (pre-joined materialized views) +
Использование рекурсивных CTE для каждого запроса
Максимальная нормализация для уменьшения дублирования

Какая стратегия восстановления после сбоя в распределённой обработке данных требует наименьшего объёма передаваемых по сети данных, но больше операций ввода-вывода?
Полный перезапуск всех задач с нуля
Восстановление только потерянных партиций на основе контрольных точек (checkpoint-based recovery) +
Восстановление на основе журнала операций (oplog replay)
Спекулятивный повтор всех выполнявшихся задач

Вопрос
Установите соответствие  английского обозначения признака больших данных и характеристики данного  признака:
Текстовые данные с  неустойчивым форматом, которые для обработки инструментами требуют больших  временных затрат на преобразование, – это … данные
Данные, у которых нет строго  зафиксированного формата, называются …
Согласно принципу трех V  английским словом «…» обозначают разнообразие, способность обработки  множества типов, источников и форматов данных
Комплексный набор методов,  подходов и инструментов обработки структурированных и неструктурированных  данных колоссальных объемов –это …
… впервые использовал термин «большие данные» в журнале Nature по аналогии с терминами «большая нефть», «большая руда»
Совокупность методов и  средств извлечения их организованных данных для принятия решений – это …  данных
Подборка тематически  связанных данных, расположенных на одном рабочем листе, – это …
На рисунке ниже приведены …  списка

Чтобы переименовать рабочий  лист электронной таблицы, сначала нужно … кнопки мыши вызвать контекстное  меню на ярлыке листа и выбрать в нем команду «Переименовать»
Операция над данными, с  помощью которой можно переупорядочить строки в списке в соответствии с  содержанием конкретных столбцов, – это …
Карта с нанесенной на нее  информацией в виде цвета или с помощью других способов – это …
Макрокоманда, содержащая  последовательность действий, записанных пользователем, – это …
Создание большого количества  различных визуальных представлений одних и тех же данных – это …
… таблица – это специальный  тип таблицы, суммирующий информацию из конкретных полей списка или базы  данных; допускает после построения настройку на различные разрезы данных
Установите правильную  последовательность шагов по созданию макроса, с помощью которого в поле «Цвет» определяются неповторяющиеся значения (эти значения выводятся в ячейке  перечислением через запятую):
… данные представляют собой  высокоорганизованную, фактическую и точную информацию и обычно представлены в  форме букв и цифр, которые хорошо вписываются в строки и столбцы таблиц
Установите соответствие  понятий и их определений:
… – это полный набор  объектов, связанных с поставленной перед изучением проблемой
… данных – это процесс,  посредством которого извлекается необходимая для обработки информация, впоследствии  предоставляющая решение поставленной перед ним задачи/проблемы
… данных являются соцсети,  приложения, веб-визоры, камеры наблюдения, видеорегистраторы, датчики и  другие системы, где генерируются разнородные данные
… включает данные, которые  относятся к нескольким однородным объектам, при этом каждый объект описан в  виде набора характеристик; обычно его можно представить в виде таблицы в  несколько строк и столбцов
Установите соответствие  компонентов распознавания текста и их характеристик:
Такой метод обработки  изображений, как …, используется для поиска и (или) подсчета деталей, его  цель заключается в упрощении и/или изменении представления изображения, чтобы  его было проще и легче анализировать
Английское название хранилищ  данных масштаба предприятия, где данные хранятся в неструктурированном /  необработанном виде, – Data …
В числе наиболее доступных  источников информации на сегодня – … (укажите 2 варианта ответа)
Услуга эвристического поиска,  основанного на использовании систем искусственного интеллекта, формирующих  расширенный запрос на основе применения специализированных отраслевых  тезаурусов и семантических сетей, в Интернете на сегодня …
… – английское сокращенное  обозначение специализированных комплектов разработчика позволяющих при  необходимости создавать собственное программное обеспечение, адаптированное к  задачам, решаемым той или иной организацией
… – проект фонда Apache  Software Foundation, платформа с открытым исходным кодом для обработки  больших данных; благодаря распределенной файловой системе и распределенным  вычислениям эта разработка позволяет обрабатывать и анализировать очень  большие объемы данных.
Установите соответствие  элементов специфики работы со неструктурированными данными и их содержания:

Другие тесты Синергии, МТИ, МОСАП:

Принятие решений на основе анализа данных

Проектирование и дизайн информационных систем

Проектирование и открытие предприятий гостиничного бизнеса

Проектирование образовательной деятельности по речевому и познавательному развитию дошкольников

Проектирование образовательных результатов и построение учебных планов