Сервис массового поиска дублей
Glossary Item Box
Сервис массового поиска дублей (Bulk Duplicate Search) используется для дедупликации в разделах основного приложения Creatio.
При добавлении данных в разделы системы существует вероятность появления в системе дублирующихся записей (дублей). Для поддержания целостности и актуальности данных в системе используется функциональность массового поиска дублей.
Общие сведения
Для работы сервиса необходимо предварительно настроить сервис глобального поиска в поисковой системе ElasticSearch. Описание сервиса глобального поиска содержится в статье "Сервис глобального поиска".
В Creatio реализованы следующие виды поиска дублей:
- Массовый поиск дублей — поиск выполняется по всей базе. Запускается вручную либо автоматически.
- Поиск дублей при сохранении — поиск предусматривает проверку существования дублей для конкретной записи. Запускается при создании новой записи в момент ее сохранения в разделе.
Не запуская поиск, можно в ручном режиме выбрать записи, которые являются дублями, и выполнить их слияние. Такая опция доступна для всех разделов. По умолчанию поиск дублей доступен в разделах [Контрагенты] ([Accounts]), [Контакты] ([Contacts]) и [Лиды] ([Leads]). Для этого система использует ряд преднастроенных правил. При этом система предоставляет возможности настройки пользовательских правил поиска дублей контактов, контрагентов и лидов. Также можно создать пользовательские правила поиска для любого раздела системы, в том числе пользовательского.
Функциональность массового поиска дублей включена по умолчанию и доступна пользователям приложения Creatio, которое развернуто cloud. Для пользователей приложения Creatio, которое развернуто on-site, необходимо предварительно настроить сервис глобального поиска. Описание сервиса глобального поиска содержится в статье "Сервис глобального поиска".
Для подключения функциональности массового поиска дублей выполните следующие действия:
- Установите значение системной настройки [Адрес сервиса дедупликации] ([Deduplication service api address]). Подробное описание системных настроек содержится в статье "Раздел [Системные настройки]".
- Настройте права на системную операцию [Поиск дублей] ([Duplicates search]). Описание настройки прав доступа на системные операции содержится в статье "Настройка прав доступа к системным операциям".
- С помощью SQL-скрипта включите в Creatio функциональность сервиса (опции BulkESDeduplication, ESDeduplication, Deduplication). Подробнее о включении дополнительной функциональности читайте в статье "Механизм отключения функциональности Feature Toggle".
- Перезапустите приложение Creatio.
Описание подключения функциональности сервиса массового поиска дублей содержится в статье "Настройка массового поиска дублей".
Схема
Сервис массового поиска дублей состоит из следующих компонентов:
- RabbitMQ — брокер сообщений. Компонент сервиса глобального поиска.
- ElasticSearch — поисковая система. Компонент сервиса глобального поиска.
- Redis — хранилище данных, которое используется для кэширования и быстродействия.
- MongoDB — документоориентированная система управления базами данных.
- WebAPI — веб-сервис для общения в основном приложении Creatio.
- Data Service — внутренний сервис коммуникаций с компонентом MongoDB.
- Duplicates Search Worker — компонент поиска дублей.
- Duplicates Deletion Worker — компонент для точечного удаления дублей.
- Duplicates Confirmation Worker — компонент для группировки и фильтрации найденных дублей с учетом уникальности.
- Duplicates Cleaner — компонент очистки дублей.
- Deduplication Task Worker — компонент для постановки задачи дедупликации.
- Deduplication Preparation Worker — компонент для подготовки процесса дедупликации, который формирует запросы для поиска дублей согласно правилам.
Схема работы сервиса массового поиска дублей представлена на рисунке 1.
Рис. 1. — Схема работы сервиса массового поиска дублей
Масштабируемость
Использование кластера баз данных позволяет в крупных проектах выполнить масштабирование сервиса массового поиска дублей. Подробнее о кластеризации ElasticSearch описано в официальной документации.
Совместимость с продуктами Creatio
Сервис массового поиска дублей имеет версии 1.0-1.5, 2.0, которые совместимы со всеми продуктами Creatio версий 7.14 и выше.
Варианты развертывания
Сервис массового поиска дублей можно развернуть on-site и cloud.
Для приложений, развернутых on-site, необходимо выполнить предварительную настройку сервиса глобального поиска, которая описана в статье "Настройка глобального поиска". Для настройки сервиса массового поиска дублей необходим сервер (физическая или виртуальная машина), которая должна отвечать определенным техническим требованиям. Описание требований к серверу содержится в статье "Настройка массового поиска дублей". На сервере должна быть установлена операционная система Linux, которая официально поддерживает программное обеспечение Docker. Перечень операционных систем, которые поддерживает Docker, содержится в документации Docker.
Рекомендуем устанавливать самую актуальную версию сервиса массового поиска дублей.
Смотрите также
- Настройка массового поиска дублей
- Добавление правила массового поиска дублей
- Добавление правила поиска дублей при сохранении записи
- Поиск и объединение дублей