Один и тот же автомобиль на Кипре, три объявления: как AllCars находит дубликаты
Продавцы размещают один и тот же подержанный автомобиль на Кипре сразу на нескольких сайтах, иногда по разным ценам. AllCars объединяет такие объявления, чтобы вы видели один автомобиль, одну историю и одну справедливую цену. Вот аккуратное объяснение, как это работает.
Если вы когда-нибудь искали подержанный автомобиль на Кипре, вы точно это видели: один и тот же Mercedes, три объявления, будто от трех разных людей, и три немного разные цены. Машина одна и та же. Задача AllCars — понять это, чтобы поиск не был забит фантомными дублями.
Обратный риск еще хуже: случайно объединить две разные машины. График цены начинает врать, оценка сделки становится неверной, объявление получает чужую идентичность. Поэтому алгоритм сопоставления сильно склоняется к правилу «это разные автомобили, пока не доказано обратное».
Четыре сигнала, ни один не работает в одиночку
Он использует четыре группы признаков, чтобы понять, относятся ли два объявления к одному физическому автомобилю:
Отпечатки изображений. Когда в двух объявлениях появляются одни и те же фотографии, это сильный сигнал. AllCars не хранит сами изображения — только небольшой отпечаток, который помогает ответить на вопрос «они пришли из одного источника?» без сохранения данных, похожих на личные.
Совпадение характеристик. Год, марка, модель, пробег, двигатель. Если все достаточно близко и разница в цене тоже невелика, объявления могут описывать один и тот же автомобиль.
Подсказки идентичности. Иногда один и тот же контакт встречается в нескольких объявлениях; иногда на публичном фото виден номерной знак. Такие признаки учитываются, когда они есть, но никогда не решают все сами.
Сигналы в описании. Формулировки про сервисную историю, одинаковые опечатки, конкретное упоминание аварии — продавцы оставляют отпечатки в тексте.
Правило: 2+ сигнала или 1 сильный + идентичность
Один сигнал сам по себе ничего не объединяет. Правило такое: согласуются два или больше сигналов либо есть один сильный сигнал плюс подтверждающая подсказка идентичности. Я уже видел, как объединение по одному сигналу едва не склеивало разные машины, и теперь такой вариант исключен.
Добавьте к этому жесткие правила вето — тип кузова, топливо, год и цвет при несовпадении сразу останавливают объединение, — и алгоритм сопоставления получается осторожным и консервативным. Он пропускает часть честных объединений, когда данных мало с обеих сторон, и принимает этот компромисс. Пропущенное объединение — это просто два объявления вместо одного. Неверное объединение портит историю автомобиля, который вы, возможно, реально собираетесь купить.
Почему это важно, когда вы пользуетесь AllCars: карточка показывает один Mercedes, самую низкую актуальную цену среди его дублей и график цены по всем связанным объявлениям. Вам не нужно вручную убирать дубликаты в голове. Я сделал это за вас — аккуратно.
Ищите все подержанные автомобили на Кипре без дублей
Одно объявление на автомобиль. Одна история цены. Одна оценка сделки. Откройте приложение и попробуйте модель, за которой давно следите.
Открыть AllCars