Skip to main content
В работе · Постоянно переоценивает все активные объявления

Как мы узнаём, сколько стоит ваш автомобиль.

Никакой интуиции. Никаких «рынок говорит». Каждый автомобиль на AllCars получает оценку от 0 до 100 в сравнении с его реальной группой аналогов: та же модель, тот же период, тот же двигатель, те же признаки состояния. Мы делаем это с помощью 13-мерного движка подобия и набора адаптивных математических методов, которые справляются с редкими автомобилями, недостатком данных и периодически встречающимися откровенными «лимонами».

Измерения
13
Оси Ценность × Качество
Аналоги в реальном времени
11k+
Активны по всему Кипру
Полная переоценка
45–90с
Всего рынка в пакете
Диапазон оценок
0–100
Зелёный · Жёлтый · Красный

Реальные аналоги. Реальная математика. Никакой интуиции.

Большинство инструментов «справедливой цены» выдают вам среднее по стране и на этом всё. Это работает для холодильников. Не для автомобилей. Audi A4 2018 года с пробегом 60 000 км, механической коробкой передач, полной историей обслуживания, находящаяся в Лимассоле, — это не то же самое, что A4 2018 года в Никосии с пробегом 180 000 км и статусом «утиль». Шильдик одинаковый. Всё остальное — нет. V6 рассматривает их как разные автомобили, которыми они и являются.

Всегда актуально

Рынок меняется каждый день. Цены падают, объявления исчезают, появляются новые и сдвигают медиану. Движок переоценивает всё по мере этих изменений, поэтому справедливая цена, которую вы видите, — это справедливая цена на данный момент, а не на прошлой неделе.

Честность в неопределённости

Редкий автомобиль? Пять аналогов на весь остров? Движок понимает, что на самом деле не знает точного ответа. Поэтому он «сжимает» оценку в сторону более широкого сегмента и даёт вам более широкий диапазон. Никакой ложной уверенности, замаскированной под точное число.

Распознавание «лимонов»

Автомобиль, который выглядит как абсолютная находка, но пахнет восстановленным после аварии, помечается, а не восхваляется. Движок перекрёстно проверяет Ценность и Качество. Когда они сильно расходятся, это сигнал, на который стоит обратить внимание.

Две оси. Одна оценка.

Каждое объявление получает две независимые оценки. Ценность отвечает на вопрос: «Хорошая ли это цена за то, что предлагается?» — с помощью 7 измерений, релевантных для цены. Качество отвечает на вопрос: «Действительно ли этот автомобиль таков, каким его заявляют?» — по 6 измерениям состояния и достоверности. Итоговая оценка сделки — это их произведение. Дешёвый, но подозрительный и дорогой, но безупречный — оба варианта выглядят на графике плохо, по совершенно разным причинам.

Качество → состояние · история · документы Ценность → дешевле за свои характеристики дорого · сомнительно дорого · безупречно дёшево · сомнительно (зона «лимонов») дёшево · безупречно ★ Оценка сделки Ц × К = 87

Запрашиваемая цена в сравнении с аналогами. Пробег, год, объём двигателя, тип топлива, коробка передач, тип кузова и положение цены в сегменте — всё это учитывается. Автомобиль с ценой на 20% ниже медианы аналогов получает высокую оценку Ценности. Но одна только Ценность — это ещё не вся сделка.

Насколько полное описание, сколько фотографий и какого они качества, свежесть объявления, ключевые слова о ДТП / утиле, а также несколько проверок достоверности. Качество — это ось «реально ли это?».

Почему умножение? Ценность 9/10, умноженная на Качество 9/10 (= 81), всегда лучше, чем Ценность 10/10, умноженная на Качество 4/10 (= 40). Именно так мыслят хорошие покупатели, когда осматривают автомобиль.

От сырого объявления до оценки 0–100 за семь шагов.

Каждый автомобиль проходит через один и тот же семиэтапный конвейер. Каждый этап повышает уверенность, убирает шум и защищает от определённого типа сбоя, который движок научился распознавать на горьком опыте.

01 Приём + валидация 02 Поиск аналогов Gower 13-D 03 Взвешивание Epanechnikov 04 Справедливая цена по ядру 05 Сжатие Байесовское 06 Проверка «лимона» Разрыв Ц × К 07 Оценка 0–100 + диапазон
ШАГ 01

Приём и валидация

Отклоняем невозможные данные на входе. Будущие года, пробег 999 999 км, описания только с локацией и тому подобное. «Мусор на входе» — самая дешёвая ошибка, которую можно исправить, поэтому мы исправляем её первой.

ШАГ 02

Поиск аналогов

Создаём группу для сравнения, используя расстояние Gower — метрику подобия, которая обрабатывает непрерывные поля (пробег, год) и категориальные (топливо, кузов) в одном уравнении. Без группировки, без подтасовок.

ШАГ 03

Взвешивание по подобию

Применяем ядро Епанечникова, чтобы почти идентичные аналоги учитывались полностью, а крайние случаи плавно исчезали. Никаких резких границ, где один лишний километр пробега включает или исключает аналог из группы.

ШАГ 04

Расчёт справедливой цены

Берём взвешенную по ядру цену облака аналогов. Это то, что рынок просит именно за этот тип автомобиля, а не за модель в целом. Разница обычно составляет от 500 до 2000 евро.

ШАГ 05

Байесовское сжатие

Если облако аналогов мало или зашумлено, смешиваем локальную оценку с медианой более широкого сегмента. Сила сжатия k = σ²внутри / σ²между адаптируется для каждого сегмента автоматически. Ничего не настраивается вручную.

ШАГ 06

Определение «лимона»

Ключевые слова о ДТП и утиле, плюс разрыв Ц–К по Акерлофу. Большой разрыв между Ценностью (дёшево) и Качеством (плохо) означает, что цена низкая не просто так. Стоит спросить, в чём причина.

ШАГ 07

Итоговая оценка 0–100

Умножаем, нормализуем, классифицируем. Зелёный — 70 и выше (находка), жёлтый — от 40 до 70 (справедливо), красный — ниже 40 (выше рынка или помечен). Вы также получаете диапазон справедливой цены, чтобы знать, насколько уверенной является эта цифра.

+ ВСЕГДА ВКЛЮЧЕНО

Коррекция на выжившего

Автомобили, которые быстро исчезают, вероятно, были хорошими сделками. Движок хранит 60-дневное окно снятых с публикации объявлений с затуханием по времени, чтобы цены аналогов отражали реальный рынок, а не только то, что осталось, потому что никому не было нужно.

Находим аналоги без подтасовок.

Наивный способ — это группировать автомобили: «A4 дизель 2018 механика» попадает в одну группу, и вы сравниваете её с медианой группы. Это ломается, как только автомобиль оказывается на границе. A4 2017 года — это практически та же машина, что и 2018, но жёсткая группировка говорит, что они чужие друг другу.

Расстояние Gower сглаживает это. Оно вычисляет подобие от 0 до 1 по всем 13 измерениям одновременно, смешивая непрерывные поля (пробег, год) с категориальными (топливо, кузов, привод) в единую оценку. Чем ближе — тем больше вес на следующем шаге.

d(A,B) = Σ wᵢ · δᵢ(A,B) / Σ wᵢ
где δ обрабатывает тип для каждого измерения
d < 0.10 · близнецы d < 0.20 · близкие d < 0.30 · дальние Ваш автомобиль сильный аналог слабый аналог вне группы
расстояние от вашего авто → вес → ваш автомобиль −h +h (ширина окна)

Близкие аналоги важнее. Плавно.

Ядро Епанечникова — это благовоспитанный кузен кривой нормального распределения: гладкий в центре, нулевой по краям, с наименьшей среднеквадратичной ошибкой среди всех ядер с конечным носителем. Проще говоря: аналоги, близкие к вашему автомобилю, получают полный вес, аналоги на краю подобия плавно исчезают, и нигде нет произвольного порога включения/выключения.

Эта плавность очень важна. Бинарное правило «входит/не входит» даёт скачкообразные оценки в тот момент, когда один аналог покидает или присоединяется к группе. Плавное взвешивание даёт плавные оценки. Плавные оценки — это честные оценки.

Мало аналогов? Притягиваем к истине.

Некоторые автомобили распространены. Прямо сейчас в продаже более 200 Toyota Yaris, это легко. Другие автомобили — единороги. У Porsche Cayman GTS 2018 года с механической коробкой передач может быть три аналога во всей стране.

Три аналога могут лгать. Возможно, один из них оценен неверно и тянет за собой медиану. Байесовское сжатие рассматривает оценку по малому числу аналогов как предположение, а не евангелие, и притягивает её к среднему значению более широкого сегмента. Сила притяжения пропорциональна зашумлённости локальных данных.

Сила сжатия k вычисляется для каждого сегмента на основе реальных данных, а не является подобранной вручную константой. Распространённые автомобили остаются близко к своему облаку аналогов. Редкие автомобили притягиваются к здравому смыслу.

ЯКОРЬ СЕГМЕНТА €14,800 все спорт-купе 2018 n = 142 аналога СЫРАЯ €11,200 n = 3 аналога · σ высокая СЖАТАЯ €13,400 μ̂ = (n · μ_локал + k · μ_сегмент) / (n + k) k = σ²_внутри / σ²_между · адаптируется для каждого сегмента автоматически
дорого · плохо дорого · безупречно дёшево · плохо ★ ЗОНА «ЛИМОНОВ» дёшево · безупречно ★ НАХОДКА Качество → Ценность →

Когда дёшево — значит дёшево не просто так.

Экономист Джордж Акерлоф получил Нобелевскую премию за то, что заметил, что информационная асимметрия убивает рынки подержанных автомобилей. Продавцы знают о «лимоне». Покупатели нет. Рынок рушится. V6 превращает идею Акерлофа в один конкретный тест: помечать любой автомобиль, у которого высокая оценка Ценности, но низкая оценка Качества.

Это и есть сигнал «лимона». Автомобиль с ценой на 30% ниже медианы аналогов, с куцым описанием, без истории обслуживания, с ключевыми словами об утиле и старыми фотографиями — это не находка. Это история, которую вы ещё не слышали.

Автомобили в зоне «лимонов» не превозносятся как отличные сделки. Они получают пометку, чтобы вы знали, какие вопросы задать, прежде чем переводить залог.

Тринадцать измерений.

Семь измерений отвечают на вопрос «сколько это стоит?». Шесть — на вопрос «реально ли это?». Вместе они описывают автомобиль так, как это сделал бы хороший механик, а не электронная таблица.

Ценность · 7 измерений

релевантность для цены
Ц1
Марка · модель · вариант
иерархическая идентификация
Ц2
Год регистрации
налоговая группа с учётом эры
Ц3
Пробег
км против медианы аналогов
Ц4
Объём двигателя
класс по CC и HP
Ц5
Тип топлива
бензин · дизель · EV · гибрид
Ц6
Тип кузова
седан · внедорожник · купе · универсал
Ц7
КПП и привод
механика · автомат · 4×4 влияют на набор аналогов

Качество · 6 измерений

сигналы состояния
К1
Полнота описания
реальные характеристики против «воды»
К2
Набор фотографий
количество, разрешение, свежесть
К3
Обслуживание и история
сигналы сервисной книжки
К4
Ключевые слова об утиле / ДТП
regex с учётом отрицаний
К5
Достоверность идентификации
согласованность между источниками
К6
Свежесть объявления
дней в продаже · снижения цены

Шесть версий в попытке быть честными.

Каждая версия исправляла то, что предыдущая делала не так. Каждая версия записана в истории с сохранением её оценок, так что мы точно знаем, когда движок стал умнее и какие решения изменились бы задним числом.

V1

Медиана по группам

Группировка автомобилей по жёстким категориям, сравнение с медианой группы. Работало только на очень широких шагах. Ломалось на границах.

V2

Линейная регрессия по 4 признакам

Год, пробег, двигатель, топливо. Лучше, но рассматривало все автомобили как один глобальный рынок. Yaris 2018 и Cayman 2018 не лежат на одной прямой.

V3

Модели для каждого сегмента

Одна модель на сегмент. Решило проблему глобальной прямой и тут же создало новую. Редкие сегменты имели три точки данных и уверенно врали.

V4

Расстояние Gower + KNN

Перешли к поиску аналогов для каждого объявления. Впервые чисто смешали непрерывные и категориальные поля. Но аналоги всё ещё были бинарными (внутри/снаружи), что давало скачки на границах.

V5

Взвешивание по ядру + первый флаг «лимона»

Ядро Епанечникова убило резкие границы. Первый грубый детектор «лимонов» через regex для ключевых слов об утиле. Но всё ещё без сжатия, поэтому редкие автомобили оставались шаткими.

V6

Ценность × Качество + адаптивное сжатие

Текущий движок. Двухосевая мультипликативная оценка, адаптивное байесовское сжатие, которое автоматически настраивается для каждого сегмента, разрыв Ц–К по Акерлофу для обнаружения «лимонов», коррекция на ошибку выжившего за 60-дневное окно снятых объявлений с затуханием по времени и полная пакетная переоценка всего рынка за 45-90 секунд. Пять лет плохих решений, чтобы вам не пришлось их принимать.

Gower 13-D Ядро Епанечникова Адаптивное байесовское сжатие Флаг «лимона» Ц × К Коррекция на выжившего 500+ тестов

А теперь идите и проверьте реальный автомобиль.

Каждое объявление на Кипре, оценённое в сравнении с его реальными аналогами, с указанием диапазона справедливой цены. Бесплатно, навсегда.

Статьи, лежащие в основе ценового движка

Ничего из математики здесь не ново. Каждый компонент оценщика V6 восходит к основополагающей научной работе. Если вы хотите углубиться дальше, чем пост в блоге, это оригиналы.

  1. [1]
    Gower, J. C. (1971). A general coefficient of similarity and some of its properties.
    Biometrics 27(4), 857–871.

    Оригинальное определение расстояния Gower. Позволяет нам смешивать непрерывные поля (год, пробег, цена) с категориальными (топливо, кузов, привод) в единую оценку подобия от 0 до 1. Шаг поиска аналогов в V6 построен на этом.

  2. [2]
    Epanechnikov, V. A. (1969). Non-parametric estimation of a multivariate probability density.
    Theory of Probability and Its Applications 14(1), 153–158.

    Представляет ядро Епанечникова, оптимальное сглаживающее ядро по среднеквадратичной ошибке. V6 использует его для взвешивания аналогов по подобию вместо того, чтобы отсекать их по произвольному порогу.

  3. [3]
    Nadaraya, E. A. (1964). On estimating regression.
    Theory of Probability and Its Applications 9(1), 141–142. (Companion: Watson, G. S. 1964, Sankhyā A 26, 359–372.)

    Оценщик ядерной регрессии Надарая-Ватсона. Объедините расстояние Gower с ядром Епанечникова, и вы получите фреймворк, который V6 использует для оценки справедливой цены по локальным аналогам.

  4. [4]
    James, W. & Stein, C. (1961). Estimation with quadratic loss.
    Proceedings of the Fourth Berkeley Symposium on Mathematical Statistics and Probability, Volume 1, 361–379.

    Результат Джеймса-Стейна, который положил начало оцениванию со сжатием. Адаптивное байесовское сжатие V6 притягивает оценки тонких сегментов к априорному значению с силой, пропорциональной локальному шуму — прямой потомок этой идеи.

  5. [5]
    Akerlof, G. A. (1970). The market for "lemons": Quality uncertainty and the market mechanism.
    The Quarterly Journal of Economics 84(3), 488–500.

    Нобелевская работа о рынках подержанных автомобилей и информационной асимметрии. Разложение Ценность × Качество в V6 существует специально для выявления «лимонов» Акерлофа: автомобилей, которые выглядят дёшево по цене, но получают низкую оценку по всему остальному.

  6. [6]
    Cleveland, W. S. (1979). Robust locally weighted regression and smoothing scatterplots.
    Journal of the American Statistical Association 74(368), 829–836.

    Статья про LOWESS / LOESS. V6 — это не строго LOESS, но движок наследует его предубеждение против подгонки через выбросы и его предпочтение локально взвешенным оценкам перед жёсткими группами.

  7. [7]
    Heckman, J. J. (1979). Sample selection bias as a specification error.
    Econometrica 47(1), 153–161.

    Классическая работа об ошибке выжившего. Проданные автомобили исчезают; те, что задерживаются, — нет. 60-дневное окно памяти V6 для снятых объявлений с затуханием по времени — это наш локальный ответ на проблему, сформулированную Хекманом.

Ссылки ведут непосредственно на издателей. Некоторые из них платные; препринты и бесплатные копии обычно можно найти в Google Scholar по названию статьи.