Представляем модели поиска изображений
Просмотр снимков коллекции дает нам отправную точку для изучения того, какие типы изображений включены в коллекцию. Мы можем расширить наш подход, внедрив поиск изображений.
Существуют различные подходы, которые мы могли бы использовать, чтобы позволить нам искать наши изображения. Если у нас есть текст, окружающий изображение, мы могли бы использовать его в качестве прокси для того, что может содержать изображение. Например, мы могли бы предположить, что если текст рядом с изображением содержит слова «фотография моей собаки Снежной», то изображение содержит изображение собаки. Этот подход имеет ограничения — текст может отсутствовать, быть не связанным или охватывать только небольшую часть того, что находится на изображении. Текст «фотография моей собаки Снежной» не говорит нам, какая собака содержится на изображении или включены ли другие вещи в эту фотографию.
Использование модели встраивания предлагает другой путь вперед. Встраивания по сути берут входные данные, т. е. текст или изображение, и возвращают набор чисел. Например, текстовая подсказка: «изображение собаки», будет передана через модель встраивания, которая «переводит» текст в матрицу чисел (по сути, сетку чисел). Особенность этих чисел в том, что они должны фиксировать некоторую семантическую информацию о входных данных; встраивание для изображения собаки должно каким-то образом фиксировать тот факт, что на изображении есть собака. Поскольку эти встраивания состоят из чисел, мы также можем сравнивать одно встраивание с другим, чтобы увидеть, насколько они близки друг к другу. Мы ожидаем, что встраивания для похожих изображений будут ближе друг к другу, а встраивания для изображений, которые менее похожи друг на друга, будут дальше. Не вдаваясь слишком глубоко в подробности того, как это работает, стоит отметить, что эти вставки не просто представляют один аспект изображения, то есть основной объект, который оно содержит, но и другие компоненты, такие как его эстетический стиль. Вы можете найти более подробное объяснение того, как это работает, в этом посте .
Поиск подходящей модели поиска изображений на Hugging Face Hub
Чтобы создать систему поиска изображений для набора данных, нам нужна модель для создания вложений. К счастью, Hugging Face Hub позволяет легко находить модели для этого.
В Hub имеются различные модели , поддерживающие построение системы поиска изображений.
Скриншот Hugging Face Hub, на котором показан список размещенных моделей.
Hugging Face Hub, показывающий список размещенных моделей.
Все модели будут иметь различные преимущества и компромиссы. Например, некоторые модели будут намного больше. Это может сделать модель более точной, но также затруднит ее запуск на стандартном компьютерном оборудовании.
Hugging Face Hub предоставляет «виджет вывода», который позволяет интерактивно исследовать модель, чтобы увидеть, какой тип вывода она обеспечивает. Это может быть очень полезно для быстрого понимания того, будет ли модель полезна или нет.
Скриншот виджета модели, показывающий изображение собаки и кошки, играющих на гитаре. Виджет присваивает метке `"играет музыку`" наивысшую достоверность.
Скриншот виджета модели, показывающий изображение собаки и кошки, играющих на гитаре. Виджет присваивает метке «играет музыку» наивысшую достоверность.
Для нашего варианта использования нам нужна модель, которая позволяет нам встраивать как наш входной текст, например, «изображение собаки», так и сравнивать его с встраиваниями для всех изображений в нашем наборе данных, чтобы увидеть, какие из них наиболее близки. Мы используем вариант модели CLIP , размещенный на Hugging Face Hub: clip-ViT-B-16 . Это позволяет нам превращать как наш текст, так и изображения в встраивания и возвращать изображения, которые наиболее точно соответствуют нашему текстовому запросу.
Скриншот вкладки поиска, показывающий поиск по запросу «фотография пейзажа» в текстовом поле и сетку изображений, полученных в результате поиска. Сюда входят два изображения с деревьями и изображения с небом и облаками.
Скриншот вкладки поиска, показывающий поиск по запросу «фотография пейзажа» в текстовом поле и сетку изображений, полученных в результате поиска. Сюда входят два изображения с деревьями и изображения с небом и облаками.
Хотя реализация поиска не идеальна, она дает нам дополнительную точку входа в обширную коллекцию данных, которую трудно исследовать вручную. Можно расширить этот интерфейс, добавив функцию схожести изображений . Это может быть полезно для идентификации работы конкретного художника в более широкой коллекции.
Классификация изображений
Хотя поиск изображений помогает нам находить База данных по азартным играм изображения, он не помогает нам так сильно, если мы хотим описать все изображения в нашей коллекции. Для этого нам понадобится немного другой тип задачи машинного обучения — классификация изображений. Модель классификации изображений распределит наши изображения по категориям, выбранным из списка возможных меток.
Мы можем найти модели классификации изображений на Hugging Face Hub. Вкладка «Тестер моделей классификации изображений» в демонстрационном приложении Gradio позволяет нам тестировать большинство из 3000+ моделей классификации изображений, размещенных на Hub, на нашем наборе данных.
х:
Насколько хорошо обозначения модели соответствуют нашим данным? Модель для классификации пород собак, вероятно, не сильно нам поможет!
Это дает нам быстрый способ проверки возможных ошибок, которые модель может допустить при использовании наших данных.
Это побуждает нас задуматься о том, какие категории могут иметь смысл для наших изображений.
Это может дать нам представление о нескольких веща
-
- Posts: 41
- Joined: Thu May 22, 2025 5:26 am