Примеры картинок из датасета Tiny Images

Массачусетский технологический институт, докладывает портал OpenNET, удалил набор данных Tiny Images, включающий аннотированную коллекцию из 80 миллионов маленьких изображений с разрешением 32×32. Набор поддерживался группой, развивающей технологии компьютерного зрения, и употреблялся c 2008 года разными исследователями для тренировки и проверки определения объектов в системах машинного обучения.

Предпосылкой удаления сделалось выявление расистских и женоненавистнических определений в метках, характеризующих изображённые на картинах объекты, а также наличия образов, которые воспринимались как оскорбительные. К примеру, присутствовали изображения половых органов, описанные арготическими обозначениями, изображения неких дам характеризовались как «шлюхи», применялись недопустимые в современном обществе определения для чернокожих и азиатов.

Предпосылкой возникновения недопустимых слов было внедрение автоматического процесса, использующего при систематизации семантические связи из лексической базы данных британского языка WordNet, сделанной в 1980-е годы в Принстонском институте. Потому что вручную проверить наличие оскорбительной лексики в 80 млн маленьких картинок не представляется вероятным, было принято решение на сто процентов закрыть доступ к БД. MIT также призвал остальных исследователей закончить внедрение данной коллекции и удалить её копии. Подобные трудности наблюдаются и в наикрупнейшей аннотированной базе изображений ImageNet, в которой также употребляются привязки из WordNet.

Добавить комментарий