Начну с вынесения из комментов.
Исходный пост: Учёные создали новую нейронку для распознавания образов, и её сразу же забавно хакнули методом Козьмы Пруткова.
Тред в нём: Авторы модели сразу же огорчились, что их нейронка имеет некоторые нежелательные нейронные связи:
Our model, despite being trained on a curated subset of the internet, still inherits its many unchecked biases and associations.
We have observed, for example, a “Middle East” neuron with an association with terrorism; and an “immigration” neuron that responds to Latin America.
Перевожу на русский: мы обнаружили, что в нашей нейронке нейрон "Ближний Восток" связан с нейроном "терроризм", а нейрон "иммиграция" связан с нейроном "Латинская Америка", аяяй!
Мой коммент в том треде (один из):
Молодец, нейронка! Это одна из её задач (финальная или инструментальная) — искать корреляции.
А что ей на это отвечают?
Могли бы ответить "мы, как самые умные учёные из палаты мер и весов, собрали исчерпывающую статистику по всему миру и установили, что в нём нет такой статистической зависимости, которую нейронка нашла в предложенном датасете".
Но они этого не сказали, а всего лишь сказали: "нам не нравится, что нейронка нашла такую зависимость". Это примерно как негласный (или гласный) запрет называть цвет кожи преступника, если он не белый. Wishful thinking постулирует, что если про этот фактор, отличающий мир от мира розовых пони, не говорить (в том числе не показывать его искусственным нейронкам), то реальный мир превратится в целевой мир розовых пони. Инженерный thinking же говорит, что нейронку хотят заставить не замечать неудобные факты реального мира, отличающие его от мира розовых пони.
( Ещё мысли про искусственные и естественные интеллекты )
Исходный пост: Учёные создали новую нейронку для распознавания образов, и её сразу же забавно хакнули методом Козьмы Пруткова.
Тред в нём: Авторы модели сразу же огорчились, что их нейронка имеет некоторые нежелательные нейронные связи:
Our model, despite being trained on a curated subset of the internet, still inherits its many unchecked biases and associations.
We have observed, for example, a “Middle East” neuron with an association with terrorism; and an “immigration” neuron that responds to Latin America.
Перевожу на русский: мы обнаружили, что в нашей нейронке нейрон "Ближний Восток" связан с нейроном "терроризм", а нейрон "иммиграция" связан с нейроном "Латинская Америка", аяяй!
Мой коммент в том треде (один из):
Молодец, нейронка! Это одна из её задач (финальная или инструментальная) — искать корреляции.
А что ей на это отвечают?
Могли бы ответить "мы, как самые умные учёные из палаты мер и весов, собрали исчерпывающую статистику по всему миру и установили, что в нём нет такой статистической зависимости, которую нейронка нашла в предложенном датасете".
Но они этого не сказали, а всего лишь сказали: "нам не нравится, что нейронка нашла такую зависимость". Это примерно как негласный (или гласный) запрет называть цвет кожи преступника, если он не белый. Wishful thinking постулирует, что если про этот фактор, отличающий мир от мира розовых пони, не говорить (в том числе не показывать его искусственным нейронкам), то реальный мир превратится в целевой мир розовых пони. Инженерный thinking же говорит, что нейронку хотят заставить не замечать неудобные факты реального мира, отличающие его от мира розовых пони.
( Ещё мысли про искусственные и естественные интеллекты )