vitus_wagner: My photo 2005 (Default)
[personal profile] vitus_wagner
https://www.fastcodesign.com/90139019/a-simple-design-flaw-makes-it-astoundingly-easy-to-hack-siri-and-alexa

Тут пишут, что современные компьютерные микрофоны имеют более широкий частотный диапазон, чем человеческое ухо, а современные системы распознавания голоса вполне способны понять настолько "высокий" голос, что люди его попросту не слышат.

Поэтому можно незаметным для хозяина способом манипулировать устройствами с голосовым управлением. Например, поменять пункт назначения у навигатора машины, или заставить умный дом отпереть дверь.

Date: 2017-09-07 05:11 am (UTC)
From: [personal profile] kouzdra
Тут кстати есть забавная бага - "люди слышат" - я например (по крайней в молодости) прекрасно слышал писк трансформатора строчной развертки (25 kHz) из цветного телевизора - который большинство не слышит

Хорошая кстати идея для детективного сюжета

Date: 2017-09-07 08:12 am (UTC)
p_govorun: (Default)
From: [personal profile] p_govorun
15625 Hz

В молодости, похоже, это все слышат. А потом перестают.

Date: 2017-09-07 11:54 am (UTC)
From: [personal profile] sizif73
Слышал байку, что есть приложения для телефонов якобы популярные у школоты, которые ставят, например на то же смс, звуки, которые не слышат взрослые.

Date: 2017-09-18 09:42 pm (UTC)
fk0: (Default)
From: [personal profile] fk0
В телевизоре строчная развертка -- 15625Гц. Слышит почти каждый.

Date: 2017-09-07 08:03 am (UTC)
ext_1262629: (Default)
From: [identity profile] cats-shadow.cats-home.net
Погоди. Это сначала надо, чтоб в устройство была заложена возможность распознавания и идентификации этих самых команд на ультразвуке. Т.е. фактически бэкдор должен быть.
Или хочешь сказать, что если я просто параллельным переносом сдвину спектр вверх за 16кГц, то распознавалка его съест? Не проверяя по диапазону частот?

Date: 2017-09-07 08:07 am (UTC)
ext_1262629: (Default)
From: [identity profile] cats-shadow.cats-home.net
Посмотрел ролик. Или эпик фэйл у Apple, или фейк.
Ну не верится мне, что такой примитивный ляп допущен. :)

Date: 2017-09-07 08:15 am (UTC)
p_govorun: (Default)
From: [personal profile] p_govorun
Это не "примитивный ляп". Они ставили цель "распознать голос", а не "распознать голос таким образом, как это делает человек". В итоге они добились распознавания, но прихватили много лишнего.

Была статья про звуки, которые человек слышит как шипение, а робот понимает слова. Антикапча такая :-)

Date: 2017-09-07 11:08 am (UTC)
ext_1262629: (Default)
From: [identity profile] cats-shadow.cats-home.net
У голоса человеческого есть достаточно чётко ограниченный спектр. В частности, именно им и ограничена полоса пропускания в телефонии: до 3кГц.

Дальше начинается работа со всякими распознавалками музыки, которым нужна более широкая полоса.

Для управления ультразвуком слова не нужны, там достаточно бинарной кодировки (единички/нолики -- наше всё, ага).

Так что распознавание слов в сдвинутом по частоте спектре -- однозначный ляп. IMHO.

Date: 2017-09-07 11:09 am (UTC)
ext_1262629: (Default)
From: [identity profile] cats-shadow.cats-home.net
"Забвыли поставить ограничение" -- ляп и есть :)

Date: 2017-09-07 08:34 am (UTC)
livelight: (hot)
From: [personal profile] livelight
Небось, просто не предусмотрели проверки на диапазон частот. А то потом обидится кто-то на дискриминацию по высоте голоса. Например: эти грубые сексистские свиньи сами говорят басом, а тонкий женский голос игнорируют, и Сири тому же научили, ну и начнётся :)

Date: 2017-09-07 12:13 pm (UTC)
From: [personal profile] sur_kg
Посмотрел статью в PDF по ссылке из новости.

Это НЕ баг/фича софта. Это даже НЕ баг/фича цифровой части железа.

А дело вот в чем:

Для начала, немного о принципе работы приема звука в телефоне. Микрофон переводит упругие волны в воздухе в электрический аналоговый сигнал (напряжение (или ток), меняющееся со временем). Затем этот сигнал оцифровывается (в 95% потребительской электроники сегодня частота дискретизации при оцифровке - 48 КГц). НО перед оцифровкой, для того чтобы избежать алиасинга, сигнал фильтруется с подавлением частот выше 24 КГц.

Атакующие перехватывают слова, говоримые владельцем телефона на публике, разбивают их на звуки и составляют из этих звуков команду, которую они будут передавать телефону (например "о-кей гу-гл"). Пока эта команда у атакующих в виде обычного звука - сигнала на частотах до (условно) 3 КГц.

Потом самое главное. Атакующие АМПЛИТУДНОЙ МОДУЛЯЦИЕЙ накладывают этот сигнал на несущую частоты 25 КГц. И передают модулированный сигнал в виде звука (точнее, уже ультразвука) телефону жертвы.

Если бы микрофон в телефоне жертвы был идеален, то весь модулированный сигнал БЫЛ БЫ СРЕЗАН (удален) фильтром перед оцифровкой. Но (как пишут авторы статьи) реальные микрофоны, из-за имеющихся в них некоторых нелинейностей, в небольшой степени РАБОТАЮТ КАК ДЕМОДУЛЯТОРЫ. То есть сигнал, передаваемый микрофоном на оцифровку, содержит демодулированный сигнал, эквивалентный тому, который сделали атакующие перед тем, как его модулировать. При этом модулированный сигнал на аналоговом выходе микрофона может присутствовать или отсутствовать (если микрофон не очень качественный), но даже если он присутствует - то он будет срезан перед оцифровкой, то есть признак атаки будет скрыт.

Таким образом, на выходе оцифровщика микрофона в телефоне жертвы получается цифровой сигнал, АБСОЛЮТНО ИДЕНТИЧНЫЙ сигналу, выдаваемому, когда легитимный владелец дает своему телефону голосовую команду.
Edited (орфография) Date: 2017-09-07 12:19 pm (UTC)

Date: 2017-09-07 07:35 pm (UTC)
livelight: (hot)
From: [personal profile] livelight
Спасибо за разъяснения!
Не читать же всем статью по ссылке :)

Date: 2017-09-18 09:52 pm (UTC)
fk0: (Default)
From: [personal profile] fk0
Скорей проблема не в электретном микрофоне (они очень линейные и с ровной АЧХ), а в том, что усилитель загоняется в режим ограничение сигнала (вот и нелинейность) слишкой большой амплитудой. В том числе и первый каскад усиления -- JFET-транзистор расположенный в самом микрофоне, до вообще каких-либо аналоговых фильтров. Почему так происходит: система АРУ-то есть, но она скорей программная и управляется как раз тем самым отфильтрованным сигналом содержащим уже только спектр человеческой речи, ультразвук ей ни по чем. Вот и результат. Старые аналоговые системы подавлялись мощным ультразвуком (АРУ убирала усиление в ноль), современные наоборот, подавить нельзя, зато можно навязать что-то свое.

Date: 2017-09-07 01:45 pm (UTC)
From: [personal profile] jamhed
А разве не надо телефон на голос хозяина обучать предварительно? Я вот пытался ok, google обучить реагировать, так и то не с первого раза.

Date: 2017-09-07 04:23 pm (UTC)
webushka: (Default)
From: [personal profile] webushka
Эта хохма была в какой-то серии сериала Avengers из 60-х - шпиён так донесения передавал на фоне обычного разговора.

Profile

vitus_wagner: My photo 2005 (Default)
vitus_wagner

April 2026

S M T W T F S
    123 4
5 6 7 89 1011
12 13 1415161718
19202122232425
2627282930  

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Apr. 14th, 2026 07:03 pm
Powered by Dreamwidth Studios