vitus_wagner | Ультразвуковые команды

https://www.fastcodesign.com/90139019/a-simple-design-flaw-makes-it-astoundingly-easy-to-hack-siri-and-alexa

Тут пишут, что современные компьютерные микрофоны имеют более широкий частотный диапазон, чем человеческое ухо, а современные системы распознавания голоса вполне способны понять настолько "высокий" голос, что люди его попросту не слышат.

Поэтому можно незаметным для хозяина способом манипулировать устройствами с голосовым управлением. Например, поменять пункт назначения у навигатора машины, или заставить умный дом отпереть дверь.

Crossposts: https://vitus-wagner.livejournal.com/1315376.html

Flat | Top-Level Comments Only

From:

kouzdra

Тут кстати есть забавная бага - "люди слышат" - я например (по крайней в молодости) прекрасно слышал писк трансформатора строчной развертки (25 kHz) из цветного телевизора - который большинство не слышит

Хорошая кстати идея для детективного сюжета

From:

vitus_wagner

С возрастом способность воспринимать высокие частоты падает.

Где-то я читал, и по-моему даже в ЖЖ постил, как какой-то хитрый владелец магазина в Англии, когда у него на крыльце повадились подростки тустоваться, поставил свисток на 20КHz. Взрослые покупатели его не слышат, а подросткам - некомфортно.

From:

p_govorun

15625 Hz

В молодости, похоже, это все слышат. А потом перестают.

From:

sizif73

Слышал байку, что есть приложения для телефонов якобы популярные у школоты, которые ставят, например на то же смс, звуки, которые не слышат взрослые.

From:

fk0

В телевизоре строчная развертка -- 15625Гц. Слышит почти каждый.

From:

cats-shadow.cats-home.net

Погоди. Это сначала надо, чтоб в устройство была заложена возможность распознавания и идентификации этих самых команд на ультразвуке. Т.е. фактически бэкдор должен быть.
Или хочешь сказать, что если я просто параллельным переносом сдвину спектр вверх за 16кГц, то распознавалка его съест? Не проверяя по диапазону частот?

From:

cats-shadow.cats-home.net

Посмотрел ролик. Или эпик фэйл у Apple, или фейк.
Ну не верится мне, что такой примитивный ляп допущен. :)

From:

p_govorun

Это не "примитивный ляп". Они ставили цель "распознать голос", а не "распознать голос таким образом, как это делает человек". В итоге они добились распознавания, но прихватили много лишнего.

Была статья про звуки, которые человек слышит как шипение, а робот понимает слова. Антикапча такая :-)

From:

cats-shadow.cats-home.net

У голоса человеческого есть достаточно чётко ограниченный спектр. В частности, именно им и ограничена полоса пропускания в телефонии: до 3кГц.

Дальше начинается работа со всякими распознавалками музыки, которым нужна более широкая полоса.

Для управления ультразвуком слова не нужны, там достаточно бинарной кодировки (единички/нолики -- наше всё, ага).

Так что распознавание слов в сдвинутом по частоте спектре -- однозначный ляп. IMHO.

From:

vitus_wagner

По очевидным соображениям в устройство должна быть заложена возможность распознавания разных человеческих голосов - от баса до фальцета.
Логично, что при этом забыли поставить ограничение на диапазон, воспринимаемый человеческим ухом (тем более, что он у каждого конкретного уха - разный).

From:

cats-shadow.cats-home.net

"Забвыли поставить ограничение" -- ляп и есть :)

From:

livelight

Небось, просто не предусмотрели проверки на диапазон частот. А то потом обидится кто-то на дискриминацию по высоте голоса. Например: эти грубые сексистские свиньи сами говорят басом, а тонкий женский голос игнорируют, и Сири тому же научили, ну и начнётся :)

From:

sur_kg

Посмотрел статью в PDF по ссылке из новости.

Это НЕ баг/фича софта. Это даже НЕ баг/фича цифровой части железа.

А дело вот в чем:

Для начала, немного о принципе работы приема звука в телефоне. Микрофон переводит упругие волны в воздухе в электрический аналоговый сигнал (напряжение (или ток), меняющееся со временем). Затем этот сигнал оцифровывается (в 95% потребительской электроники сегодня частота дискретизации при оцифровке - 48 КГц). НО перед оцифровкой, для того чтобы избежать алиасинга, сигнал фильтруется с подавлением частот выше 24 КГц.

Атакующие перехватывают слова, говоримые владельцем телефона на публике, разбивают их на звуки и составляют из этих звуков команду, которую они будут передавать телефону (например "о-кей гу-гл"). Пока эта команда у атакующих в виде обычного звука - сигнала на частотах до (условно) 3 КГц.

Потом самое главное. Атакующие АМПЛИТУДНОЙ МОДУЛЯЦИЕЙ накладывают этот сигнал на несущую частоты 25 КГц. И передают модулированный сигнал в виде звука (точнее, уже ультразвука) телефону жертвы.

Если бы микрофон в телефоне жертвы был идеален, то весь модулированный сигнал БЫЛ БЫ СРЕЗАН (удален) фильтром перед оцифровкой. Но (как пишут авторы статьи) реальные микрофоны, из-за имеющихся в них некоторых нелинейностей, в небольшой степени РАБОТАЮТ КАК ДЕМОДУЛЯТОРЫ. То есть сигнал, передаваемый микрофоном на оцифровку, содержит демодулированный сигнал, эквивалентный тому, который сделали атакующие перед тем, как его модулировать. При этом модулированный сигнал на аналоговом выходе микрофона может присутствовать или отсутствовать (если микрофон не очень качественный), но даже если он присутствует - то он будет срезан перед оцифровкой, то есть признак атаки будет скрыт.

Таким образом, на выходе оцифровщика микрофона в телефоне жертвы получается цифровой сигнал, АБСОЛЮТНО ИДЕНТИЧНЫЙ сигналу, выдаваемому, когда легитимный владелец дает своему телефону голосовую команду.

Edited (орфография) Date: 2017-09-07 12:19 pm (UTC)

From:

livelight

Спасибо за разъяснения!
Не читать же всем статью по ссылке :)

From:

fk0

Скорей проблема не в электретном микрофоне (они очень линейные и с ровной АЧХ), а в том, что усилитель загоняется в режим ограничение сигнала (вот и нелинейность) слишкой большой амплитудой. В том числе и первый каскад усиления -- JFET-транзистор расположенный в самом микрофоне, до вообще каких-либо аналоговых фильтров. Почему так происходит: система АРУ-то есть, но она скорей программная и управляется как раз тем самым отфильтрованным сигналом содержащим уже только спектр человеческой речи, ультразвук ей ни по чем. Вот и результат. Старые аналоговые системы подавлялись мощным ультразвуком (АРУ убирала усиление в ноль), современные наоборот, подавить нельзя, зато можно навязать что-то свое.

From:

jamhed

А разве не надо телефон на голос хозяина обучать предварительно? Я вот пытался ok, google обучить реагировать, так и то не с первого раза.

From:

webushka

Эта хохма была в какой-то серии сериала Avengers из 60-х - шпиён так донесения передавал на фоне обычного разговора.

Flat | Top-Level Comments Only

Profile

vitus_wagner

My Website

April 2026

S	M	T	W	T	F	S
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

Page Summary

Style Credit

Style: Clarity for Paletteable by branchandroot
Resources: Holiday

Expand Cut Tags

No cut tags

Page generated Apr. 14th, 2026 07:03 pm

Журнал Витуса

Ультразвуковые команды

Ультразвуковые команды

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

Profile

April 2026

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags