Спікерфон який може заглушувати галасливі зони та настирливих людей

Знайдено рішення проти колеги, який постійно перебиває всіх, — пристрій, що дозволяє кільком людям вести дві розмови одночасно і здатний ізолювати або заглушити кожен голос. Для цього використовуються само рухливі мікрофони-роботи та нейромережа.

Конус тиші

Новий динамік використовує сім мікрофонів, що «самонаводяться», які поділяють кімнату на так звані «зони мови», дозволяючи відстежувати та визначати голоси різних людей, навіть якщо вони рухаються.

Щобільше, автори дослідження вважають, що це дозволить не лише відокремити різні розмови, а й заглушити галасливі ділянки — чи настирливих людей, наприклад, під час відеоконференції.

Згідно з описом роботи, опублікованому в журналі Nature Communications, пристрій включає так званий рій роботів. Крихітні мікрофони розміром з наперсток спілкуються між собою і пересуваються на крихітних колесах у різні точки, як роботи-пилососи, а за необхідності повертаються на станцію зарядки.

«Використовуючи акустичний рій роботів, нам вперше вдалося відстежити місцеперебування кількох людей, які розмовляють у кімнаті, та відокремити їхню промову», — прокоментував провідний співавтор дослідження Малек Ітані зі Школи комп’ютерних наук та інжинірингу Пола Г. Аллена.

Рух на звук

Як пояснюють дослідники, щоб орієнтуватися у просторі, прототипні роботи використовують технологію, що нагадує високочастотну ехолокацію.

Це забезпечує таку необхідну мобільність. Розподіляючи мікрофони якнайдалі, нейромережа, що обробляє дані, може робити більш точні обчислення. Поки що роботи можуть переміщатися лише поверхнею столу, оскільки вони здатні орієнтуватися лише у двовимірному просторі.

«Ми розробили нейромережі, які залучають сигнали з тимчасовою затримкою, щоб відокремити промову кожної людини та її переміщення у просторі, — пояснює провідний співавтор То Чао Чен. — Отже, четверо людей можуть вести дві розмови одночасно, і кожен голос можна буде ізолювати».

Зона тиші

Експерименти у світі показали дивовижні результати.

Дослідники випробовували рій роботів у таких місцях, як офіси та кухні, де одночасно розмовляли від трьох до п’яти осіб, причому системі заздалегідь не було відомо про розташування голосів.

Попри ці перешкоди, пристрій зміг локалізувати голоси 90% часу, перебуваючи на відстані 0,5 м один від одного. Медіанна помилка була досить невеликою – менш як 15 см для всіх сценаріїв, що досить точно.

Однак, поки пристрій працює недостатньо швидко. У середньому системі потрібно 1,82 секунд, щоб обробити 3 секунди звуку. І це може створювати перешкоди під час відеоконференції.

Далі науковці планують застосувати ці технології у фізичному просторі, в реальному часі, використовуючи мікрофони, що локалізують, щоб зробити те ж саме, що шумопригнічувальні навушники — але вже з усією кімнатою.

БІЛЬШЕ ЦІКАВОГО:

Джерело: Futurism

Читайте также:

Adobe представила VideoGigaGAN — модель для покращення якості відео

4 з 10 перекладачів втрачають роботу через штучниий інтелект

Перекладач із собачого: які технології допоможуть вам краще зрозуміти вашого вихованця

Штучний інтелект навчився покращувати смак пива