Клонирование голоса

Клонирование звука (англ. voice changing, voice cloning) — это технология, реализующая изменение голоса человека, производимая с помощью программно-аппаратных средств, в режиме как реального времени, так и в отложенном пакетном режиме.

Технология позволяет моделировать персональные характеристики речи человека с достаточно полным совпадением с оригиналом, называемым «мишенью копирования».

Общая оценка технологии

В настоящее время сравнительно хорошо развиты системы распознавания речи. Они используются в голосовом управлении различными бытовыми приборами (в телефонах, автомобильных аудиосистемах, и заканчивая стиральными машинами). Обратный процесс — извлечение слов из аудио сигнала и синтез речи встречает ряд трудностей.

Программные продукты

Программы считаются принадлежащими категории «Voice Changing Software», или «Voice changer»:

  • Morphvox
  • Voice changer
  • Voice Anonymizer

Также SDK пакеты:

Услуга через сайт и телефон

Ранее, некоторые компании на коммерческой основе услугу изменения голоса абонента по телефону в режиме реального времени. Производилось это следующим образом[источник не указан 639 дней]:

  1. Предварительно абонентом (заказчиком) на web-сайте заказывался обратный звонок на свой телефон и звонок на телефон «мишени копирования» и системе предоставлялись образцы голосов заказчика и «мишени копирования»;
  2. Затем абонент заказывал обратный звонок на свой телефон и телефон интересующего его абонента. Система соединяла абонента, сигнал от него проходил через сервер компании, где менялись частотные характеристики и тембральная окраска голоса на параметры голоса человека — «мишени копирования». Абонент слышал слова заказчика, но для него эти слова (якобы) звучали голосом человека — «мишени копирования».

Описание технологии

Технология клонирования речи в условиях телефонного разговора в режиме реального времени базируется на известных алгоритмах математической обработки сигнала-носителя голоса[1] [2, 4]. При этом используются методы DFT анализа частот в дискретном сигнале (методом специального преобразования Фурье), полученном оцифровкой аналогового телефонного сигнала с применением узкополосного речевого кодека G.729[2] [5, 6, 7, 8]. Синтез измененной речи на основе сигнал-носителя, то есть получившийся «клонированный голос» реализует возможность максимального сохранения персональных акустических характеристик копируемого исходного голоса: фонетических особенностей произношения, акцента и даже артефактов такого рода, как заикание[3] [9]. Таким образом идентифицировать искусственность говорящего невозможно даже при специальной обработке и математическом анализе исходного телефонного сигнала. Незаконное использование технологии клонирования речи строго исключается в соответствии со специальной программой защиты онлайн сервиса, предоставляющего данную услугу.

Предшествующий уровень

Существующие сейчас системы создания машинной речи хорошо зарекомендовали себя в определенных технических нишах: в навигационных системах автомобилей, наручных часах, электронных «читающих» словарях-переводчиках и так далее. В подобных системах не ставится задача подражания голосу конкретного человека, поэтому получаемая машинная речь также не является персонифицированной, и легко узнается по причине своего ярко выраженного искусственного происхождения.

Ранее попытки синтезировать речь конкретного человека базировались на принципе создания «ядра» речевого клона, который содержит полный набор акустических, фонетических и просодических признаков — индивидуальных особенностей речи. Для этого требовалось наличие довольно подробной персонифицированной базы данных «копируемого» голоса. Человеку, голос которого требовалось скопировать, необходимо было прочитать длинный подготовленный текст, специально разработанный и содержащий в себе большое количество фонем, для максимального выявления особенностей речи говорящего.

Это представляло определенные трудности, так как известно, что обычный человек утомляется даже после 15-ти минут непрерывного чтения, а после 20 минут чтения его голос может и вовсе сорваться. Даже для профессионального диктора 45 минут непрерывного чтения с сохранением всего комплекса индивидуальных характеристик речи — довольно трудная задача. Требования к качеству записи голоса также предъявлялись весьма высокие — требовалось исключение различного рода шумов, способных помешать моделированию. Полученная таким образом персонифицированная запись исходного голоса подвергалась частотному анализу и математической обработке, причем вычислительный процесс часто занимал не одни сутки. После этого индивидуальная база данных голоса конкретного человека могла использоваться синтезатором речи. Естественно, длительность процесса кодирования и главное — необходимость записи эталонной речи в условиях студии существенно сужало спектр применения системы копирования речи в обычных условиях.

Примечания

  1. Abe M., Nakamura S., Shikano K. and Kuwabara H. «Voice conversion through vector quantization», in Proc. of the Int. Conf. on Acoust., Speech and Sig. Proc. ICASSP, New York, USA, Apr. 1988, vol. 1, pp. 655—658.
  2. Levine S. and Smith J.O. «A sines+transients+noise audio representation for data compression and time/pitch scale modifications», in Proc. 105th Conv. Audio Eng. Soc., preprint #4781, Sep. 1998.
  3. Huang X., Acero A., Hon H-W. «Spoken Language Processing: a guide to theory, algorithms, and system development», Prentice Hall, NJ, 2001. — p. 980.

Литература

  1. Б. М. Лобанов, Л. И. Цирульник «Компьютерный синтез и клонирование речи», Минск «Белорусская Наука», 2008, 316 стр.
  2. Abe M., Nakamura S., Shikano K. and Kuwabara H. «Voice conversion through vector quantization», in Proc. of the Int. Conf. on Acoust., Speech and Sig. Proc. ICASSP, New York, USA, Apr. 1988, vol. 1, pp. 655–658.
  3. Patent No.: US 6615174B1, Sep. 2, 2003.
  4. ITU-T Rec. G.729, «Coding of speech at 8 kbit/s using conjugate-structure algebraic-code-excited linear — prediction (CS-ACELP)», Mar. 1996.
  5. Levine S. and Smith J.O. «A sines+transients+noise audio representation for data compression and time/pitch scale modifications», in Proc. 105th Conv. Audio Eng. Soc., preprint #4781, Sep. 1998.
  6. Talkin D. «Robust algorithm for pitch tracking» in «Speech Coding and Synthesis», Kleijn, W.B. and Palival, K.K. Eds. Elsevier, Amsterdam, Netherlands, 1995.
  7. Grocholevski S. «First Database for Spoken Polish», in Proc. Int. Conf. On Language Resources and Evaluation, Grenada, 1998, pp. 1059–1062.
  8. KY Lee, Y Zhao, «Statistical Conversion Algorithms of Pitch Contours Based on Prosodic Phrases». Proceedings of the International Conference «Speech Prosody 2004». (SP 2004)", Nara, Japan March 23-26 2004.
  9. Huang X., Acero A., Hon H-W. «Spoken Language Processing: a guide to theory, algorithms, and system development», Prentice Hall, NJ, 2001. — p. 980.

Read other articles:

Region of Massachusetts, United States 42°20′N 72°50′W / 42.333°N 72.833°W / 42.333; -72.833 This article has multiple issues. Please help improve it or discuss these issues on the talk page. (Learn how and when to remove these template messages) This article's tone or style may not reflect the encyclopedic tone used on Wikipedia. See Wikipedia's guide to writing better articles for suggestions. (May 2015) (Learn how and when to remove this template message) Th...

 

Artikel ini sebatang kara, artinya tidak ada artikel lain yang memiliki pranala balik ke halaman ini.Bantulah menambah pranala ke artikel ini dari artikel yang berhubungan atau coba peralatan pencari pranala.Tag ini diberikan pada Oktober 2022. Jessie MurrayLahir(1867-02-09)9 Februari 1867Hazaribagh, Kemaharajaan BritaniaMeninggal25 September 1920(1920-09-25) (umur 53)Twickenham, London, InggrisKebangsaanInggrisPendidikan London School of Medicine for Women University of Durham (MB, BS) ...

 

イスラームにおける結婚(イスラームにおけるけっこん)とは、二者の間で行われる法的な契約である。新郎新婦は自身の自由な意思で結婚に同意する。口頭または紙面での規則に従った拘束的な契約は、イスラームの結婚で不可欠だと考えられており、新郎と新婦の権利と責任の概要を示している[1]。イスラームにおける離婚は様々な形をとることができ、個�...

Nova Auroracomune LocalizzazioneStato Brasile Stato federato Goiás MesoregioneSul Goiano MicroregioneCatalão AmministrazioneSindacoVilmar Dias Carneiro TerritorioCoordinate18°03′31″S 48°15′17″W / 18.058611°S 48.254722°W-18.058611; -48.254722 (Nova Aurora)Coordinate: 18°03′31″S 48°15′17″W / 18.058611°S 48.254722°W-18.058611; -48.254722 (Nova Aurora) Altitudine719 e 737 m s.l.m. Superficie302,655 km² Abitanti2&#...

 

Museum Sejarah Alam PeabodyBagian luar Museum PeabodyNew Haven, Connecticut, ASDidirikan1866LokasiNew Haven, ConnecticutKoordinat41°19′03″N 72°55′12″W / 41.317538°N 72.919863°W / 41.317538; -72.919863JenisSejarah AlamDirekturDavid Skelly (sejak Juli 2014)PemilikUniversitas YaleSitus webhttp://peabody.yale.edu/ Museum Sejarah Alam Peabody di Universitas Yale adalah salah satu museum sejarah alam universitas tertua, terbesar dan paling banyak mendapatkan laba...

 

此條目可参照英語維基百科相應條目来扩充。 (2021年5月6日)若您熟悉来源语言和主题,请协助参考外语维基百科扩充条目。请勿直接提交机械翻译,也不要翻译不可靠、低品质内容。依版权协议,译文需在编辑摘要注明来源,或于讨论页顶部标记{{Translated page}}标签。 约翰斯顿环礁Kalama Atoll 美國本土外小島嶼 Johnston Atoll 旗幟颂歌:《星條旗》The Star-Spangled Banner約翰斯頓環礁�...

Debating chamber of the Senedd Political system This article is part of a series within thePolitics of the United Kingdom on thePolitics of Wales The CrownThe Monarch Charles III Heir Apparent William, Prince of Wales Prerogative Royal family Succession Privy Council King-in-Parliament Lord-lieutenant Llwynywermod England and Wales Laws in Wales Acts 1535 and 1542 Principality of Wales Welsh republicanism GovernmentWelsh GovernmentGething government (list) First Minister (list) Rt Hon Vaughan...

 

1966 Situationist pamphlet Cover. On the Poverty of Student Life: A Consideration of Its Economic, Political, Sexual, Psychological and Notably Intellectual Aspects and of a Few Ways to Cure it (French: De la misère en milieu étudiant considérée sous ses aspects économique, politique, psychologique, sexuel et notamment intellectuel et de quelques moyens pour y remédier) is a pamphlet first published by students of the University of Strasbourg and the Situationist International (SI) in 1...

 

Bagian dari seri artikel mengenaiMekanika klasik F → = m a → {\displaystyle {\vec {F}}=m{\vec {a}}} Hukum kedua Newton Sejarah Garis waktu Cabang Benda langit Dinamika Kinematika Kinetika Kontinuum Statika Statistika Terapan Dasar Asas D'Alembert Daya mekanik Energi kinetik potensial Gaya Impuls Inersia / Momen inersia Kecepatan Kelajuan Kerangka acuan Usaha mekanik Kerja maya Massa Momen Momentum Momentum sudut Pasangan Percepatan Ruang Torsi Waktu Rumus padding-bottom:0.5...

The Star Ferry Company Ltd.Dermaga Star Ferry di Tsim Sha TsuiJenisLayanan feri melintasi Pelabuhan VictoriaDidirikan1888PendiriDorabjee Naorojee MithaiwalaKantorpusatHong KongSitus webstarferry.com.hk Star Ferry The ship Meridian Star Hanzi tradisional: 天星小輪 Alih aksara Mandarin - Hanyu Pinyin: Tiānxīng Xiǎolún Kejia (Hakka) - Romanisasi: Tien1sin1 Siau3lin2 Yue (Kantonis) - Jyutping: tin1 sing1 siu2 leon4 Rute Star Ferry pada 2010. Star Ferry pada tahun 1920-an. Star Ferry sedan...

 

Football leagueWomen's PremiershipFounded2004Country Northern IrelandConfederationUEFADivisions1Number of teams9Level on pyramid1Relegation toWomen's ChampionshipDomestic cup(s)Irish Women's CupLeague cup(s)NIFL Women's Premiership League CupInternational cup(s)UEFA Women's Champions LeagueCurrent championsGlentoran (10th title) (2023 Women's Premiership)Most championshipsGlentoran (10 titles)TV partnersDAZNWebsitenifootballleague.com/womens-premiershipCurrent: 2024 Women's Premiers...

 

Сент-Винсент и Гренадиныангл. Saint Vincent and the Grenadines Флаг Герб Девиз: «лат. Pax et justitia»«Мир и справедливость» Гимн: «St Vincent Land So Beautiful» Сент-Винсент и Гренадины на карте мира Дата независимости 27 октября 1979 (от Великобритании) Официальный язык английский Столица Кингстаун К�...

4th-century book by Augustinus van Hippo Part of a series onAugustine of HippoAugustine in The Four Doctorsof the Western Church Augustinianism Divine command Amillennialism Original sin Invisible church Predestination Incurvatus in se Augustinian hypothesis Just war Augustinian theodicy Allegorical interpretations of Genesis Works The City of God Confessions On Christian Doctrine Soliloquies Enchiridion On the Trinity Harmony of the Gospels Influences and followers Plotinus Saint Monica Ambr...

 

Australian Open 2020Sport Tennis Data14 gennaio – 2 febbraio Edizione108ª CategoriaGrande Slam (ITF) SuperficieCemento Montepremi71.000.000 A$ LocalitàMelbourne, Victoria, Australia ImpiantoMelbourne Park CampioniSingolare maschile Novak Đoković Singolare femminile Sofia Kenin Doppio maschile Rajeev Ram / Joe Salisbury Doppio femminile Tímea Babos / Kristina Mladenovic Doppio misto Barbora Krejčíková / Nikola Mektić Singolare ragazzi Harold Mayot Singolare ragazze Victoria Jiménez...

 

Musical instrument This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Archlute – news · newspapers · books · scholar · JSTOR (January 2024) (Learn how and when to remove this message) ArchluteArchlute by Matteo Sellas, 17th CenturyClassification Necked bowl lutes String instruments Related instruments List Ang�...

Economy of Quebec[1][2]CurrencyCanadian dollar (CAD)Fiscal yearApril 1 to March 31Trade organisationsCUSMA, OECD,StatisticsGDPCAD$ 504,5B (2021)[3]GDP per capitaCAD$ 52,384 (2018)[3]Inflation (CPI)6.2% (January 2023)Population below poverty line6.4% (2020)Unemployment6.3% (2021)[3]ExternalExportsC$ 223,3B (2021)goods: 75.7 %services: 24.3 %international: 61,3 % %interprovincial: 38,7 %Export goodsaluminiumairplanespaperairplane pa...

 

Battle during Operation Torch Battle of Port LyauteyPart of Operation Torch of World War IIMap of the American landing at Port Lyautey, French defensive and counter-attack positions in redDate8–10 November 1942LocationPort Lyautey, French Morocco, North AfricaResult American victoryBelligerents  United States  Vichy FranceCommanders and leaders Dwight D. Eisenhower George S. Patton Lucian Truscott Charles PetitCasualties and losses 79 killed[1] Heavy; over 400 casualtiesvt...

 

UBL3 بنى متوفرة بنك بيانات البروتينOrtholog search: PDBe RCSB قائمة رموز معرفات بنك بيانات البروتين 2GOW معرفات أسماء بديلة UBL3, HCG-1, PNSC1, ubiquitin like 3 معرفات خارجية الوراثة المندلية البشرية عبر الإنترنت 604711 MGI: MGI:1344373 HomoloGene: 5153 GeneCards: 5412 نمط التعبير عن الحمض النووي الريبوزي المزيد من بيانات التع...

British television series (1996–1998) For the 2019 television series, see The Demon Headmaster (2019 TV series). The Demon HeadmasterGenreScience fictionHorrorCreated byGillian CrossStarringTerrence HardimanFrances AmeyGunnar Atli CautheryThomas SzekeresCountry of originUnited KingdomNo. of series3No. of episodes19ProductionRunning time25 minutesOriginal releaseNetworkBBC1Release2 January 1996 (1996-01-02) –22 January 1998 (1998-01-22) The Demon Headmaster is a British tele...

 

Vulgar words in the Cantonese language For profanities in Mandarin Chinese, see Mandarin Chinese profanity. For profanities in Hokkien, see Hokkien profanity. The five most common Cantonese profanities, vulgar words in the Cantonese language are diu (屌/𨳒), gau (㞗/𨳊/鳩), lan (𡳞/𨶙/撚), tsat (杘/𨳍/柒) and hai (㞓/屄/閪), where the first (diu) literally means fuck, hai is a word for female genitalia and gau refers to male genitalia.[1] They are sometimes collecti...