ФТН развија технологију која омогућава рачунарима да разумеју и „говоре“ као људи

На Факултету техничких наука у Новом Саду развија се напредна технологија која комбинује звук и слику како би комуникација између човека и рачунара била што природнија. Реч је о систему који може да разуме говор чак и у буци, да „чита“ покрете усана и да одговара синтетизованим гласом праћеним реалистичном мимиком лица.

У оквиру овог пројекта, у суботу, 25. априла, са почетком у 10 часова, у згради Научно-технолошког парка у Новом Саду биће одржан завршни догађај студентског такмичења AI-SPEAK. Том приликом биће представљени радови студената који су, применом напредних метода машинског учења, анимирали ликове говорника синхронизоване са аутоматски генерисаним говором на српском језику. Поред проглашења победника, посетиоци ће имати прилику да виде и ревијалне радове из области мултимодалне комуникације човек–машина.

Пројекат „Multimodal multilingual human-machine speech communication (AI-SPEAK)“, који се реализује у оквиру програма ПРИЗМА Фонда за науку Републике Србије, надовезује се на дугогодишње искуство Катедре за телекомуникације и обраду сигнала ФТН-а. Њихови ранији системи говорних технологија већ се користе широм региона, а сада је циљ развој система који ће комуницирати са корисницима на начин сличан људском.

Ова технологија има потенцијал да значајно унапреди свакодневну интеракцију са уређајима – од паметних асистената и апликација за учење језика, до медицинских помагала и система који олакшавају приступ рачунарима и интернету особама са инвалидитетом.

Пројекат се завршава током ове године, његова укупна вредност износи близу 300.000 евра, а тим чине наставници и асистенти Катедре за телекомуникације и обраду сигнала и Катедре за анимацију у инжењерству. Руководилац пројекта је проф. др Милан Сечујски.

Фокус истраживања је на развоју напредних алгоритама машинског учења за аудио-визуелну говорну комуникацију. Посебан акценат стављен је на унапређење препознавања и синтезе говора на српском и другим језицима, уз коришћење мултимодалног приступа – комбинације звука и слике.

То значи да ће будући системи моћи да препознају говор и у бучним условима, ослањајући се и на визуелне информације, попут покрета усана. Истовремено, аутоматски генерисан говор биће праћен анимираним виртуелним ликовима са реалистичном мимиком.

У циљу развоја ових система, истраживачи су креирали две вишејезичне базе података – једну снимљену у контролисаним условима и другу, обимнију, засновану на јавно доступним видео-снимцима који одражавају комуникацију у реалним условима. Паралелно се развијају алгоритми који омогућавају укључивање визуелних информација у постојеће системе за препознавање и синтезу говора на српском језику.

Више информација о догађају доступно је на званичној страници пројекта.

Предавање: ,,Крв, челик и пепео Пакс Романа, шерпе, лонци и гробови сељака” у Музеју Војводине у четвртак, 23. априла

Преузмите андроид апликацију.

ОзнакеАИ рачунари Факултет техничких наука

Погледајте још