System rozpoznawania mowy polskiej dla robota społecznego

pol Article in Polish DOI: 10.14313/PAR_222/27

Artur Zygadło *, Artur Janicki **, send Przemysław Dąbek *** * Politechnika Warszawska, Wydział Mechaniczny Energetyki i Lotnictwa ** Politechnika Warszawska, Wydział Elektroniki i Technik Informacyjnych, Instytut Telekomunikacji *** Przemysłowy Instytut Automatyki i Pomiarów PIAP

Download Article

Streszczenie

W artykule przedstawiono system automatycznego rozpoznawania mowy polskiej dedykowany dla robota społecznego. System oparty jest na bezpłatnej i otwartej bibliotece oprogramowania pocketsphinx (CMU Sphinx). Przygotowano zbiory nagrań: treningowy i testowy wraz z transkrypcjami. Zbiór treningowy obejmował głosy 10 kobiet i 10 mężczyzn i został przygotowany na podstawie audiobooków, natomiast zbiór testowy – głosy 3 kobiet i 3 mężczyzn nagrane w warunkach laboratoryjnych specjalnie na potrzeby pracy. Przygotowany zbiór fonemów dla języka polskiego, składający się z 39 fonemów, opracowany został na podstawie dwóch popularnych zbiorów dostępnych danych. Słownik fonetyczny opracowano za pomocą funkcjonalności konwersji grapheme-to-phoneme z biblioteki eSpeak. Model statystyczny języka dla tekstu referencyjnego składającego się z 76 komend wygenerowano za pomocą programu cmuclmtk (CMU Sphinx). Uczenie modelu akustycznego oraz test jakości rozpoznawania mowy przeprowadzono za pomocą programu sphinxtrain (CMU Sphinx). W warunkach laboratoryjnych uzyskano wskaźnik błędu rozpoznawania słów (WER) na poziomie 4% i błędu rozpoznawania zdań (SER) na poziomie 9%. Przeprowadzono też badania systemu w warunkach rzeczywistych na grupie testowej złożonej z 2 kobiet i 3 mężczyzn, uzyskując wstępne wyniki rozpoznawania na poziomie 10% (SER) z bliskiej odległości oraz 60% (SER) z odległości 3 m. Określono kierunki dalszych prac.

Słowa kluczowe

automatyczne rozpoznawanie mowy, command and control, robot społeczny

Automatic Speech Recognition System for Polish Dedicated for a Social Robot

Abstract

Automatic Speech Recognition system for Polish and dedicated for social robotics applications is presented. The system is based on free and open software library pocketsphinx (CMU Sphinx). Training and test databases were prepared with transcriptions; the training database comprised voices of 10 women and 10 men, and it was prepared based on audiobooks, whereas the test database comprised voices of 3 women and 3 men recorded in laboratory conditions as a part of the present work. A phoneme set for Polish consisting of 39 phonemes based on two popular sets from other researchers was prepared. The phonetic dictionary was obtained using graphemeto-phoneme conversion from the eSpeak tool for speech synthesis. The language statistic model for the reference text including 76 commands was generated using cmuclmtk tool (CMU Sphinx). Training of the acoustic model and test of quality of speech recognition was conducted using the sphinxtrain tool (CMU Sphinx). The following error rates were obtained for laboratory conditions: 4% (WER) and 9% (SER). Next, investigations of the system in relevant real environment were conducted. The initial, tentative results are about 10% (SER) for the close distance of a speaker to a microphone, and about 60% (SER) for 3 m speaker-microphone distance. Directions of future works are formulated. 

Keywords

automatic speech recognition, command and control, social robots

Bibliography

  1. Robotics 2020 – Multi-Annual Roadmap. ICT 2016 (ICT 25 & ICT 26).
  2. Fischinger D., Einramhof P., Papoutsakis K., Wohlkinger W., Mayer P., Panek P., Hofmann S., Koertner T., Weiss A., Argyros A., Vincze M., Hobbit, a care robot supporting independent living at home: First prototype and lessons learned. ”Robotics and Autonomous Systems“, Vol. 75, A, 2014, 60–78, DOI: 10.1016/j.robot.2014.09.029.
  3. Gonzalez-Pacheco V., Malfaz M., Fernandez F., Salichs M.A., Teaching human poses interactively to a social robot. “Sensors”, Vol. 13, No. 9/2013, 12406–12430, DOI: 10.3390/s130912406.
  4. Nishimuta I., Yoshii K., Itoyama K., Okuno H.G., Development of a robot quizmaster with auditory functions for speech-based multiparty interaction. [in:] IEEE/SICE International Symposium on System Integration, SII 2014, 328–333, DOI: 10.1109/SII.2014.7028059.
  5. Gomez R., Kawahara T., Nakamura K., Nakadai K., Multiparty human-robot interaction with distant-talking speech recognition. [in:] HRI’12 Proceedings of the 7th Annual ACM/IEEE International Conference on Human-Robot Interaction. 439–446, 2012, DOI: 10.1145/2157689.2157835.
  6. Gnjatović M., Tasevski J., Nikolić M., Mišković D., Borovac B., Delić V., Adaptive multimodal interaction with industrial robot. [in:] IEEE 10th Jubilee International Symposium on Intelligent Systems and Informatics, SISY 2012. 329–333, 2012, DOI: 10.1109/SISY.2012.6339538.
  7. Rogowski A., Analiza i synteza systemów sterowania głosowego w zautomatyzowanym wytwarzaniu, Oficyna Wydawnicza Politechniki Warszawskiej, 2012.
  8. Ondas S., Juhar J., Pleva M., Cizmar A., Holcer R., Service robot SCORPIO with robust speech interface. “International Journal of Advanced Robotic System”, Vol. 10, No. 3, 2013, DOI: 10.5772/54934.
  9. Jurafsky D., Martin J.H., Speech and language processing: an introduction to natural language processing, computational linguistics, and speech recognition. Pearson Prentice Hall, Upper Saddle River, N.J 2009.
  10. Janicki A., Wawer D., Automatic speech recognition for polish in a computer game interface. [in:] 2011 Federated Conference on Computer Science and Information Systems (FedCSIS), 711–716, 2011.
  11. Ziółko B., Jadczyk T., Skurzok D., Żelasko P., Gałka J., Pędzimąż T., Gawlik I., Pałka S., SARMATA 2.0 Automatic Polish Language Speech Recognition System, [in:] Sixteenth Annual Conference of the International Speech Communication Association, 2015.
  12. Marasek K., Koržinek D., Brocki Ł., System for Automatic Transcription of Sessions of the Polish Senate. „Archives of Acoustics”. Vol. 39, No. 4, 2014, 501–509, DOI: 10.2478/aoa-2014-0054.
  13. Zygadło A., System automatycznego rozpoznawania mowy polskiej na potrzeby robota społecznego, 2016.
  14. Gaida C., Lange P., Petrick R., Proba P., Malatawy A., Suendermann-Oeft D., Comparing open-source speech recognition toolkits. DHBW Stuttgart Technical Report, http://suendermann. com/su/pdf/oasis2014. pdf (2014).
  15. Jassem W.: Podstawy fonetyki akustycznej. Państwowe Wydawnictwo Naukowe, Warszawa 1973.
  16. [http://htk.eng.cam.ac.uk]
  17. [http://cmusphinx.sourceforge.net] – CMU Sphinx, Project by Carnegie Mellon University
  18. [https://sourceforge.net/projects/kaldi]
  19. [http://cmusphinx.sourceforge.net/wiki/research] – Research Using CMUSphinx
  20. [http://cmusphinx.sourceforge.net/wiki/tutorialam] – Training Acoustic Model For CMUSphinx
  21. [https://pl.hama.com/000424610000/hama-mikrofon-stoj-cy-cs-461]
  22. [http://www.phon.ucl.ac.uk/home/sampa/polish.htm]
  23. [http://espeak.sourceforge.net] – eSpeak text to speech
  24. [http://www.kirshenbaum.net/IPA/index.html] – Usenet IPA/ASCII transcription
  25. [http://www.speech.cs.cmu.edu/cgi-bin/cmudict] – The CMU Pronouncing Dictionary
  26. [http://www.mxlmics.com/microphones/web-conferencing/AC-404]