Векторизація формальних граматик для їх кластеризації засобами ML.NET

dc.contributor.authorСкрипник, Ірина Анатоліївна
dc.contributor.authorSkrypnyk, Iryna
dc.contributor.authorБезверхий, Анатолій Ігорович
dc.contributor.authorBezverkhyi, Anatoliy
dc.date.accessioned2025-12-07T11:47:46Z
dc.date.issued2025
dc.description.abstractUA: Формальні граматики широко використовуються в компіляторах, методах обробки природних мов, аналізі коду та тестуванні програм. Застосування методів машинного навчання до граматик відкриває нові можливості для автоматизованого аналізу, класифікації, кластеризації та оптимізації мовних моделей. Для застосування методів кластерного аналізу потрібно «розмітити» набори даних, тобто перетворити пра-вила граматики на числову форму. Застосовується автоматизований підхід для аналізу формальнихграматик засобами ML.NET, зокрема метод векторизації TF-IDF, заснований на «зважуванні» граматичних символів і виявленні їх унікальності та впливу на контекст правил та мови, яку генерує формальна граматика. Резуль-тати векторизації граматик використано для їх кластеризації методом K-Means, доступним у ML.NET. Такий підхід забезпечить автоматизоване керування продукціями граматик та їх оптимізацію. /// EN: Formal grammars are widely used in compilers, natural language processing methods, code analysis, and software testing. The application of machine learning methods to grammars opens new opportunities for automated analysis, classification, clustering, and optimization of language models. To apply clustering methods, it is necessary to «label» datasets, i.e., to transform grammar rules into a numerical form. An automated approach for analyzing formal grammars using ML.NET is applied. In particular, the TF-IDF vectorization method is used, based on «weighting» grammatical symbols and identifying their uniqueness and influence on the context of rules and the language generated by the formal grammar. The results of grammar vectorization are used for their clustering with the K-Means method available in ML.NET. This approach provides automated management of grammar productions and their optimization.The results of vectorization and subsequent clustering show that rules similar in structure that is, in the content and sequence of grammatical symbols (tokens) were grouped together within specific clusters. Since the vectorization of rules revealed their qualitative features represented by tokens, the clustering is essentially performed according to the generative function of the grammatical rules: rules within the same cluster generate similar sentences of the input (formal) language.Conclusions. An automated approach for analyzing formal grammars has been proposed. ML.NET tools for vectorization of formal grammars and subsequent clustering were analyzed. It was established that TF-IDF vectorization and K-Means in ML.NET provide a powerful tool for automated management and optimization of grammatical rules. Further prospects for automated analysis of formal grammars were identified.
dc.identifier.citationСкрипник І. А., Безверхий А. І. Векторизація формальних граматик для їх кластеризації засобами ML.NET // Праці Таврійського державного агротехнологічного університету : наукове фахове видання. Технічні науки / ТДАТУ; гол. ред. д.т.н., проф. А. І. Панченко. – Запоріжжя : ТДАТУ, 2025. Вип. 25, т. 3. С. 94-99. DOI: https://doi.org/10.32782/2078-0877-2025-25-3-12
dc.identifier.doihttps://doi.org/10.32782/2078-0877-2025-25-3-12
dc.identifier.urihttps://elar.tsatu.edu.ua/handle/123456789/19839
dc.language.isouk
dc.publisherЗапоріжжя: ТДАТУ
dc.subjectформальна граматика
dc.subjectтокен
dc.subjectвекторизація
dc.subjectвхідна мова
dc.subjectграматичне правило
dc.subjectML.NET
dc.subjectTF-IDF
dc.subjectкластеризація
dc.subjectK-Means
dc.subjectformal grammar
dc.subjecttoken
dc.subjectvectorization
dc.subjectinput language
dc.subjectgrammar rule
dc.subjectclustering
dc.titleВекторизація формальних граматик для їх кластеризації засобами ML.NET
dc.title.alternativeVectorization of formal grammars for their clustering using ML.NET
dc.typeArticle
local.identifier.udc004.42

Файли

Контейнер файлів

Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
ML.NET.pdf
Розмір:
383.16 KB
Формат:
Adobe Portable Document Format

Ліцензійна угода

Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
license.txt
Розмір:
1.71 KB
Формат:
Item-specific license agreed upon to submission
Опис: