Preview

Қазақ Ұлттық Қыздар Педагогикалық Университетінің Хабаршысы

Кеңейтілген іздеу

МӘТІНДЕР ЖАНРЫН АНЫҚТАУҒА АРНАЛҒАН БЕЛГІЛЕРДІ ЗЕРТТЕУ ЖӘНЕ ТАЛДАУ

https://doi.org/10.52512/2306-5079-2021-85-1-84-90

Толық мәтін:

Аннотация

Бұл мақалада мәтіндер жанрын анықтауға арналған белгілерді зерттеу және талдаудағы қолдануға болатын алгоритмдер қарастырылады. Мәтіндер жанрын анықтаудағы ерекшеліктер көрсетілген. Сонымен қатар мәтіндерді сипаттай отырып, тек мәтіндерді қалдырып, керек емес символдарды алып тастайды. Соның ішінен мәліметтер қорымен салыстырмалы түрде анықталады. Мақалада барлық параметрлерге негізделген мәтіндік жанрды автоматты түрде танудың тәжірибелік әдісі сипатталған. Логистикалык регрессия, шешім ағашы, кездейсоқ орман, MLPClassifier, AdaBoostClassifier, GaussianNB алгоритмдерін салыстыра келе мәтіндер үшін ең маңызды параметрлерді таңдау қарастырылды. Мәтіндер жанрын анықтау қазірге кезде ақпараттық қоғамда барлық салада өзекті болып отыр.

Авторлар туралы

С. Ш. Шаншар
Әл-Фараби атындағы Қазақ Ұлттық университеті
Қазақстан

Алматы



И. М. Уалиева
Әл-Фараби атындағы Қазақ Ұлттық университеті
Қазақстан

Алматы



Әдебиет тізімі

1. Douglas B. (2015) Dimensions of Register Variation: A Cross-Linguistic Comparison. Cambridge University Press, Cambridge, England.

2. Xiao Hu, J. Stephen Downie, and Andreas F. (2009) Ehmann Lyric Text Mining in Music Mood Classification. American music.

3. Kotsiantis S B, Zaharakis I., and Pintelas P. (2007) Supervised machine learning: A review of classification techniques. Frontiers in Artificial Intelligence and Applications, 160, 3. 4. Sebastiani F. (2002) Machine learning in automated text categorization, ACM computing surveys (CSUR), vol. 34, no. 1, pp. 1-47.

4. Seaar Al-Dabooni, Donald Wunsch, (2019), Model Order Reduction Based on Agglomerative Hierarchical Clustering. IEEE Transactions on Neural Networks and Learning Systems (TNNLS) Volume 30, Issue 7 – July, P: 1928-1942

5. https://github.com/zamgi/lingvo--classify

6. Albitar S., Fournier S. and Espinasse B. (2014) An effective TF/IDF-based text-to-text semantic similarity measure for text classification, International Conference on Web Information Systems Engineering, pp. 105-114, October.

7. Bafna, P., Pramod, D., & Vaidya, A. (2016) Document clustering: TF-IDF approach. In Electrical, Electronics, and Optimization Techniques (ICEEOT), International Conference on (pp. 61-66). IEEE, March.

8. Stamatatos E., Fakotakis N., Kokkinakis G. (2010) Text Genre Detection Using Common Word Frequencies, Proc. of the 18th International Conference on COLING2000.

9. Kessler B., Nunberg G., Schütze H. (1997) Automatic Detection of Text Genre, ACL’97, pages 32-38, July.

10. Gershman A., Meisels A., Lüke K.H., Rokach L., Schclar A., Sturm A. A Decision Tree Based Recommender System. InIICS 2010 Jun 3 (pp. 170-179).

11. Ualiyeva I.M., Mussabayev R.R. (2019) A Close Look at Features for Text Categorization (in publication)

12. Breiman L. (2001) Random forests. Mach. Learn.

13. Sung-Bae Cho, Jee-Haeng Lee (2003) Learning Neural Network Ensemble for Practical Text Classification, Lecture Notes in Computer Science, Volume 2690, Aug, Pages 1032 – 1036.

14. Yatsko V.A., Starikov M.S., and Butakov A. V. (2010) Automatic genre recognition and adaptive text summarization. Autom. Doc. Math. Linguist., vol. 44, no. 3, pp. 111–120.


Рецензия

Дәйектеу үшін:


Шаншар С.Ш., Уалиева И.М. МӘТІНДЕР ЖАНРЫН АНЫҚТАУҒА АРНАЛҒАН БЕЛГІЛЕРДІ ЗЕРТТЕУ ЖӘНЕ ТАЛДАУ. Қазақ Ұлттық Қыздар Педагогикалық Университетінің Хабаршысы. 2021;(1):84-90. https://doi.org/10.52512/2306-5079-2021-85-1-84-90

For citation:


Shanshar S.Sh., Ualiyeva I.M. FEATURE SELECTION FOR AUTOMATIC DETECTION OF TEXT GENRE. Bulletin of Kazakh National Women's Teacher Training University. 2021;(1):84-90. (In Kazakh) https://doi.org/10.52512/2306-5079-2021-85-1-84-90

Қараулар: 705


ISSN 2306-5079 (Print)