truong1301 commited on
Commit
1b2eec6
·
verified ·
1 Parent(s): b7f07f0

Add new CrossEncoder model

Browse files
README.md ADDED
@@ -0,0 +1,380 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - cross-encoder
5
+ - reranker
6
+ - generated_from_trainer
7
+ - dataset_size:29700
8
+ - loss:BinaryCrossEntropyLoss
9
+ base_model: itdainb/PhoRanker
10
+ pipeline_tag: text-ranking
11
+ library_name: sentence-transformers
12
+ metrics:
13
+ - accuracy
14
+ - accuracy_threshold
15
+ - f1
16
+ - f1_threshold
17
+ - precision
18
+ - recall
19
+ - average_precision
20
+ model-index:
21
+ - name: CrossEncoder based on itdainb/PhoRanker
22
+ results:
23
+ - task:
24
+ type: cross-encoder-binary-classification
25
+ name: Cross Encoder Binary Classification
26
+ dataset:
27
+ name: Quora dev
28
+ type: Quora-dev
29
+ metrics:
30
+ - type: accuracy
31
+ value: 0.9691935971005738
32
+ name: Accuracy
33
+ - type: accuracy_threshold
34
+ value: 0.6975733041763306
35
+ name: Accuracy Threshold
36
+ - type: f1
37
+ value: 0.8288590604026846
38
+ name: F1
39
+ - type: f1_threshold
40
+ value: 0.19782206416130066
41
+ name: F1 Threshold
42
+ - type: precision
43
+ value: 0.8372881355932204
44
+ name: Precision
45
+ - type: recall
46
+ value: 0.8205980066445183
47
+ name: Recall
48
+ - type: average_precision
49
+ value: 0.881449593796263
50
+ name: Average Precision
51
+ ---
52
+
53
+ # CrossEncoder based on itdainb/PhoRanker
54
+
55
+ This is a [Cross Encoder](https://www.sbert.net/docs/cross_encoder/usage/usage.html) model finetuned from [itdainb/PhoRanker](https://huggingface.co/itdainb/PhoRanker) using the [sentence-transformers](https://www.SBERT.net) library. It computes scores for pairs of texts, which can be used for text reranking and semantic search.
56
+
57
+ ## Model Details
58
+
59
+ ### Model Description
60
+ - **Model Type:** Cross Encoder
61
+ - **Base model:** [itdainb/PhoRanker](https://huggingface.co/itdainb/PhoRanker) <!-- at revision cb3e1f155e71896fb7f6f1e0efbdab0e83e88f10 -->
62
+ - **Maximum Sequence Length:** 256 tokens
63
+ - **Number of Output Labels:** 1 label
64
+ <!-- - **Training Dataset:** Unknown -->
65
+ <!-- - **Language:** Unknown -->
66
+ <!-- - **License:** Unknown -->
67
+
68
+ ### Model Sources
69
+
70
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
71
+ - **Documentation:** [Cross Encoder Documentation](https://www.sbert.net/docs/cross_encoder/usage/usage.html)
72
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/huggingface/sentence-transformers)
73
+ - **Hugging Face:** [Cross Encoders on Hugging Face](https://huggingface.co/models?library=sentence-transformers&other=cross-encoder)
74
+
75
+ ## Usage
76
+
77
+ ### Direct Usage (Sentence Transformers)
78
+
79
+ First install the Sentence Transformers library:
80
+
81
+ ```bash
82
+ pip install -U sentence-transformers
83
+ ```
84
+
85
+ Then you can load this model and run inference.
86
+ ```python
87
+ from sentence_transformers import CrossEncoder
88
+
89
+ # Download from the 🤗 Hub
90
+ model = CrossEncoder("truong1301/PhoRanker_vinum")
91
+ # Get scores for pairs of texts
92
+ pairs = [
93
+ ['Sau 3 ngày đau mắt không thuyên_giảm , bé đã được dẫn đến bệnh_viện khám .', 'Thấy con_gái 4 tuổi bị đau mắt đỏ , chị Chi , 27 tuổi , ở Tây_Hồ , gọi điện cầu_cứu người bạn thân xin đơn thuốc vì trước đó con của người bạn này cũng nhiễm_bệnh . Đơn thuốc ghi một loại thuốc kháng_sinh và một loại nước_mắt nhân_tạo , kèm hướng_dẫn cách chăm_sóc . \n " Sáng nay thấy mắt con hơi đỏ , nghĩ con chớm bệnh nên chưa muốn đưa đi khám . Giờ này vào bệnh_viện chỗ nào cũng đông bệnh_nhân , trước_mắt tôi tự nhỏ thuốc cho con , nếu không đỡ mới đi viện " , chị Chi chia_sẻ , hôm 29 / 8 . \n Ba ngày sau , chị cho con nhập_viện vì tình_trạng ngày_càng nặng , hai mắt trẻ sưng_vù , đau nhức , bác_sĩ kết_luận võng_mạc bệnh_nhi bị trầy_xước - một biến_chứng của đau mắt đỏ , nếu không chữa_trị kịp_thời nguy_cơ giảm thị_lực . \n Còn con_trai 7 tuổi của chị Lan ở Bắc_Ninh bị đau mắt đỏ lần thứ 2 trong mùa dịch năm nay . Hai tháng trước , chị ra_hiệu thuốc gần nhà mua thuốc nhỏ mắt cho con , sau vài ngày thì khỏi . Lần tái_mắc này , chị cũng dùng đơn thuốc cũ nhưng không có tác_dụng , mắt trẻ vẫn đỏ_ngầu . \n " Nay đã là ngày thứ 3 rồi mà mắt con vẫn đỏ và sưng hơn . Sợ quá , tôi đưa bé đến bệnh_viện , bác_sĩ kết_luận bị viêm kết_mạc nặng , có giả mạc , không bóc giả mạc thì thuốc ngấm được " , người mẹ nói . \n Ngày 2 / 9 , ThS. BS Mai_Thị_Anh Thư , Trưởng khoa khám bệnh , Bệnh_viện Mắt Hà_Nội 2 , cho biết dịch viêm kết_mạc cấp , hay còn gọi là đau mắt đỏ , hiện diễn_biến khá phức_tạp với số_lượng bệnh_nhân đến khám và điều_trị tại các cơ_sở y_tế chuyên_khoa mắt rất đông , trong đó nhiều bệnh_nhân nhỏ_tuổi và bệnh đã chuyển_biến nặng . Bệnh_viện Nhi Trung_ương cũng tiếp_nhận hơn 50 ca viêm kết_mạc cấp trong 4 tuần gần đây , trong có 10 - 20 % trẻ gặp biến_chứng nặng như có giả mạc cần bóc , bị trợt giác_mạc ( trầy_xước giác_mạc ) . \n Theo bác_sĩ , trẻ trở_nặng xuất_phát một phần từ tâm_lý chủ_quan của phụ_huynh , như_không đi khám ngay khi con đau mắt , tự xin đơn thuốc hoặc ra nhà_thuốc xin tư_vấn của người bán . \n Bệnh đau mắt đỏ có thời_gian ủ_bệnh 5 - 7 ngày sau khi tiếp_xúc với nguồn lây . Tùy_vào mức_độ của bệnh , nguyên_nhân cũng như khả_năng đáp_ứng với thuốc mà quá_trình điều_trị có_thể từ vài ngày đến vài tuần . \n " Cách tốt nhất là đưa trẻ đi khám ngay khi có dấu_hiệu đau mắt đỏ , tuyệt_đối không được tự_ý xin đơn thuốc của người khác . Thông_báo với bác_sĩ nếu trẻ không hợp_tác khi tra thuốc hoặc khi có bất_kỳ dấu_hiệu bất_thường của bệnh để có phương_án điều_trị hiệu_quả " , bà Thư cho hay . \n Bác_sĩ khuyên phụ_huynh nên tra thuốc vào các thời_điểm trẻ ngủ , khoảng 5h sáng , giờ ngủ trưa ( sau khi ngủ và chuẩn_bị thức ) , buổi tối ( sau khi ngủ ) . Thường_xuyên vệ_sinh mắt bằng nước muối sinh_lý , dùng bông sạch lấy hết tiết tố ở mắt . Khử_khuẩn , đeo khẩu_trang , rửa tay bằng xà_phòng sau khi đến chỗ đông người . \n'],
94
+ ['Công_ty tái_cấu_trúc Evergrande yêu_cầu mỗi nhóm có 35 % trái chủ đồng_ý .', 'Chị Nguyễn_Thị_Huyền , Quản_đốc phân_xưởng may của Nhà_máy dệt_kim Haprosimex ( Công_ty Cổ_phần tập_đoàn Haprosimex ) , bật khóc trong hội_thảo chủ_đề nợ đóng BHXH ngày 21 / 7 , khi kể lại 6 năm đi đòi quyền_lợi từ 2017 đến hết tháng 3 năm nay . \n Doanh_nghiệp nợ BHXH gần 500 công_nhân từ tháng 7 / 2011 và nợ lương từ tháng 1 / 2017 đến hết tháng 3 / 2023 tổng_cộng hơn 15 tỷ đồng . Người lao_động nhiều lần tìm gặp lãnh_đạo công_ty qua các thời_kỳ , nhưng chỉ nhận được câu trả_lời " doanh_nghiệp khó_khăn , chưa có tiền chi_trả " . \n Theo chị Huyền , nhiều nữ công_nhân ngóng chế_độ thai_sản từ lúc mang bầu tới khi con lớn vẫn chưa được nhận . Người qua_đời không có tử_tuất , hết tuổi lao_động không có lương hưu . Công_nhân lành_nghề không_thể chuyển việc vì không chốt được sổ BHXH , phải xoay sang rửa bát , chạy xe_ôm . \n Nữ quản_đốc nghẹn giọng khi nhắc hoàn_cảnh chị_em công_nhân Lê_Thị Là , Lê_Thị Ngân . Trước tháng 3 / 2023 , chị Là hai lần sinh con nhưng chưa được hưởng một đồng thai_sản . Chị Ngân bị ung_thư máu , qua_đời năm 2012 không có tử_tuất , trợ_cấp mai_táng phí . Công_nhân cùng cảnh , mỗi người góp một ngày lương trao gia_đình làm đám_tang cho Ngân . \n Tháng 4 - 6 / 2023 , hơn 500 công_nhân mới được tách đóng , chốt sổ sau khi doanh_nghiệp hai lần chuyển trả nợ hơn 15 tỷ đồng cho cơ_quan Bảo_hiểm Xã_hội , sau khi truyền_thông phản_ánh và cơ_quan_chức_năng vào_cuộc . Cầm được cuốn sổ bìa màu xanh lá mạ , chị Huyền mừng đến mất_ngủ . \n Hôm 25 / 6 , doanh_nghiệp chốt sổ BHXH cho 84 người còn lại . Công_nhân quyết_định lấy ngày này làm ngày gặp_mặt kỷ_niệm hàng năm . " Khoản nợ bảo_hiểm đã được giải_quyết , song tiền_lương vẫn còn vướng_mắc khi công_ty nói_khó_khăn , chỉ chốt trả một nửa " , chị Huyền cho hay . \n Xử_lý tội trốn đóng BHXH , bảo_hiểm y_tế ( BHYT ) , bảo_hiểm_thất_nghiệp ( BHTN ) đã được quy_định tại Điều 216 Bộ_luật Hình_sự năm 2015 , nhưng đến nay chưa vụ nào bị truy_cứu trách_nhiệm hình_sự . Cơ_quan Bảo_hiểm xã_hội củng_cố hồ_sơ gần 400 vụ trốn đóng BHXH chuyển công_an song gần một nửa số vụ cơ_quan điều_tra xác_định không khởi_tố vì chưa đủ yếu_tố cấu_thành tội_phạm , khó làm rõ tội trốn đóng . Có doanh_nghiệp mang tiền nợ đến đóng ngay khi công_an vào_cuộc . \n Ông Ngọ Duy_Hiểu , Phó_chủ_tịch Tổng_liên_đoàn Lao_động Việt_Nam , cho hay pháp_luật trao quyền cho công_đoàn khởi_kiện song thực_tế vướng_mắc vì quy_định tại các luật Tố_tụng dân_sự , Công_đoàn , Bảo_hiểm xã_hội và Bộ_luật Lao_động chưa thống_nhất . Có luật cho phép công_đoàn nói_chung có quyền khởi_kiện , có luật quy_định rõ là công_đoàn cơ_sở , có luật lại yêu_cầu công_đoàn phải được lao_động ủy quyền . \n Ông Hiểu cho rằng quy_định công_đoàn muốn khởi_kiện phải có toàn_bộ chữ_ký ủy quyền không thực_tế với những doanh_nghiệp hàng nghìn công_nhân . Dự_thảo Luật Bảo_hiểm xã_hội sửa_đổi đề_xuất quy_định Tổng_liên_đoàn Lao_động Việt_Nam muốn khởi_kiện phải được người lao_động ủy quyền cũng cần xem_xét_lại vì có_thể mất thêm thời_gian , thủ_tục . \n Chung quan_điểm , luật_sư Nguyễn_Danh Huế cho rằng không nên giao khởi_kiện cho công_đoàn cơ_sở vì đội_ngũ này hưởng lương doanh_nghiệp , ít người dám ra_mặt vì ngại ảnh_hưởng quyền_lợi . Pháp_luật nên trao quyền này cho công_đoàn cấp trên và có hướng_dẫn cụ_thể . \n Luật_sư cũng chỉ ra những khó_khăn khi khởi_kiện doanh_nghiệp nợ BHXH đến tòa_án . Đơn_cử , ngành BHXH chỉ có quyền kiểm_tra một_số khía_cạnh , nếu phát_hiện sai_phạm phải đề_xuất cơ_quan quản_lý nhà_nước xử_phạt . Cơ_quan quản_lý vào_cuộc phải thanh_tra lại từ đầu chứ không_thể dùng kiến_nghị của ngành bảo_hiểm để xử_phạt . Việc thanh_tra , xử_phạt thuộc thẩm_quyền của ngành Lao_động Thương_binh và Xã_hội nhưng nhân_lực ngành này khá hạn_chế . \n'],
95
+ ['Max_Verstappen , Fernando_Alonso và Carlos_Sainz đã quyết_định về pit ở cuối vòng hai để thay lốp , mặc_dù phương_án này khiến họ thiệt_hại khoảng 16 giây so với việc về pit ở vòng đầu , nhưng đây là quyết_định hợp_lý để tối_ưu_hóa hiệu_suất trong điều_kiện thời_tiết biến_đổi .', 'Irish Open 2023 hạ_màn ngày 3 / 9 với chức vô_địch thuộc về Smilla Tarning_Soenderby , còn Van_Dam đứng T2 với Lisa_Pettersson . Đây là kết_quả sau khi Van_Dam và Pettersson cùng thua Soenderby ở hố phụ ( playoff ) . \n Tại phần_đấu playoff này , Van_Dam phải phát bằng gậy gỗ số 3 do driver bị gãy trên đường từ green trở_lại khu phát bằng xe điện không mui do trọng_tài Ladies_European Tour cầm lái . \n Sự_cố xảy ra lúc xe rẽ ra đường_nhựa , luồn dưới dây thừng giới_hạn khu_vực thi_đấu . Van_Dam nâng dây cho xe qua , nhưng nó vướng phần đuôi , ngay chỗ để túi gậy . Và vì_thế , cả bộ " công_cụ lao_động " đổ xuống mặt sân , riêng đầu gậy driver đứt gọn , trong khi nó là hàng dự_phòng và duy_nhất cho golfer Hà_Lan sau khi cây chính hỏng trong quá_trình theo cô lên máy_bay theo diện hành_lý ký_gửi để đến Irish_Open . \n Không còn " vũ_khí " sở_trường , golfer Nam_Phi phải phát bằng gậy gỗ số 3 khi đấu playoff tại hố 18 par5 với Pettersson và Soenderby , do cả ba_cùng điểm - 16 sau bốn vòng quy_chuẩn , trên sân par72 thuộc lâu đài nghỉ_dưỡng Dromoland ở County_Clare , Ireland . Cú thứ hai , Van_Dam đưa bóng vào cách lỗ 3,3 mét trong khi Soenderby cách mục_tiêu 3,6 mét , còn Petterson trượt green . Từ đó , Soenderby ghi eagle và loại được cả hai đối_thủ . \n Và như thế , Soenderby ẵm cup Irish Open 2023 , lần đầu vô_địch trên Ladies_European Tour ( LET ) , còn Van_Dam vuột cơ_hội đoạt danh_hiệu thứ sáu ở đấu_trường golf nữ hạng nhất châu Âu . Trong quỹ thưởng 400.000 Euro , Soenderby được 60.000 Euro , gấp đôi Van_Dam và Pettersson . \n Van Dam năm nay 27 tuổi , đã tám năm đấu golf chuyên_nghiệp . Giai_đoạn 2019 - 2021 , cô phát xa nhất LET lẫn LPGA Tour . Nhưng ở hệ_thống giải nữ Mỹ , Van Dam hiện qua gần 70 giải nhưng chưa có cup . \n'],
96
+ ['Theo một cuộc khảo_sát của YouGov , ở Mỹ , gần 75 % sẽ tips cho nhân_viên nhà_hàng , và tỷ_lệ này cũng khá cao đối_với phục_vụ quán bar , khoảng 50 % .', 'Chiều 24 / 8 , nhiều công_nhân Công_ty TNHH Nobland Việt_Nam tại Khu công_nghiệp Tân_Thới_Hiệp ( quận 12 ) rời xưởng sản_xuất , kéo xuống văn_phòng phản_ứng khi đơn_vị này công_bố danh_sách lao_động bị cắt_giảm . Phần_lớn trong số này đều gắn_bó lâu năm , đang hưởng lương theo thời_gian . \n Việc phản_ứng diễn ra cách đây một tuần khi công_ty thông_báo sẽ giảm 611 lao_động . Doanh_nghiệp đưa ra lý_do ảnh_hưởng Covid - 19 , khủng_hoảng tài_chính khiến đơn hàng giảm . Để duy_trì hoạt_động , nhà_máy phải thay_đổi cơ_cấu , tổ_chức lại lao_động . \n Theo phương_án Nobland Việt_Nam đưa ra , lao_động bị cho nghỉ_việc sẽ nhận tiền phép năm chưa sử_dụng và trợ_cấp mất việc - người nhận thấp nhất là hai tháng lương . \n Với những công_nhân lâu năm , trừ thời_gian hưởng trợ_cấp từ quỹ Bảo_hiểm_thất_nghiệp ( từ năm 2009 đến nay ) , mỗi năm làm_việc trước 2009 được trả một tháng lương . Ví_dụ , công_nhân làm từ năm 2005 , đến nay 18 năm , sẽ được công_ty trả trợ_cấp mất việc cho giai_đoạn 2005 đến trước 2009 , tức 4 tháng lương . Thời_gian còn lại ( 2009 đến nay ) , họ nhận trợ_cấp từ quỹ Bảo_hiểm_thất_nghiệp . \n Từ ngày 21 / 8 , công_ty bắt_đầu cắt_giảm nhưng không công_bố toàn_bộ danh_sách mà gọi từng nhóm lên văn_phòng để ra thông_báo lao_động phải nghỉ_việc sau 30 ngày . Thấy thiệt_thòi , các công_nhân làm đơn cầu_cứu ngành chức_năng . \n " Thay_đổi cơ_cấu chỉ là cái cớ để doanh_nghiệp buộc công_nhân lâu năm đang hưởng lương thời_gian phải nghỉ_việc " , một công_nhân ký_tên đơn kêu cứu nói . \n Người này dẫn_chứng , sau khi thông_báo được đưa ra , nhiều người được gọi lên để lựa_chọn phương_án . Nếu công_nhân chấp_thuận chuyển sang nhận lương sản_phẩm sẽ được giữ lại nhưng lương cơ_bản giảm xuống mức gần 5 triệu đồng mỗi tháng . Trường_hợp không đồng_ý , công_ty đơn_phương chấm_dứt hợp_đồng lao_động theo phương_án . \n Nữ_công_nhân cho biết tổ may của chị có hơn 30 người nhưng chỉ những người đang hưởng lương thời_gian , có thâm_niên mới thuộc diện bị cắt_giảm . Bản_thân chị là tổ_trưởng , gắn_bó với công_ty 17 năm , lương cơ_bản hơn 9 triệu đồng mỗi tháng cũng phải ra đi . \n Công_ty Nobland Việt_Nam 100 % vốn Hàn_Quốc , hoạt_động tại TP HCM từ năm 2003 , chuyên_ngành may_mặc , hiện có hơn 2.500 lao_động . Ban_đầu , công_ty trả lương theo thời_gian ( ngày làm 8 tiếng ) . Mức lương thấp nhất cho công_nhân mới sẽ cao hơn tối_thiểu vùng 7 % . Sau đó , cứ mỗi năm lương trả cho lao_động tăng thêm 5 % . Người thâm_niên sẽ có lương cơ_bản và đây cũng là mức lương cao làm căn_cứ đóng bảo_hiểm xã_hội . \n Mấy năm trở_lại đây , công_ty bắt_đầu chuyển_đổi sang tính lương sản_phẩm . Tất_cả công_nhân cùng nhận mức lương cơ_bản khoảng 5 triệu đồng mỗi tháng và phụ_cấp 150.000 đồng . Ngoài_ra , họ sẽ được chia thưởng năng_suất dựa trên mức_độ hoàn_thành_công_việc của cả chuyền và từng người . Những công_nhân được tuyển mới đều áp_dụng cách tính này . Tuy_nhiên , cách tính bị công_nhân lâu năm phản_ứng khi lương cơ_bản giảm mạnh . Cuối năm 2021 , hơn 1.000 công_nhân đã ngừng việc phản_đối nên công_ty tạm ngưng . \n Một công_nhân có thâm_niên 17 năm làm_việc ở tổ cắt cho biết cách tính lương thời_gian đã được công_ty thống_nhất với công_nhân ngay từ đầu và ghi rõ trong hợp_đồng lao_động . Nếu có bất_kỳ thay_đổi nào phải thỏa_thuận lại , trường_hợp không đạt được tiếng nói_chung công_ty cần thương_lượng chấm_dứt hợp_đồng . \n " Tuy_nhiên nhà_máy phải đền_bù thỏa_đáng cho người lao_động , không_thể lấy lý_do thay_đổi cơ_cấu để ép chúng_tôi nghỉ_việc " , nữ công_nhân nói . Ở tuổi 40 , chị khó tìm được_việc mới trong khi số tiền trợ_cấp mất việc quá ít_ỏi . \n Nghiên_cứu của Trung_tâm nghiên_cứu quan_hệ lao_động cho thấy , việc trả lương sản_phẩm buộc lao_động dốc hết_sức để làm_việc . Công_nhân có_thể phải nhịn tiểu , hạn_chế uống nước để kịp tiến_độ . Các khảo_sát đã chỉ ra với một_số ngành như dệt may , lắp_ráp điện_tử năng_suất lao_động đạt cực_đại ở 2 - 3 năm đầu khi lao_động còn trẻ và giảm dần sau 10 - 15 năm . Dù phương_pháp trả lương theo sản_phẩm ngày_càng phổ_biến , nhiều nước không khuyến_khích vì những hệ_quả tạo ra cho lao_động . \n Ngoài_ra , nội_dung thay_đổi cơ_cấu mà doanh_nghiệp gửi lên Hepza có sự thống_nhất của công_đoàn . Tuy_nhiên , trước phản_ứng của công_nhân , sáng 24 / 8 , công_đoàn Công_ty Nobland lại có văn_bản mới gửi ban giám_đốc đề_nghị xem_xét_lại các kiến_nghị của người lao_động . \n Cụ_thể , dù doanh_nghiệp đối_thoại với công_đoàn nhưng danh_sách lao_động bị cắt_giảm không được công_bố khiến họ bị_động . Công_nhân cũng không đồng thuận với mức chi_trả và đề_nghị ngoài trợ_cấp mất việc , mỗi năm làm_việc còn lại công_ty phải hỗ_trợ thêm nửa tháng lương . \n'],
97
+ ['Hơn 66 % người_lớn Mỹ cho biết họ nghĩ công_ty nên tăng lương cho nhân_viên .', 'Hội_đồng Giáo_dục Trung_ương thuộc Bộ Giáo_dục Nhật_Bản hôm 28 / 8 đề_xuất kiểm_tra giờ học ở tất_cả trường tiểu_học và trung_học cơ_sở công_lập nhằm cải_cách hoạt_động giảng_dạy . \n Theo tiêu_chuẩn , hàng năm mỗi học_sinh có 1.015 tiết học . Mỗi tiết kéo_dài 45 phút ở trường tiểu_học và 50 phút ở trường trung_học cơ_sở . Sau khi kiểm_tra , những trường có số giờ dạy hàng năm vượt so với mức này ( từ 1.086 giờ trở lên ) cần cắt_giảm , bắt_đầu_từ năm tới . \n Một cuộc khảo_sát do Viện nghiên_cứu của Liên_đoàn Công_đoàn Nhật_Bản ( Rengo ) thực_hiện năm 2022 cho thấy thời_gian làm ngoài giờ trung_bình của giáo_viên là 123 giờ 16 phút mỗi tháng , vượt xa ngưỡng " có_thể tử_vong do làm_việc quá_sức " ( 80 giờ mỗi tháng ) do Bộ Lao_động Nhật_Bản quy_định . \n Tại Nhật_Bản , trường_học hiện bị coi là nơi làm_việc " đen " , vì các quy_định lao_động thường_xuyên bị coi_thường . Đây được coi là lý_do lớn nhất khiến nhiều người không muốn ứng_tuyển làm giáo_viên . \n Hồi giữa tháng 8 , cơ_quan này đã thảo_luận việc tăng thù_lao làm ngoài giờ cho giáo_viên trường công_lập , hiện ở mức 4 % mức lương hàng tháng . Theo Hội_đồng , công_việc của giáo_viên có tính_chất đặc_thù nên không_thể áp_dụng cách tính như các công_chức khác . \n Nhiều địa_phương đã áp_dụng một_số biện_pháp để giảm áp_lực làm_việc của giáo_viên . \n Tại thành_phố Gero , tỉnh Gifu , cả 6 trường trung_học cơ_sở đều đẩy thời_gian tan học của học_sinh từ 18h lên 16h30 từ năm_ngoái . Giáo_viên có thời_gian họp sớm hơn trong ngày , giúp họ giảm đáng_kể thời_gian làm ngoài giờ . Còn thành_phố Kakegawa , tỉnh Shizuoka chuyển toàn_bộ hoạt_động ngoại khóa ở trường trung_học cơ_sở sang hoạt_động câu lạc_bộ cộng_đồng vào mùa hè năm 2026 . \n'],
98
+ ]
99
+ scores = model.predict(pairs)
100
+ print(scores.shape)
101
+ # (5,)
102
+
103
+ # Or rank different texts based on similarity to a single text
104
+ ranks = model.rank(
105
+ 'Sau 3 ngày đau mắt không thuyên_giảm , bé đã được dẫn đến bệnh_viện khám .',
106
+ [
107
+ 'Thấy con_gái 4 tuổi bị đau mắt đỏ , chị Chi , 27 tuổi , ở Tây_Hồ , gọi điện cầu_cứu người bạn thân xin đơn thuốc vì trước đó con của người bạn này cũng nhiễm_bệnh . Đơn thuốc ghi một loại thuốc kháng_sinh và một loại nước_mắt nhân_tạo , kèm hướng_dẫn cách chăm_sóc . \n " Sáng nay thấy mắt con hơi đỏ , nghĩ con chớm bệnh nên chưa muốn đưa đi khám . Giờ này vào bệnh_viện chỗ nào cũng đông bệnh_nhân , trước_mắt tôi tự nhỏ thuốc cho con , nếu không đỡ mới đi viện " , chị Chi chia_sẻ , hôm 29 / 8 . \n Ba ngày sau , chị cho con nhập_viện vì tình_trạng ngày_càng nặng , hai mắt trẻ sưng_vù , đau nhức , bác_sĩ kết_luận võng_mạc bệnh_nhi bị trầy_xước - một biến_chứng của đau mắt đỏ , nếu không chữa_trị kịp_thời nguy_cơ giảm thị_lực . \n Còn con_trai 7 tuổi của chị Lan ở Bắc_Ninh bị đau mắt đỏ lần thứ 2 trong mùa dịch năm nay . Hai tháng trước , chị ra_hiệu thuốc gần nhà mua thuốc nhỏ mắt cho con , sau vài ngày thì khỏi . Lần tái_mắc này , chị cũng dùng đơn thuốc cũ nhưng không có tác_dụng , mắt trẻ vẫn đỏ_ngầu . \n " Nay đã là ngày thứ 3 rồi mà mắt con vẫn đỏ và sưng hơn . Sợ quá , tôi đưa bé đến bệnh_viện , bác_sĩ kết_luận bị viêm kết_mạc nặng , có giả mạc , không bóc giả mạc thì thuốc ngấm được " , người mẹ nói . \n Ngày 2 / 9 , ThS. BS Mai_Thị_Anh Thư , Trưởng khoa khám bệnh , Bệnh_viện Mắt Hà_Nội 2 , cho biết dịch viêm kết_mạc cấp , hay còn gọi là đau mắt đỏ , hiện diễn_biến khá phức_tạp với số_lượng bệnh_nhân đến khám và điều_trị tại các cơ_sở y_tế chuyên_khoa mắt rất đông , trong đó nhiều bệnh_nhân nhỏ_tuổi và bệnh đã chuyển_biến nặng . Bệnh_viện Nhi Trung_ương cũng tiếp_nhận hơn 50 ca viêm kết_mạc cấp trong 4 tuần gần đây , trong có 10 - 20 % trẻ gặp biến_chứng nặng như có giả mạc cần bóc , bị trợt giác_mạc ( trầy_xước giác_mạc ) . \n Theo bác_sĩ , trẻ trở_nặng xuất_phát một phần từ tâm_lý chủ_quan của phụ_huynh , như_không đi khám ngay khi con đau mắt , tự xin đơn thuốc hoặc ra nhà_thuốc xin tư_vấn của người bán . \n Bệnh đau mắt đỏ có thời_gian ủ_bệnh 5 - 7 ngày sau khi tiếp_xúc với nguồn lây . Tùy_vào mức_độ của bệnh , nguyên_nhân cũng như khả_năng đáp_ứng với thuốc mà quá_trình điều_trị có_thể từ vài ngày đến vài tuần . \n " Cách tốt nhất là đưa trẻ đi khám ngay khi có dấu_hiệu đau mắt đỏ , tuyệt_đối không được tự_ý xin đơn thuốc của người khác . Thông_báo với bác_sĩ nếu trẻ không hợp_tác khi tra thuốc hoặc khi có bất_kỳ dấu_hiệu bất_thường của bệnh để có phương_án điều_trị hiệu_quả " , bà Thư cho hay . \n Bác_sĩ khuyên phụ_huynh nên tra thuốc vào các thời_điểm trẻ ngủ , khoảng 5h sáng , giờ ngủ trưa ( sau khi ngủ và chuẩn_bị thức ) , buổi tối ( sau khi ngủ ) . Thường_xuyên vệ_sinh mắt bằng nước muối sinh_lý , dùng bông sạch lấy hết tiết tố ở mắt . Khử_khuẩn , đeo khẩu_trang , rửa tay bằng xà_phòng sau khi đến chỗ đông người . \n',
108
+ 'Chị Nguyễn_Thị_Huyền , Quản_đốc phân_xưởng may của Nhà_máy dệt_kim Haprosimex ( Công_ty Cổ_phần tập_đoàn Haprosimex ) , bật khóc trong hội_thảo chủ_đề nợ đóng BHXH ngày 21 / 7 , khi kể lại 6 năm đi đòi quyền_lợi từ 2017 đến hết tháng 3 năm nay . \n Doanh_nghiệp nợ BHXH gần 500 công_nhân từ tháng 7 / 2011 và nợ lương từ tháng 1 / 2017 đến hết tháng 3 / 2023 tổng_cộng hơn 15 tỷ đồng . Người lao_động nhiều lần tìm gặp lãnh_đạo công_ty qua các thời_kỳ , nhưng chỉ nhận được câu trả_lời " doanh_nghiệp khó_khăn , chưa có tiền chi_trả " . \n Theo chị Huyền , nhiều nữ công_nhân ngóng chế_độ thai_sản từ lúc mang bầu tới khi con lớn vẫn chưa được nhận . Người qua_đời không có tử_tuất , hết tuổi lao_động không có lương hưu . Công_nhân lành_nghề không_thể chuyển việc vì không chốt được sổ BHXH , phải xoay sang rửa bát , chạy xe_ôm . \n Nữ quản_đốc nghẹn giọng khi nhắc hoàn_cảnh chị_em công_nhân Lê_Thị Là , Lê_Thị Ngân . Trước tháng 3 / 2023 , chị Là hai lần sinh con nhưng chưa được hưởng một đồng thai_sản . Chị Ngân bị ung_thư máu , qua_đời năm 2012 không có tử_tuất , trợ_cấp mai_táng phí . Công_nhân cùng cảnh , mỗi người góp một ngày lương trao gia_đình làm đám_tang cho Ngân . \n Tháng 4 - 6 / 2023 , hơn 500 công_nhân mới được tách đóng , chốt sổ sau khi doanh_nghiệp hai lần chuyển trả nợ hơn 15 tỷ đồng cho cơ_quan Bảo_hiểm Xã_hội , sau khi truyền_thông phản_ánh và cơ_quan_chức_năng vào_cuộc . Cầm được cuốn sổ bìa màu xanh lá mạ , chị Huyền mừng đến mất_ngủ . \n Hôm 25 / 6 , doanh_nghiệp chốt sổ BHXH cho 84 người còn lại . Công_nhân quyết_định lấy ngày này làm ngày gặp_mặt kỷ_niệm hàng năm . " Khoản nợ bảo_hiểm đã được giải_quyết , song tiền_lương vẫn còn vướng_mắc khi công_ty nói_khó_khăn , chỉ chốt trả một nửa " , chị Huyền cho hay . \n Xử_lý tội trốn đóng BHXH , bảo_hiểm y_tế ( BHYT ) , bảo_hiểm_thất_nghiệp ( BHTN ) đã được quy_định tại Điều 216 Bộ_luật Hình_sự năm 2015 , nhưng đến nay chưa vụ nào bị truy_cứu trách_nhiệm hình_sự . Cơ_quan Bảo_hiểm xã_hội củng_cố hồ_sơ gần 400 vụ trốn đóng BHXH chuyển công_an song gần một nửa số vụ cơ_quan điều_tra xác_định không khởi_tố vì chưa đủ yếu_tố cấu_thành tội_phạm , khó làm rõ tội trốn đóng . Có doanh_nghiệp mang tiền nợ đến đóng ngay khi công_an vào_cuộc . \n Ông Ngọ Duy_Hiểu , Phó_chủ_tịch Tổng_liên_đoàn Lao_động Việt_Nam , cho hay pháp_luật trao quyền cho công_đoàn khởi_kiện song thực_tế vướng_mắc vì quy_định tại các luật Tố_tụng dân_sự , Công_đoàn , Bảo_hiểm xã_hội và Bộ_luật Lao_động chưa thống_nhất . Có luật cho phép công_đoàn nói_chung có quyền khởi_kiện , có luật quy_định rõ là công_đoàn cơ_sở , có luật lại yêu_cầu công_đoàn phải được lao_động ủy quyền . \n Ông Hiểu cho rằng quy_định công_đoàn muốn khởi_kiện phải có toàn_bộ chữ_ký ủy quyền không thực_tế với những doanh_nghiệp hàng nghìn công_nhân . Dự_thảo Luật Bảo_hiểm xã_hội sửa_đổi đề_xuất quy_định Tổng_liên_đoàn Lao_động Việt_Nam muốn khởi_kiện phải được người lao_động ủy quyền cũng cần xem_xét_lại vì có_thể mất thêm thời_gian , thủ_tục . \n Chung quan_điểm , luật_sư Nguyễn_Danh Huế cho rằng không nên giao khởi_kiện cho công_đoàn cơ_sở vì đội_ngũ này hưởng lương doanh_nghiệp , ít người dám ra_mặt vì ngại ảnh_hưởng quyền_lợi . Pháp_luật nên trao quyền này cho công_đoàn cấp trên và có hướng_dẫn cụ_thể . \n Luật_sư cũng chỉ ra những khó_khăn khi khởi_kiện doanh_nghiệp nợ BHXH đến tòa_án . Đơn_cử , ngành BHXH chỉ có quyền kiểm_tra một_số khía_cạnh , nếu phát_hiện sai_phạm phải đề_xuất cơ_quan quản_lý nhà_nước xử_phạt . Cơ_quan quản_lý vào_cuộc phải thanh_tra lại từ đầu chứ không_thể dùng kiến_nghị của ngành bảo_hiểm để xử_phạt . Việc thanh_tra , xử_phạt thuộc thẩm_quyền của ngành Lao_động Thương_binh và Xã_hội nhưng nhân_lực ngành này khá hạn_chế . \n',
109
+ 'Irish Open 2023 hạ_màn ngày 3 / 9 với chức vô_địch thuộc về Smilla Tarning_Soenderby , còn Van_Dam đứng T2 với Lisa_Pettersson . Đây là kết_quả sau khi Van_Dam và Pettersson cùng thua Soenderby ở hố phụ ( playoff ) . \n Tại phần_đấu playoff này , Van_Dam phải phát bằng gậy gỗ số 3 do driver bị gãy trên đường từ green trở_lại khu phát bằng xe điện không mui do trọng_tài Ladies_European Tour cầm lái . \n Sự_cố xảy ra lúc xe rẽ ra đường_nhựa , luồn dưới dây thừng giới_hạn khu_vực thi_đấu . Van_Dam nâng dây cho xe qua , nhưng nó vướng phần đuôi , ngay chỗ để túi gậy . Và vì_thế , cả bộ " công_cụ lao_động " đổ xuống mặt sân , riêng đầu gậy driver đứt gọn , trong khi nó là hàng dự_phòng và duy_nhất cho golfer Hà_Lan sau khi cây chính hỏng trong quá_trình theo cô lên máy_bay theo diện hành_lý ký_gửi để đến Irish_Open . \n Không còn " vũ_khí " sở_trường , golfer Nam_Phi phải phát bằng gậy gỗ số 3 khi đấu playoff tại hố 18 par5 với Pettersson và Soenderby , do cả ba_cùng điểm - 16 sau bốn vòng quy_chuẩn , trên sân par72 thuộc lâu đài nghỉ_dưỡng Dromoland ở County_Clare , Ireland . Cú thứ hai , Van_Dam đưa bóng vào cách lỗ 3,3 mét trong khi Soenderby cách mục_tiêu 3,6 mét , còn Petterson trượt green . Từ đó , Soenderby ghi eagle và loại được cả hai đối_thủ . \n Và như thế , Soenderby ẵm cup Irish Open 2023 , lần đầu vô_địch trên Ladies_European Tour ( LET ) , còn Van_Dam vuột cơ_hội đoạt danh_hiệu thứ sáu ở đấu_trường golf nữ hạng nhất châu Âu . Trong quỹ thưởng 400.000 Euro , Soenderby được 60.000 Euro , gấp đôi Van_Dam và Pettersson . \n Van Dam năm nay 27 tuổi , đã tám năm đấu golf chuyên_nghiệp . Giai_đoạn 2019 - 2021 , cô phát xa nhất LET lẫn LPGA Tour . Nhưng ở hệ_thống giải nữ Mỹ , Van Dam hiện qua gần 70 giải nhưng chưa có cup . \n',
110
+ 'Chiều 24 / 8 , nhiều công_nhân Công_ty TNHH Nobland Việt_Nam tại Khu công_nghiệp Tân_Thới_Hiệp ( quận 12 ) rời xưởng sản_xuất , kéo xuống văn_phòng phản_ứng khi đơn_vị này công_bố danh_sách lao_động bị cắt_giảm . Phần_lớn trong số này đều gắn_bó lâu năm , đang hưởng lương theo thời_gian . \n Việc phản_ứng diễn ra cách đây một tuần khi công_ty thông_báo sẽ giảm 611 lao_động . Doanh_nghiệp đưa ra lý_do ảnh_hưởng Covid - 19 , khủng_hoảng tài_chính khiến đơn hàng giảm . Để duy_trì hoạt_động , nhà_máy phải thay_đổi cơ_cấu , tổ_chức lại lao_động . \n Theo phương_án Nobland Việt_Nam đưa ra , lao_động bị cho nghỉ_việc sẽ nhận tiền phép năm chưa sử_dụng và trợ_cấp mất việc - người nhận thấp nhất là hai tháng lương . \n Với những công_nhân lâu năm , trừ thời_gian hưởng trợ_cấp từ quỹ Bảo_hiểm_thất_nghiệp ( từ năm 2009 đến nay ) , mỗi năm làm_việc trước 2009 được trả một tháng lương . Ví_dụ , công_nhân làm từ năm 2005 , đến nay 18 năm , sẽ được công_ty trả trợ_cấp mất việc cho giai_đoạn 2005 đến trước 2009 , tức 4 tháng lương . Thời_gian còn lại ( 2009 đến nay ) , họ nhận trợ_cấp từ quỹ Bảo_hiểm_thất_nghiệp . \n Từ ngày 21 / 8 , công_ty bắt_đầu cắt_giảm nhưng không công_bố toàn_bộ danh_sách mà gọi từng nhóm lên văn_phòng để ra thông_báo lao_động phải nghỉ_việc sau 30 ngày . Thấy thiệt_thòi , các công_nhân làm đơn cầu_cứu ngành chức_năng . \n " Thay_đổi cơ_cấu chỉ là cái cớ để doanh_nghiệp buộc công_nhân lâu năm đang hưởng lương thời_gian phải nghỉ_việc " , một công_nhân ký_tên đơn kêu cứu nói . \n Người này dẫn_chứng , sau khi thông_báo được đưa ra , nhiều người được gọi lên để lựa_chọn phương_án . Nếu công_nhân chấp_thuận chuyển sang nhận lương sản_phẩm sẽ được giữ lại nhưng lương cơ_bản giảm xuống mức gần 5 triệu đồng mỗi tháng . Trường_hợp không đồng_ý , công_ty đơn_phương chấm_dứt hợp_đồng lao_động theo phương_án . \n Nữ_công_nhân cho biết tổ may của chị có hơn 30 người nhưng chỉ những người đang hưởng lương thời_gian , có thâm_niên mới thuộc diện bị cắt_giảm . Bản_thân chị là tổ_trưởng , gắn_bó với công_ty 17 năm , lương cơ_bản hơn 9 triệu đồng mỗi tháng cũng phải ra đi . \n Công_ty Nobland Việt_Nam 100 % vốn Hàn_Quốc , hoạt_động tại TP HCM từ năm 2003 , chuyên_ngành may_mặc , hiện có hơn 2.500 lao_động . Ban_đầu , công_ty trả lương theo thời_gian ( ngày làm 8 tiếng ) . Mức lương thấp nhất cho công_nhân mới sẽ cao hơn tối_thiểu vùng 7 % . Sau đó , cứ mỗi năm lương trả cho lao_động tăng thêm 5 % . Người thâm_niên sẽ có lương cơ_bản và đây cũng là mức lương cao làm căn_cứ đóng bảo_hiểm xã_hội . \n Mấy năm trở_lại đây , công_ty bắt_đầu chuyển_đổi sang tính lương sản_phẩm . Tất_cả công_nhân cùng nhận mức lương cơ_bản khoảng 5 triệu đồng mỗi tháng và phụ_cấp 150.000 đồng . Ngoài_ra , họ sẽ được chia thưởng năng_suất dựa trên mức_độ hoàn_thành_công_việc của cả chuyền và từng người . Những công_nhân được tuyển mới đều áp_dụng cách tính này . Tuy_nhiên , cách tính bị công_nhân lâu năm phản_ứng khi lương cơ_bản giảm mạnh . Cuối năm 2021 , hơn 1.000 công_nhân đã ngừng việc phản_đối nên công_ty tạm ngưng . \n Một công_nhân có thâm_niên 17 năm làm_việc ở tổ cắt cho biết cách tính lương thời_gian đã được công_ty thống_nhất với công_nhân ngay từ đầu và ghi rõ trong hợp_đồng lao_động . Nếu có bất_kỳ thay_đổi nào phải thỏa_thuận lại , trường_hợp không đạt được tiếng nói_chung công_ty cần thương_lượng chấm_dứt hợp_đồng . \n " Tuy_nhiên nhà_máy phải đền_bù thỏa_đáng cho người lao_động , không_thể lấy lý_do thay_đổi cơ_cấu để ép chúng_tôi nghỉ_việc " , nữ công_nhân nói . Ở tuổi 40 , chị khó tìm được_việc mới trong khi số tiền trợ_cấp mất việc quá ít_ỏi . \n Nghiên_cứu của Trung_tâm nghiên_cứu quan_hệ lao_động cho thấy , việc trả lương sản_phẩm buộc lao_động dốc hết_sức để làm_việc . Công_nhân có_thể phải nhịn tiểu , hạn_chế uống nước để kịp tiến_độ . Các khảo_sát đã chỉ ra với một_số ngành như dệt may , lắp_ráp điện_tử năng_suất lao_động đạt cực_đại ở 2 - 3 năm đầu khi lao_động còn trẻ và giảm dần sau 10 - 15 năm . Dù phương_pháp trả lương theo sản_phẩm ngày_càng phổ_biến , nhiều nước không khuyến_khích vì những hệ_quả tạo ra cho lao_động . \n Ngoài_ra , nội_dung thay_đổi cơ_cấu mà doanh_nghiệp gửi lên Hepza có sự thống_nhất của công_đoàn . Tuy_nhiên , trước phản_ứng của công_nhân , sáng 24 / 8 , công_đoàn Công_ty Nobland lại có văn_bản mới gửi ban giám_đốc đề_nghị xem_xét_lại các kiến_nghị của người lao_động . \n Cụ_thể , dù doanh_nghiệp đối_thoại với công_đoàn nhưng danh_sách lao_động bị cắt_giảm không được công_bố khiến họ bị_động . Công_nhân cũng không đồng thuận với mức chi_trả và đề_nghị ngoài trợ_cấp mất việc , mỗi năm làm_việc còn lại công_ty phải hỗ_trợ thêm nửa tháng lương . \n',
111
+ 'Hội_đồng Giáo_dục Trung_ương thuộc Bộ Giáo_dục Nhật_Bản hôm 28 / 8 đề_xuất kiểm_tra giờ học ở tất_cả trường tiểu_học và trung_học cơ_sở công_lập nhằm cải_cách hoạt_động giảng_dạy . \n Theo tiêu_chuẩn , hàng năm mỗi học_sinh có 1.015 tiết học . Mỗi tiết kéo_dài 45 phút ở trường tiểu_học và 50 phút ở trường trung_học cơ_sở . Sau khi kiểm_tra , những trường có số giờ dạy hàng năm vượt so với mức này ( từ 1.086 giờ trở lên ) cần cắt_giảm , bắt_đầu_từ năm tới . \n Một cuộc khảo_sát do Viện nghiên_cứu của Liên_đoàn Công_đoàn Nhật_Bản ( Rengo ) thực_hiện năm 2022 cho thấy thời_gian làm ngoài giờ trung_bình của giáo_viên là 123 giờ 16 phút mỗi tháng , vượt xa ngưỡng " có_thể tử_vong do làm_việc quá_sức " ( 80 giờ mỗi tháng ) do Bộ Lao_động Nhật_Bản quy_định . \n Tại Nhật_Bản , trường_học hiện bị coi là nơi l��m_việc " đen " , vì các quy_định lao_động thường_xuyên bị coi_thường . Đây được coi là lý_do lớn nhất khiến nhiều người không muốn ứng_tuyển làm giáo_viên . \n Hồi giữa tháng 8 , cơ_quan này đã thảo_luận việc tăng thù_lao làm ngoài giờ cho giáo_viên trường công_lập , hiện ở mức 4 % mức lương hàng tháng . Theo Hội_đồng , công_việc của giáo_viên có tính_chất đặc_thù nên không_thể áp_dụng cách tính như các công_chức khác . \n Nhiều địa_phương đã áp_dụng một_số biện_pháp để giảm áp_lực làm_việc của giáo_viên . \n Tại thành_phố Gero , tỉnh Gifu , cả 6 trường trung_học cơ_sở đều đẩy thời_gian tan học của học_sinh từ 18h lên 16h30 từ năm_ngoái . Giáo_viên có thời_gian họp sớm hơn trong ngày , giúp họ giảm đáng_kể thời_gian làm ngoài giờ . Còn thành_phố Kakegawa , tỉnh Shizuoka chuyển toàn_bộ hoạt_động ngoại khóa ở trường trung_học cơ_sở sang hoạt_động câu lạc_bộ cộng_đồng vào mùa hè năm 2026 . \n',
112
+ ]
113
+ )
114
+ # [{'corpus_id': ..., 'score': ...}, {'corpus_id': ..., 'score': ...}, ...]
115
+ ```
116
+
117
+ <!--
118
+ ### Direct Usage (Transformers)
119
+
120
+ <details><summary>Click to see the direct usage in Transformers</summary>
121
+
122
+ </details>
123
+ -->
124
+
125
+ <!--
126
+ ### Downstream Usage (Sentence Transformers)
127
+
128
+ You can finetune this model on your own dataset.
129
+
130
+ <details><summary>Click to expand</summary>
131
+
132
+ </details>
133
+ -->
134
+
135
+ <!--
136
+ ### Out-of-Scope Use
137
+
138
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
139
+ -->
140
+
141
+ ## Evaluation
142
+
143
+ ### Metrics
144
+
145
+ #### Cross Encoder Binary Classification
146
+
147
+ * Dataset: `Quora-dev`
148
+ * Evaluated with [<code>CEBinaryClassificationEvaluator</code>](https://sbert.net/docs/package_reference/cross_encoder/evaluation.html#sentence_transformers.cross_encoder.evaluation.CEBinaryClassificationEvaluator)
149
+
150
+ | Metric | Value |
151
+ |:----------------------|:-----------|
152
+ | accuracy | 0.9692 |
153
+ | accuracy_threshold | 0.6976 |
154
+ | f1 | 0.8289 |
155
+ | f1_threshold | 0.1978 |
156
+ | precision | 0.8373 |
157
+ | recall | 0.8206 |
158
+ | **average_precision** | **0.8814** |
159
+
160
+ <!--
161
+ ## Bias, Risks and Limitations
162
+
163
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
164
+ -->
165
+
166
+ <!--
167
+ ### Recommendations
168
+
169
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
170
+ -->
171
+
172
+ ## Training Details
173
+
174
+ ### Training Dataset
175
+
176
+ #### Unnamed Dataset
177
+
178
+ * Size: 29,700 training samples
179
+ * Columns: <code>sentence_0</code>, <code>sentence_1</code>, and <code>label</code>
180
+ * Approximate statistics based on the first 1000 samples:
181
+ | | sentence_0 | sentence_1 | label |
182
+ |:--------|:-------------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------|:-----------------------------------------------|
183
+ | type | string | string | int |
184
+ | details | <ul><li>min: 34 characters</li><li>mean: 108.12 characters</li><li>max: 361 characters</li></ul> | <ul><li>min: 438 characters</li><li>mean: 3019.32 characters</li><li>max: 9121 characters</li></ul> | <ul><li>0: ~90.60%</li><li>1: ~9.40%</li></ul> |
185
+ * Samples:
186
+ | sentence_0 | sentence_1 | label |
187
+ |:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------|
188
+ | <code>Sau 3 ngày đau mắt không thuyên_giảm , bé đã được dẫn đến bệnh_viện khám .</code> | <code>Thấy con_gái 4 tuổi bị đau mắt đỏ , chị Chi , 27 tuổi , ở Tây_Hồ , gọi điện cầu_cứu người bạn thân xin đơn thuốc vì trước đó con của người bạn này cũng nhiễm_bệnh . Đơn thuốc ghi một loại thuốc kháng_sinh và một loại nước_mắt nhân_tạo , kèm hướng_dẫn cách chăm_sóc . <br> " Sáng nay thấy mắt con hơi đỏ , nghĩ con chớm bệnh nên chưa muốn đưa đi khám . Giờ này vào bệnh_viện chỗ nào cũng đông bệnh_nhân , trước_mắt tôi tự nhỏ thuốc cho con , nếu không đỡ mới đi viện " , chị Chi chia_sẻ , hôm 29 / 8 . <br> Ba ngày sau , chị cho con nhập_viện vì tình_trạng ngày_càng nặng , hai mắt trẻ sưng_vù , đau nhức , bác_sĩ kết_luận võng_mạc bệnh_nhi bị trầy_xước - một biến_chứng của đau mắt đỏ , nếu không chữa_trị kịp_thời nguy_cơ giảm thị_lực . <br> Còn con_trai 7 tuổi của chị Lan ở Bắc_Ninh bị đau mắt đỏ lần thứ 2 trong mùa dịch năm nay . Hai tháng trước , chị ra_hiệu thuốc gần nhà mua thuốc nhỏ mắt cho con , sau vài ngày thì khỏi . Lần tái_mắc này , chị cũng dùng đơn thuốc cũ nhưng không có tác_dụng , mắt trẻ...</code> | <code>1</code> |
189
+ | <code>Công_ty tái_cấu_trúc Evergrande yêu_cầu mỗi nhóm có 35 % trái chủ đồng_ý .</code> | <code>Chị Nguyễn_Thị_Huyền , Quản_đốc phân_xưởng may của Nhà_máy dệt_kim Haprosimex ( Công_ty Cổ_phần tập_đoàn Haprosimex ) , bật khóc trong hội_thảo chủ_đề nợ đóng BHXH ngày 21 / 7 , khi kể lại 6 năm đi đòi quyền_lợi từ 2017 đến hết tháng 3 năm nay . <br> Doanh_nghiệp nợ BHXH gần 500 công_nhân từ tháng 7 / 2011 và nợ lương từ tháng 1 / 2017 đến hết tháng 3 / 2023 tổng_cộng hơn 15 tỷ đồng . Người lao_động nhiều lần tìm gặp lãnh_đạo công_ty qua các thời_kỳ , nhưng chỉ nhận được câu trả_lời " doanh_nghiệp khó_khăn , chưa có tiền chi_trả " . <br> Theo chị Huyền , nhiều nữ công_nhân ngóng chế_độ thai_sản từ lúc mang bầu tới khi con lớn vẫn chưa được nhận . Người qua_đời không có tử_tuất , hết tuổi lao_động không có lương hưu . Công_nhân lành_nghề không_thể chuyển việc vì không chốt được sổ BHXH , phải xoay sang rửa bát , chạy xe_ôm . <br> Nữ quản_đốc nghẹn giọng khi nhắc hoàn_cảnh chị_em công_nhân Lê_Thị Là , Lê_Thị Ngân . Trước tháng 3 / 2023 , chị Là hai lần sinh con nhưng chưa được hưởng một đồng thai...</code> | <code>0</code> |
190
+ | <code>Max_Verstappen , Fernando_Alonso và Carlos_Sainz đã quyết_định về pit ở cuối vòng hai để thay lốp , mặc_dù phương_án này khiến họ thiệt_hại khoảng 16 giây so với việc về pit ở vòng đầu , nhưng đây là quyết_định hợp_lý để tối_ưu_hóa hiệu_suất trong điều_kiện thời_tiết biến_đổi .</code> | <code>Irish Open 2023 hạ_màn ngày 3 / 9 với chức vô_địch thuộc về Smilla Tarning_Soenderby , còn Van_Dam đứng T2 với Lisa_Pettersson . Đây là kết_quả sau khi Van_Dam và Pettersson cùng thua Soenderby ở hố phụ ( playoff ) . <br> Tại phần_đấu playoff này , Van_Dam phải phát bằng gậy gỗ số 3 do driver bị gãy trên đường từ green trở_lại khu phát bằng xe điện không mui do trọng_tài Ladies_European Tour cầm lái . <br> Sự_cố xảy ra lúc xe rẽ ra đường_nhựa , luồn dưới dây thừng giới_hạn khu_vực thi_đấu . Van_Dam nâng dây cho xe qua , nhưng nó vướng phần đuôi , ngay chỗ để túi gậy . Và vì_thế , cả bộ " công_cụ lao_động " đổ xuống mặt sân , riêng đầu gậy driver đứt gọn , trong khi nó là hàng dự_phòng và duy_nhất cho golfer Hà_Lan sau khi cây chính hỏng trong quá_trình theo cô lên máy_bay theo diện hành_lý ký_gửi để đến Irish_Open . <br> Không còn " vũ_khí " sở_trường , golfer Nam_Phi phải phát bằng gậy gỗ số 3 khi đấu playoff tại hố 18 par5 với Pettersson và Soenderby , do cả ba_cùng điểm - 16 sau bốn vòng quy...</code> | <code>0</code> |
191
+ * Loss: [<code>BinaryCrossEntropyLoss</code>](https://sbert.net/docs/package_reference/cross_encoder/losses.html#binarycrossentropyloss) with these parameters:
192
+ ```json
193
+ {
194
+ "activation_fn": "torch.nn.modules.linear.Identity",
195
+ "pos_weight": null
196
+ }
197
+ ```
198
+
199
+ ### Training Hyperparameters
200
+ #### Non-Default Hyperparameters
201
+
202
+ - `eval_strategy`: steps
203
+ - `per_device_train_batch_size`: 32
204
+ - `per_device_eval_batch_size`: 32
205
+ - `num_train_epochs`: 1
206
+ - `disable_tqdm`: False
207
+
208
+ #### All Hyperparameters
209
+ <details><summary>Click to expand</summary>
210
+
211
+ - `overwrite_output_dir`: False
212
+ - `do_predict`: False
213
+ - `eval_strategy`: steps
214
+ - `prediction_loss_only`: True
215
+ - `per_device_train_batch_size`: 32
216
+ - `per_device_eval_batch_size`: 32
217
+ - `per_gpu_train_batch_size`: None
218
+ - `per_gpu_eval_batch_size`: None
219
+ - `gradient_accumulation_steps`: 1
220
+ - `eval_accumulation_steps`: None
221
+ - `torch_empty_cache_steps`: None
222
+ - `learning_rate`: 5e-05
223
+ - `weight_decay`: 0.0
224
+ - `adam_beta1`: 0.9
225
+ - `adam_beta2`: 0.999
226
+ - `adam_epsilon`: 1e-08
227
+ - `max_grad_norm`: 1
228
+ - `num_train_epochs`: 1
229
+ - `max_steps`: -1
230
+ - `lr_scheduler_type`: linear
231
+ - `lr_scheduler_kwargs`: {}
232
+ - `warmup_ratio`: 0.0
233
+ - `warmup_steps`: 0
234
+ - `log_level`: passive
235
+ - `log_level_replica`: warning
236
+ - `log_on_each_node`: True
237
+ - `logging_nan_inf_filter`: True
238
+ - `save_safetensors`: True
239
+ - `save_on_each_node`: False
240
+ - `save_only_model`: False
241
+ - `restore_callback_states_from_checkpoint`: False
242
+ - `no_cuda`: False
243
+ - `use_cpu`: False
244
+ - `use_mps_device`: False
245
+ - `seed`: 42
246
+ - `data_seed`: None
247
+ - `jit_mode_eval`: False
248
+ - `use_ipex`: False
249
+ - `bf16`: False
250
+ - `fp16`: False
251
+ - `fp16_opt_level`: O1
252
+ - `half_precision_backend`: auto
253
+ - `bf16_full_eval`: False
254
+ - `fp16_full_eval`: False
255
+ - `tf32`: None
256
+ - `local_rank`: 0
257
+ - `ddp_backend`: None
258
+ - `tpu_num_cores`: None
259
+ - `tpu_metrics_debug`: False
260
+ - `debug`: []
261
+ - `dataloader_drop_last`: False
262
+ - `dataloader_num_workers`: 0
263
+ - `dataloader_prefetch_factor`: None
264
+ - `past_index`: -1
265
+ - `disable_tqdm`: False
266
+ - `remove_unused_columns`: True
267
+ - `label_names`: None
268
+ - `load_best_model_at_end`: False
269
+ - `ignore_data_skip`: False
270
+ - `fsdp`: []
271
+ - `fsdp_min_num_params`: 0
272
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
273
+ - `fsdp_transformer_layer_cls_to_wrap`: None
274
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
275
+ - `deepspeed`: None
276
+ - `label_smoothing_factor`: 0.0
277
+ - `optim`: adamw_torch
278
+ - `optim_args`: None
279
+ - `adafactor`: False
280
+ - `group_by_length`: False
281
+ - `length_column_name`: length
282
+ - `ddp_find_unused_parameters`: None
283
+ - `ddp_bucket_cap_mb`: None
284
+ - `ddp_broadcast_buffers`: False
285
+ - `dataloader_pin_memory`: True
286
+ - `dataloader_persistent_workers`: False
287
+ - `skip_memory_metrics`: True
288
+ - `use_legacy_prediction_loop`: False
289
+ - `push_to_hub`: False
290
+ - `resume_from_checkpoint`: None
291
+ - `hub_model_id`: None
292
+ - `hub_strategy`: every_save
293
+ - `hub_private_repo`: None
294
+ - `hub_always_push`: False
295
+ - `gradient_checkpointing`: False
296
+ - `gradient_checkpointing_kwargs`: None
297
+ - `include_inputs_for_metrics`: False
298
+ - `include_for_metrics`: []
299
+ - `eval_do_concat_batches`: True
300
+ - `fp16_backend`: auto
301
+ - `push_to_hub_model_id`: None
302
+ - `push_to_hub_organization`: None
303
+ - `mp_parameters`:
304
+ - `auto_find_batch_size`: False
305
+ - `full_determinism`: False
306
+ - `torchdynamo`: None
307
+ - `ray_scope`: last
308
+ - `ddp_timeout`: 1800
309
+ - `torch_compile`: False
310
+ - `torch_compile_backend`: None
311
+ - `torch_compile_mode`: None
312
+ - `dispatch_batches`: None
313
+ - `split_batches`: None
314
+ - `include_tokens_per_second`: False
315
+ - `include_num_input_tokens_seen`: False
316
+ - `neftune_noise_alpha`: None
317
+ - `optim_target_modules`: None
318
+ - `batch_eval_metrics`: False
319
+ - `eval_on_start`: False
320
+ - `use_liger_kernel`: False
321
+ - `eval_use_gather_object`: False
322
+ - `average_tokens_across_devices`: False
323
+ - `prompts`: None
324
+ - `batch_sampler`: batch_sampler
325
+ - `multi_dataset_batch_sampler`: proportional
326
+ - `router_mapping`: {}
327
+ - `learning_rate_mapping`: {}
328
+
329
+ </details>
330
+
331
+ ### Training Logs
332
+ | Epoch | Step | Training Loss | Quora-dev_average_precision |
333
+ |:------:|:----:|:-------------:|:---------------------------:|
334
+ | 0.5382 | 500 | 0.1773 | 0.8343 |
335
+ | 1.0 | 929 | - | 0.8814 |
336
+
337
+
338
+ ### Framework Versions
339
+ - Python: 3.10.12
340
+ - Sentence Transformers: 5.1.2
341
+ - Transformers: 4.47.0
342
+ - PyTorch: 2.5.1+cu121
343
+ - Accelerate: 1.2.1
344
+ - Datasets: 3.2.0
345
+ - Tokenizers: 0.21.0
346
+
347
+ ## Citation
348
+
349
+ ### BibTeX
350
+
351
+ #### Sentence Transformers
352
+ ```bibtex
353
+ @inproceedings{reimers-2019-sentence-bert,
354
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
355
+ author = "Reimers, Nils and Gurevych, Iryna",
356
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
357
+ month = "11",
358
+ year = "2019",
359
+ publisher = "Association for Computational Linguistics",
360
+ url = "https://arxiv.org/abs/1908.10084",
361
+ }
362
+ ```
363
+
364
+ <!--
365
+ ## Glossary
366
+
367
+ *Clearly define terms in order to be accessible across audiences.*
368
+ -->
369
+
370
+ <!--
371
+ ## Model Card Authors
372
+
373
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
374
+ -->
375
+
376
+ <!--
377
+ ## Model Card Contact
378
+
379
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
380
+ -->
added_tokens.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ {
2
+ "<mask>": 64000
3
+ }
bpe.codes ADDED
The diff for this file is too large to render. See raw diff
 
config.json ADDED
@@ -0,0 +1,38 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "itdainb/PhoRanker",
3
+ "architectures": [
4
+ "RobertaForSequenceClassification"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "bos_token_id": 0,
8
+ "classifier_dropout": null,
9
+ "eos_token_id": 2,
10
+ "hidden_act": "gelu",
11
+ "hidden_dropout_prob": 0.1,
12
+ "hidden_size": 768,
13
+ "id2label": {
14
+ "0": "LABEL_0"
15
+ },
16
+ "initializer_range": 0.02,
17
+ "intermediate_size": 3072,
18
+ "label2id": {
19
+ "LABEL_0": 0
20
+ },
21
+ "layer_norm_eps": 1e-05,
22
+ "max_position_embeddings": 258,
23
+ "model_type": "roberta",
24
+ "num_attention_heads": 12,
25
+ "num_hidden_layers": 12,
26
+ "pad_token_id": 1,
27
+ "position_embedding_type": "absolute",
28
+ "sentence_transformers": {
29
+ "activation_fn": "torch.nn.modules.activation.Sigmoid",
30
+ "version": "5.1.2"
31
+ },
32
+ "tokenizer_class": "PhobertTokenizer",
33
+ "torch_dtype": "float32",
34
+ "transformers_version": "4.47.0",
35
+ "type_vocab_size": 1,
36
+ "use_cache": true,
37
+ "vocab_size": 64001
38
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:654d7c9932668ff1cff8f07a24c4771a8f9a92254d8698108d7bcc68e60c7198
3
+ size 540020308
special_tokens_map.json ADDED
@@ -0,0 +1,9 @@
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": "<s>",
3
+ "cls_token": "<s>",
4
+ "eos_token": "</s>",
5
+ "mask_token": "<mask>",
6
+ "pad_token": "<pad>",
7
+ "sep_token": "</s>",
8
+ "unk_token": "<unk>"
9
+ }
tokenizer_config.json ADDED
@@ -0,0 +1,55 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "64000": {
36
+ "content": "<mask>",
37
+ "lstrip": false,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": false,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "extra_special_tokens": {},
49
+ "mask_token": "<mask>",
50
+ "model_max_length": 256,
51
+ "pad_token": "<pad>",
52
+ "sep_token": "</s>",
53
+ "tokenizer_class": "PhobertTokenizer",
54
+ "unk_token": "<unk>"
55
+ }
vocab.txt ADDED
The diff for this file is too large to render. See raw diff