Spaces:

XuemeiTang
/

LLM4LitReview_Benchmark

Running

tangtang commited on Oct 31

Commit

c7ca903

1 Parent(s): 23c8313

Update space1

Files changed (3) hide show

src/about.py CHANGED Viewed

@@ -10,9 +10,9 @@ class Task:
 class Tasks(Enum):
     # task_key in the json file, metric_key in the json file, name to display in the leaderboard
-    Reference_Generation_Precision = Task("Reference_Generation", "Precision","Precision (%)")
-    Title_search_rate = Task("Reference Generation",
-                            "Title_search_rate", "Title search rate (%)")
     # Overlap_rate = Task("Reference Generation",
     #                         "Overlap_rate", "Overlap_rate (%)")
     # Similarity = Task("Abstract Writing",
@@ -42,7 +42,8 @@ class Tasks(Enum):
     #                         "ROUGE-2", "ROUGE-2↑")
     # ROUGE_L = Task("Review Composition",
     #                         "ROUGE-L", "ROUGE-L↑")
     # factual_consistency_rate = Task("factual_consistency_rate", "factual_consistency_rate", "Factual Consistency Rate (%)")
     # answer_rate = Task("answer_rate", "answer_rate", "Answer Rate (%)")
     # average_summary_length = Task("average_summary_length",

 class Tasks(Enum):
     # task_key in the json file, metric_key in the json file, name to display in the leaderboard
+    # Reference_Generation_Precision = Task("Reference_Generation", "Precision","Precision (%)")
+    # Title_search_rate = Task("Reference Generation",
+    #                         "Title_search_rate", "Title search rate (%)")
     # Overlap_rate = Task("Reference Generation",
     #                         "Overlap_rate", "Overlap_rate (%)")
     # Similarity = Task("Abstract Writing",
     #                         "ROUGE-2", "ROUGE-2↑")
     # ROUGE_L = Task("Review Composition",
     #                         "ROUGE-L", "ROUGE-L↑")
+    hallucination_rate = Task("hallucination_rate", "hallucination_rate", "Hallucination Rate (%)")
+    # reference_validity_rate = Task("reference_validity_rate", "reference_validity_rate",
     # factual_consistency_rate = Task("factual_consistency_rate", "factual_consistency_rate", "Factual Consistency Rate (%)")
     # answer_rate = Task("answer_rate", "answer_rate", "Answer Rate (%)")
     # average_summary_length = Task("average_summary_length",

src/display/utils.py CHANGED Viewed

@@ -26,7 +26,7 @@ auto_eval_column_dict = []
 auto_eval_column_dict.append(["model_type_symbol", ColumnContent, ColumnContent("T", "str", True, never_hidden=True)])
 auto_eval_column_dict.append(["model", ColumnContent, ColumnContent("Model", "markdown", True, never_hidden=True)])
 #Scores
-# auto_eval_column_dict.append(["average", ColumnContent, ColumnContent("Average ⬆️", "number", True)])
 for task in Tasks:
     auto_eval_column_dict.append([task.name, ColumnContent, ColumnContent(task.value.col_name, "number", True)])
 # Model information

 auto_eval_column_dict.append(["model_type_symbol", ColumnContent, ColumnContent("T", "str", True, never_hidden=True)])
 auto_eval_column_dict.append(["model", ColumnContent, ColumnContent("Model", "markdown", True, never_hidden=True)])
 #Scores
+auto_eval_column_dict.append(["average", ColumnContent, ColumnContent("Average ⬆️", "number", True)])
 for task in Tasks:
     auto_eval_column_dict.append([task.name, ColumnContent, ColumnContent(task.value.col_name, "number", True)])
 # Model information

src/populate.py CHANGED Viewed

@@ -18,11 +18,11 @@ def get_leaderboard_df(results_path: str, requests_path: str, cols: list, benchm
     # print(df.head(10))
     # 将数组转标量，空数组变为 0
-    df["Precision (%)"] = df["Precision (%)"].apply(lambda x: x[0] if len(x) > 0 else 0)
-    df["Title search rate (%)"] = df["Title search rate (%)"].apply(lambda x: x[0] if len(x) > 0 else 0)
     # 平均值列
-    df["Average ⬆️"] = df[["Precision (%)", "Title search rate (%)"]].mean(axis=1)
     # 排序
     df = df.sort_values(by=["Average ⬆️"], ascending=False)

     # print(df.head(10))
     # 将数组转标量，空数组变为 0
+    # df["Precision (%)"] = df["Precision (%)"].apply(lambda x: x[0] if len(x) > 0 else 0)
+    # df["Title search rate (%)"] = df["Title search rate (%)"].apply(lambda x: x[0] if len(x) > 0 else 0)
     # 平均值列
+    # df["Average ⬆️"] = df[["Precision (%)", "Title search rate (%)"]].mean(axis=1)
     # 排序
     df = df.sort_values(by=["Average ⬆️"], ascending=False)