DANGerous tommydangerous

🧙

Fire!

Making data more accessible.

tommydangerous / create_vectors.py

Created June 17, 2021 05:35

create_vectors.py

tommydangerous / baseline_accuracy.py

Created June 11, 2021 05:52

baseline_accuracy.py

	baseline_accuracy_score = y_test.value_counts()[0] / len(y_test)

	print(f'Model performance. : {accuracy}')
	print(f'Baseline performance: {baseline_accuracy_score}')

tommydangerous / calculate_model_accuracy.py

Created June 11, 2021 05:51

calculate_model_accuracy.py

	from sklearn.metrics import accuracy_score

	accuracy = accuracy_score(y_test, y_pred)
	print(f'Accuracy score: {accuracy}')

tommydangerous / predict_test_data.py

Created June 11, 2021 05:49

predict_test_data.py

y_pred = classifier.predict(X_test)

tommydangerous / prepare_test_data.py

Created June 11, 2021 05:46

prepare_test_data.py

	X_test = X_test_raw.copy()

	# Add columns
	X_test['can_vote'] = X_test['Age'].apply(lambda age: 1 if age >= 18 else 0)
	X_test.loc[:, 'cabin_letter'] = X_test['Cabin'].apply(
	lambda cabin: cabin[0] if cabin and type(cabin) is str else None,
	)

	# Remove columns
	X_test = X_test.drop(columns=['Name', 'PassengerId'])

tommydangerous / train_model.py

Created June 11, 2021 05:45

train_model.py

classifier.fit(X_train, y_train)

tommydangerous / choose_algorithm.py

Created June 11, 2021 05:41

choose_algorithm.py

	from sklearn.linear_model import LogisticRegression

	classifier = LogisticRegression(max_iter=10000)

tommydangerous / select_features.py

Created June 11, 2021 05:39

select_features.py

	features_to_use = [
	'Age',
	'SibSp',
	'Parch',
	'Fare',
	'can_vote',
	] + new_column_names
	X_train = df[features_to_use].copy()

tommydangerous / encode_values.py

Created June 11, 2021 05:38

encode_values.py

	from sklearn.preprocessing import OneHotEncoder

	categorical_columns = ['Pclass', 'Sex', 'Embarked', 'cabin_letter']
	categorical_encoder = OneHotEncoder(handle_unknown='ignore')
	categorical_encoder.fit(df[categorical_columns])

	# Add the new columns to the data
	new_column_names = []
	for idx, cat_column_name in enumerate(categorical_columns):
	values = categorical_encoder.categories_[idx]

tommydangerous / scale_values.py

Created June 11, 2021 05:34

scale_values.py

	from sklearn.preprocessing import StandardScaler

	scaler = StandardScaler()
	df.loc[:, ['Age']] = scaler.fit_transform(df[['Age']])